Data science eda
# 探索的データ分析(EDA)とは
EDA (Explanatory Data Analysis)
- データの構造を理解
- データの前処理
- 特徴量エンジニアリング
データの視覚化や、パターンを確認して特徴量やターゲットの相関を見る
探索的データ分析の目的
- 予測性能に貢献する新しい特徴量を見つけるために行う
- データに隠された傾向をあばき、新しい特徴量につながる気付きを得る
どこにどんなデータがあるかを確認する
- どこにデータがあるか
- どんなデータがあるか
- データの関連性はどうなっているか
データの質と量を把握する
- データの量(DBならテーブル数や行数、列数)
- データの質(どんなカラムがあるか、データ型)
各種統計量を確認する
- 平均値
- 最大値・最小値
- 標準偏差
各種変数の相関関係を確認する
- 正の相関
- 負の相関
相関関係 ≠ 因果関係
欠損値を確認する
- 欠損値があるか
- 欠損値の処理方法
外れ値を確認する
- 外れ値があるか
- 外れ値があると推定精度が下がる
- 平均値や分散は外れ値の影響を受けやすい
- 中央値や四分位数は外れ値の影響を受けにくい
データの再表現(変数変換)
- データの対数変換
- データの逆数をとる
データの視覚化
- 変数間や目的変数との散布図