コンテンツにスキップ

Data science eda

# 探索的データ分析(EDA)とは

EDA (Explanatory Data Analysis)

  • データの構造を理解
  • データの前処理
  • 特徴量エンジニアリング

データの視覚化や、パターンを確認して特徴量やターゲットの相関を見る

探索的データ分析の目的

  • 予測性能に貢献する新しい特徴量を見つけるために行う
  • データに隠された傾向をあばき、新しい特徴量につながる気付きを得る

どこにどんなデータがあるかを確認する

  • どこにデータがあるか
  • どんなデータがあるか
  • データの関連性はどうなっているか

データの質と量を把握する

  • データの量(DBならテーブル数や行数、列数)
  • データの質(どんなカラムがあるか、データ型)

各種統計量を確認する

  • 平均値
  • 最大値・最小値
  • 標準偏差

各種変数の相関関係を確認する

  • 正の相関
  • 負の相関

相関関係 ≠ 因果関係

欠損値を確認する

  • 欠損値があるか
  • 欠損値の処理方法

外れ値を確認する

  • 外れ値があるか
  • 外れ値があると推定精度が下がる
  • 平均値や分散は外れ値の影響を受けやすい
  • 中央値や四分位数は外れ値の影響を受けにくい

データの再表現(変数変換)

  • データの対数変換
  • データの逆数をとる

データの視覚化

  • 変数間や目的変数との散布図