Python PandasのDataFrame操作方法まとめ
基本操作
インポート
CSV読み込み
df = pd.read_csv("data.csv")
データ数を確認
先頭から行を表示
# 引数を渡さない場合、先頭の5行が返る
df.head(10)
最後尾から行を表示
# 引数を渡さない場合、最後尾の5行が返る
df.tail(10)
行数を指定して表示
行を取得
df.loc['行名']
df.loc[['行名','行名']] # 複数行
行数を表示
データ型の確認
df = pd.read_csv('data.csv')
df.info()
# non-null 欠損値を確認できる
# object 文字列が存在する
欠損値の確認
df.isnull() # 欠損値が含まれていればTrue
df.isnull().sum() #欠損値の数を表示する
※notnull()で欠損値でない数を確認
欠損値の行を削除
欠損値の補完
カラムの平均値を求める
Nanのデータを取り出す
sample_nan_data = df[df["age"].isnull()]
基本統計量を確認する
df.describe()
# count: データの個数
# mean: 平均値
# std: 標準偏差
# min: 最小値
# 25%: 第一四分位数
# 50%: 第二四分位数(中央値)
# 75%: 第三四分位数
# max: 最大値
特徴量の加工
複数カラムを抜き出す
select_columns = ['age','height','weight']
print(data[select_columns])
Reference