Pythonを頻繁に使用する方々にとって、パンダスライブラリはデータ操作と分析のための貴重なツールです。
多岐にわたるメソッドを提供することで、パンダスはデータ処理タスクを効率化します。
このガイドでは、20以上の頻繁に使用されるパンダスのメソッドを探求し、基本的な構文と高度な応用例を提供します。
データサイエンティスト、アナリスト、プログラマーの方々にとって、このガイドはデータ駆動のプロジェクトでパンダスの可能性を最大限に活用する手助けとなるでしょう。
第1章: データの読み込みと確認
CSVファイルを読み込む
pd.read_csv()
: CSVファイルをパンダスのDataFrameに読み込む。
import pandas as pd df = pd.read_csv('data.csv')
エクセルファイルを読み込む
pd.read_excel()
: xlsxファイルをパンダスのDataFrameに読み込む。
import pandas as pd df = pd.read_csv('data.csv')
正しくデータフレームを作れたか確認する
df.head()
: DataFrameの最初の数行を表示する。
print(df.head())
データフレームの概要を調べる
df.info()
: DataFrameの構造に関する要約情報を提供する。
print(df.info())
第2章: データの選択とフィルタリング
行を指定して抜き出す
df.loc[]
および df.iloc[]
: ラベルまたはインデックスによってデータにアクセスする。
selected_data = df.loc[5:10, ['column1', 'column2']]
データにフィルタをかける
df.query()
: クエリ式に基づいて行をフィルタリングする。
filtered_data = df.query('column1 > 100')
第3章: データの変換と操作
指定した行または列を削除する
df.drop()
: DataFrameから列または行を削除する。
df_cleaned = df.drop(['column_to_drop'], axis=1)
データフレームをグループ化する
df.groupby()
: データをグループ化して集計操作を行う。
group_summary = df.groupby('category')['value'].mean()
セルもしくは列に関数を適用する
df.apply()
: 要素または列に関数を適用する。
def custom_function(x): return x ** 2 df['column_squared'] = df['column'].apply(custom_function)