SkillUp AI社が提供しているPython入門講座の4日目を修了しました。
( 1日目 , 2日目, 3日目 )
Day4:データの整理 – Pandas について
Pandasとは
Pandasとは、データを整形などデータを扱うためのライブラリです。
データを表形式で扱う時に活躍します。
Day3で学習したNumpyは行列・ベクトルデータでしたが、Pandasは表形式です。SQLの扱いに近いと思います。以下イメージです。
講座の内容
内容は平たく言うと2点です。
- データフレームの基本操作(作成、参照、加工)
- 機械学習における欠損値の処理
csvファイルのデータを読み込んでデータフレームを作成、データを加工するという流れが一般的なようです。
後はデータフレームに対して参照や加工を行うという内容でした。
データフレームの基本操作(作成、参照、加工)
SQLと同じような操作ができるのですが、書式が独特です。
慣れるまでが大変そうです。
Ageが12より大きいデータのHeightとWeightを参照する書式
他にもデータの並び替え、グループ化、統計値一覧出力など色々できます。
確かに便利ですね。
機械学習における欠損値の処理
機械学習でPandasを使う大きな目的の一つが「欠損値の処理」とのことです。
欠損値があると機械学習が適切に行われない可能性があるため、事前にデータを整形するということです。
基本的な流れは以下のとおり。
①欠損値の抽出
②欠損値の特徴(数など)を見てデータ整形方法を決める。
※データを除外するか、平均値などに置き換えるかを決める
③データ整形する。
Day4の感想
概要はおおむね理解できました。
ただ、プログラム側はかなり難しくなってきたと感じます。
確認テストも60点でした‥。
実際に何か成果物を作り出すアウトプット学習をしないと、なかなか覚えられないということでしょうね。
コメント