機械学習のためのPython入門講座 Day4

AI

SkillUp AI社が提供しているPython入門講座の4日目を修了しました。
1日目 , 2日目, 3日目

Day4:データの整理 – Pandas について

Pandasとは

Pandasとは、データを整形などデータを扱うためのライブラリです。
データを表形式で扱う時に活躍します。

Day3で学習したNumpyは行列・ベクトルデータでしたが、Pandasは表形式です。SQLの扱いに近いと思います。以下イメージです。

講座の内容

内容は平たく言うと2点です。

  • データフレームの基本操作(作成、参照、加工)
  • 機械学習における欠損値の処理

csvファイルのデータを読み込んでデータフレームを作成、データを加工するという流れが一般的なようです。

後はデータフレームに対して参照や加工を行うという内容でした。

データフレームの基本操作(作成、参照、加工)

SQLと同じような操作ができるのですが、書式が独特です。
慣れるまでが大変そうです。

Ageが12より大きいデータのHeightとWeightを参照する書式

SQLだと「Select Height,Weight From df Where Age > 12; 」って感じですかね。

他にもデータの並び替え、グループ化、統計値一覧出力など色々できます。
確かに便利ですね。

機械学習における欠損値の処理

機械学習でPandasを使う大きな目的の一つが「欠損値の処理」とのことです。
欠損値があると機械学習が適切に行われない可能性があるため、事前にデータを整形するということです。

基本的な流れは以下のとおり。

①欠損値の抽出
②欠損値の特徴(数など)を見てデータ整形方法を決める。
 ※データを除外するか、平均値などに置き換えるかを決める
③データ整形する。

Day4の感想

概要はおおむね理解できました。

ただ、プログラム側はかなり難しくなってきたと感じます。
確認テストも60点でした‥。

実際に何か成果物を作り出すアウトプット学習をしないと、なかなか覚えられないということでしょうね。

コメント

タイトルとURLをコピーしました