即書評

AI、IoTを成功に導くデータ前処理の極意の感想|統計の基礎も学べる

【AI、IoTを成功に導くデータ前処理の極意】(以下、データ前処理の極意)は2018/9/13発売の日立産業制御ソリューションズさんの著書です。

データ前処理の極意の感想・ポイント


データ前処理の極意と書いていますが、データ前処理の基本とした方が的確かと思います。

また、

  • 統計の基礎的な用語
  • データ分析ソフト「KNINE」

の基本も学べますので、それを知りたい人にもおすすめので書籍です。

ただ、「KNINE」を使わなくても書籍の全体の流れはわかるようになっていますので安心してください。

AIに同じようなデータを大量に与えても学習しない

これは、AIを算数の計算を理解しようとしている小学生にたとえてみるとよく分かります。足し算を理解させるために「1+1=2」というところから学習します。しかし、いったん「a+b=c」という足し算の仕組みを理解したら、aやbにどれだけ多くの種類のデータを与えても、足し算はできますが、引き算やかけ算、割り算を学習することはありません。したがって、AIにとって同じような意味を持つデータは削減し、新たな学習をするような特徴のあるデータを残すほうがよいのです。このようにAIに与えるデータを圧縮するような前処理によって、ビッグデータの容量を削減できます。

データ前処理の極意より

データが多ければ多いほどよいわけではないということが分かりました。
「とりあえず、大量のデータをドーン!!」
って感じだと思っていたので勉強になりました。

また、人間の脳にも同じようなことが言えそうですね。

覚えておきたい基本用語

「モデリング」とは、統計的手法を用いて「説明」、「予測」、「分類」のモデルを作成することです。
モデルとは、データを基に抽出されたルールや方程式です。モデリングは、AIの心臓部を作る作業といえます。

データ前処理の極意より

「説明」のモデルは、「目的変数」に対して「説明変数」がどれだけ影響を及ぼしているかを表します。目的変数とは、分析の目的となる項目で、説明変数とは目的変数の変化を説明する項目です。
「予測」のモデルは、説明変数を使用して目的変数を予測します。
「分類」のモデルは、それぞれの項目値の距離や統計量を基準として類似するものをグループ化することです。

データ前処理の極意より

文章だけで分かりにくいかもしれませんが、覚えておくと役に立ちそうな用語です。
本書では、図や例を交えて解説されています。

副作用の例が分かりやすい

この場合、副作用がある人はどういう条件なのかを分析することが目的となり、目的変数は「副作用」になります。それに関連する項目として「投与薬」、「年齢」、「体重」が説明変数になります。

データ前処理の極意より

データ前処理の極意の感想まとめ

本章を読んで「なんでこんな面倒な作業がいるの?」「AIはデータを与えると何かすごい特徴を出してくれるのでしょ?」と考える人も多いでしょう。しかし、現在のAIはまだまだ「特定」の問題に特化したものになっているのが実情です。この「特定」というのが「何を分析するのか」です。「配管の画像を認識するAI」や「ゲームの次の手を予測するAI」といったものです。「機械の稼働パターンを分類する」という分析をする場合には、データをそのまま投入してもよいでしょうが、「故障したときの原因分析」となれば、正常に停止していたデータを分析対象外にしなければAIは正常に停止していた箇所も異常に停止していた箇所と同じと考えて分析してしまいます。

データ前処理の極意より

本章と書かれていますが、本書と読み替えても相違ないと思います。
AI、ビッグデータとて万能ではなく、まだまだ人間が判断をしなければならないことも多そうです。

AIの仕組みを理解することでAIにどんなデータを与えるべきか分かります。
本書はそれを理解するきっかけになるはずです。

スポンサードリンク
フォローしていただけると喜びます。
Return Top