データは前処理が9割? ~KNIMEとそのインストール~
脱エクセル
ビッグデータだとか、データサイエンスだとか、近年よく耳にするワードかと思います。ただ、そんな流れに柔軟に対応できていない・できない人も多いと思うんです。
この取り残された側に筆者もいるのですが、周囲の状況としては
- 古き良き時代?の紙ベース業務から、ようやくエクセルくらいは当たり前にはなっている
- 手作業(コピペやデータ照合)を頑張ると、褒めれちゃう異常な環境
なんかが挙げられます。
エクセルは優れたアプリケーションだとは思います。初見でもある程度使えますし、知名度も高い。多様な処理も可能です。
一方で、初見で使えてしまうために"セルの結合"や"セル内の改行"など、後の解析等には不都合な処理が施されたデータが蔓延します。また多様な処理を実行するためにはエクセル関数を覚えたり、さらにはVBAなどを記述するスキルが必要です。
特にVBAのようなコード作成が必要になると、自分には無理だーと感じてしまう人も多いと思います。実際に私もその一員です。
そこで出会ったのが"KNIME"です。ナイムと読みます。
ドイツのコンスタンツ大学というところが開発したアプリケーションです。
タダです。(ちなみにエクセルは有料)
上の画像は【エクセルファイルを読む】→【欲しい行を残す】→【エクセルファイルとして書き出す】という処理をする時の例です。
ひとつひとつのやりたい処理をKNIME内に用意されている箱をドラッグ&ドロップでつなげて一本の流れにするだけのお手軽簡単ソフトです。
ちょっと前に流行ったWorkflowというアプリに似ていますね。
インストールの方法はKNIMEの公式ページから各自の環境(OS)に対応した
KNIME Analytics Platform + all free extensions
をダウンロードして実行しよう!というものです。
上のリンク先からDownload nowをクリックします。
KNIME公式からのお知らせ(updateのお知らせとか)が欲しい方は①に名前やE-mailなどを入れてください。そんなのいらない方は②をクリックすればインストーラーをゲットできるページに移るので、特に入力は不要です。繰り返しになりますが、リストの中から各自の環境(OS)に対応した【KNIME Analytics Platform + all free extensions】を選択して、インストーラーを落としてきてください。1ギガちょいあるので、それなりに時間かかります。
あとは、インストーラーを実行すればOKです。
さまざまなツールがあるようですが、KNIMEはデータ解析に向かない"汚い"データを綺麗にする前処理から、回帰分析、機械学習などかなり幅広い使い方をすることができます。
統計や機械学習の知識・スキルが重要なのはもちろんですが、元となる"綺麗に整えられたデータ"がなければお話になりません。
KNIMEの活用法として、そんな基本的な部分がまとめてあるサイトや国内コミュニティーなども見当たらないので、自分が勉強したことを少しずつ紹介していけたらいいなと思っています。