【KNIME】ノード紹介：GroupBy　〜同じものをひとまとめに〜 - 非プログラマーのためのインフォマティクス入門。（仮）

前回までにcell splitterを使って、セルの中身を縦・横にぶった切る方法を紹介しました。

【KNIME】ノード紹介：cell splitterとUngroupのコラボ〜文字列を縦方向に分割したい〜

予告通り、今回はバラバラにしたものを元の形に戻す方法を紹介したいと思います。

…KNIME内の処理は、最初のデータを上書きして消しているわけではないので作業自体に意味はないです。でも、子供の頃とかいろんな玩具や機械を分解したことありませんか？その時に、もう一度組み直すことができるとなんとなく仕組みがわかった気が私はしました。やっぱり綺麗なデータを準備するには、tableの中身を自在に扱えた方がいいと思います。なので、【バラす】【まとめる】を続けて紹介したいなーと感じ今回の題材を選びました。

例題では、前回のデータの名前(年齢も重複ですが)が重複するものをまとめて、元の形に戻していきます。

f:id:sumtat:20170728220234p:plain

GroupBy

名前通り、【***でグループにする】処理を実行するノードです。使用頻度は非常に高いです。

早速設定画面を見ていきます。

f:id:sumtat:20170729214906p:plain

　まずはGroupsの設定です。どのカラム内のデータに対し重複を探してまとめるかを指定します。今回は【名前】を指定しました。もし、このに年齢も指定すると「名前も年齢も同じ場合はまとめる」という意味になります。

続いてManual Aggregationの設定に移ります。

f:id:sumtat:20170729220630p:plain この設定をしないと、Groupsで指定したカラムしか残りません。まとめた時に、他のカラムはどうするの？というKNIMEの疑問に答えるのがこの設定になります。Available columnsにあるもののうち、残しておきたい情報を右側に移動します。で、Aggregation (clicl to change)の部分を指示通りクリックするとプルダウンで選択肢が選べます。今回はUnique concatenate(重複を除去して連結)、Concatenate(全て連結)を指定しました。連結時の区切り文字は画面下部のValue delimiterで指定できます。今回は改行としました。Column naming に関しては、私は事情がない限りKeep original name(s)を選択します。