KNIMEで化合物をクラスタリング＆可視化してみよう - 非プログラマーのためのインフォマティクス入門。（仮）

みなさん、こんにちは。

私は急な気温の変化と、ブタクサ？花粉で体調がイマイチです。

心はあまり元気でないので、せめて体は元気で過ごしたいものです。

　さて、今回は何について書こうかなーと考えていたのですが、前回、ChEMBLからとってきた情報を使ってクラスタリングでもしてみようかなと思います。

f:id:sumtat:20170917232938p:plain

　上記のように、前回はNS5Bポリメラーゼ阻害剤関する1697化合物ついて、文献名と活性値を持つテーブルを作成しました。これを構造ベースでクラスタリングしていきます。結果をわかりやすくするために、記載されている化合物数が多い文献上位５件に関して作業をしていきます。

全体のフローとしてはこんな感じです↓

f:id:sumtat:20170917233759p:plain

それではスタートです！

化合物数上位5文献の絞り込み

　当然ですが、そんなノードはありません。どうすれば自分のやりたいことができるかをイメージしなくてはなりません。複雑な処理でなければ、これまでに過去記事で紹介したノードを組み合わせれば結構いろんなことができると思います。

　さて、今回の場合はまずValue Counterを使って、文献名の重複をカウントします。この結果ゲットできるのは、各文献に何化合物記載されているか？という内容と同義です。

f:id:sumtat:20170917234730p:plain

この結果のcountを大きい順にソートします。

Sorter

既に紹介済みかと思っていましたが、まだでした。名前通りのノードです。

f:id:sumtat:20170917235244p:plain

　ソートしたいカラムを指定して、昇順 or 降順のどちらにするか選びます。new columnsをクリックすると、優先順位が２番目のカラムを指定してソートできます。３番目、4番目と項目を増やしていくことができます。今回は上記のように設定し、続くRow filterで最初から5行のデータを抽出します。

f:id:sumtat:20170918000137p:plain

　ここまでできたら、Reference Row Splitterを使って全体のデータから、下のルートで作成した文献名をもつものだけを抽出します。

f:id:sumtat:20170918000848p:plain

　化合物のクラスタリングをするという目的には関係無い内容でしたが、ここまでで前処理はおしまいです。

いよいよクラスタリングを実施します。

今回はECFP4のtanimoto similarityで分類します。*1

まずはFingerprintsノードをつかってECFP4を吐き出させます。*2

Distance Matrix Caluclate

各行のデータ間の距離を総当たりで計算してくれます。

f:id:sumtat:20170918003915p:plain

　色んな手法の距離を計算してくれますが、今回は前述の通りtanimotoを選びます。すると、Fingerprintsノードにより吐き出された結果のカラム(bit vector)が緑枠内に入ってくるはずです。上記のような設定で実行してみます。

f:id:sumtat:20170918004159p:plain

　Distanceカラムが新たに作成されました。ちょっとわかりにくい書き方ですが、総当たりの距離が格納されています。【総当たり対戦表の、対角線で区切った片側の三角部分】のようなイメージです。この距離の近いもの同士のグループを作ってやることで類似化合物群をまとめていきます(クラスタリング)。

k-Medoids

k-medoid法によるクラスタリングを実行します。medoid(最もクラスタの中心付近に位置するオブジェクト)をもとにして評価する方法です。*3

f:id:sumtat:20170918005112p:plain

　設定画面では、先ほど作成したDistanceカラムが"Distance matrix column"として指定されていることを確認します。そして【何個のクラスターに分けるか？】をPartition count (k)の値として指定します。今回は5つのクラスターに分けてみます。

f:id:sumtat:20170918011342p:plain

　実行後、clustered inputを確認すると"Cluster"というカラムが新たに作成されていることがわかります。この中身には割り当てられたクラスターのmedoidのRowIDが記載されています。*4

f:id:sumtat:20170918011459p:plain

　Medoids and Sizeを確認すると、medoid(今回は５つ)と、同じクラスターに含まれる化合物数がpartition sizeというカラムを見ることで把握できます。

実質、ノード３個で化合物のクラスタリングは可能です。結構簡単だと思いませんか？もし機会があればお試しください。

クラスターの可視化

ここからはおまけです。

今回紹介したクラスタリングは、谷本距離の近いもの同士をまとめるというものでした。ということは、途中で作成したDistance Matrixの次元を2次元や3次元に削減してあげれば可視化できそうですよね。ということでMDSを使って可視化していこうと思います。*5

MDS (DistMatrix)

いい感じの名前のノードがあります。distance matrixカラムの次元を落としてくれます。

f:id:sumtat:20170918011615p:plain

　今回は3次元に落としてみます。Output dimensionsを３にします。Distance matrix columnが間違いなく指定されていることも確認してください。

f:id:sumtat:20170918011727p:plain

　実行すると、MDS Col1~3の３つのカラムが新たに作成されます。distance matrixが３次元で表されたということです。これをプロットしてみます。

2D/3D Scatterplot

名前のままです。2次元・3次元の散布図を描いてくれます。

f:id:sumtat:20170918012046p:plain

表示に必要なカラムを緑枠内に残して、実行してください。

f:id:sumtat:20170918012437p:plain

実行後、３つの軸をそれぞれ先ほど作成したMDS Col1~3に設定します。次に色ですが、まずはreference(文献名)にしてみました(このために今回の記事では文献を５件に絞りました)。

次に色をClusterに変えてみます。これは先ほどk-medoidで作成したクラスターです。

f:id:sumtat:20170918012810p:plain

　５つのグループに分かれていて、先ほど文献名で色をつけた場合とほぼ同じですね(色自体は対応してませんよ！分かれ方が同じという意味です。)。つまり、各文献で紹介されている化合物群はそれぞれECFP4で違うケモタイプであると分類することができているということがわかります。もし「文献が違うのに、fingerprintで分類すると同じ」ようなものがあれば、同じ研究グループの論文かもしれませんね。はたまたパクりかも…!?

　自分のグループの化合物は、どのグループと似ているか？とかも視覚的にわかるようになると思います。そうすると参考になりやすい例とかも取得しやすくなるかもしれません。なるべくなら、先行する化合物が無い土俵で戦いたいものですが。

などなど思いつきを書きました。

　次回はメドケム関連じゃなくて、もっと一般的な使い道のあるノードを何か紹介しようと思っています。

　他の誰かのブログにコメントとかしたことない私が言うのおかしな気がしますが、