非プログラマーのためのインフォマティクス入門。(仮)

非プログラマーがインフォマティクスについて勉強したことを記録します。主にKNIMEというソフトを使用しています。

【メドケム】KNIMEで構造式を扱おう 〜sdfを読んでみよう〜

 突然ですが、sdfというファイル形式があります。ごく一部のニッチな世界でしか使われていないような気がしますが、筆者は毎日扱うファイル形式です。sdfの説明は、もうchem-stationに丸投げしますね。

www.chem-station.com

 私は化合物を作る方が専門なのですが、構造情報をうまく扱えないと仕事は捗らないです。wetのデータ管理も必要ですし、公共データベースなどの活用・Virtual compoundの発生・文献情報の収集・Fingerprint等からの各種予測などなど、多方面からのアプローチが必要となります。最近ではdeep learningなども盛り上がりっているようで、時代に置いて行かれないように必死なわけです。で、無料だし、GUIだしということで触り始めたのがKNIMEです。

  そんな私が合成研究者レベルでも覚えられたこと、勉強中のことをまとめていこうと思ったわけです。またKNIMEユーザーはあまり国内には多くないのか、あまり情報がないので、ブログをきっかけに誰か詳しい人とか見つかったりしないかなーとかも思ってます。

  chemistry関係の最初はSDF readerにしてみます。やっぱりこれがスタートだと思うので。

f:id:sumtat:20170728230256p:plain

  難しい設定はありません。赤枠部分で読みたいsdfを指定します。molecule name(sdfの構造情報の上の方に記述されるやつ。M ENDのあとに入ってる情報のことじゃないです)を抽出したい場合は青枠のところにチェックが必要です。

次にProperty handlingのタブに移ります。

f:id:sumtat:20170728230725p:plain基本的にはExtract all propertiesにチェックを入れれば良いと思います(よほどデータが大きくない限り)。これにチェックを入れておくとM ENDの後に記述される全ての情報(カラム)が抽出されます。

Extract all propertiesにチェックを入れずに、Scan filesをクリックすると構造情報以外にどんなものをデータとして持っているか確認することができます。必要なものだけチェックをいれて抽出することもできます。

(あくまでTableとして表示する情報としてはの話。SDF stringとしては積極的に除去しない限り情報を持ち続けます。この話はまたの機会にしましょう)

f:id:sumtat:20170728231913p:plainさてapply-OKをして実行するとsdfの内容をTableとして確認することができます。

f:id:sumtat:20170728232043p:plain今回のデータはChEMBLからもらってきました。研究関係の使い方に関しては少しずつ記事にしていこうと思います。