【W4】リガンドベーススクリーニング_07_Step3_前編

ナイメスト

2021年10月22日 19:48

【本パート(W4)の目的】

化合物をエンコード（記述子、フィンガープリント）し、比較（類似性評価）する様々なアプローチを取り扱います。さらに、バーチャルスクリーニングを実施します。

上記はPython版のT4の説明ですが、W4の目的も同じです。

そのための教材として

既知のEGFR阻害剤ゲフィチニブ（Gefitinib)をクエリとして使用し、EGFRに対して試験済みの化合物データセットの中から類似した化合物を検索します。

Step1で化合物をエンコードし、Step2で類似性評価しました。
Step3ではバーチャルスクリーニングを体験しますが、その前に類似性評価の値の分布を可視化し、比較します。

【データ可視化機能に関して】

W2の体験時にも話題にしたのですが、データ可視化となると細やかな機能はPythonやRなどでのコーディングや、DataWarrior, Tableau, TIBCO Spotfireなどの可視化ツールにはなかなか及ばないのが実情です。
<参考>

KNIMEの基本的なノード群で実現できる可視化をしつつ、補足情報としてmagattacaさんの記事から可視化の結果を引用しながらコメントしていこうと思います。
前回おまけとして、Staticticsノードでは簡便なヒストグラム表示を体験しました。

今回はT4すなわちPythonでの可視化の結果を引用しておきます。

横軸は類似度(0から1)
縦軸は化合物数です。

ヒストグラムに関しては、Pythonでもデータフレーム（下の例ではsimilarity_df）さえ適切に用意されていれば十分簡便に実現できるように感じたのでコードも引用しておきます。

%matplotlib inline
fig, axes = plt.subplots(figsize=(10,6), nrows=2, ncols=2)
similarity_df.hist(["tanimoto_MACCS"], ax=axes[0,0])
similarity_df.hist(["tanimoto_morgan"], ax=axes[0,1])
similarity_df.hist(["dice_MACCS"], ax=axes[1,0])
similarity_df.hist(["dice_morgan"], ax=axes[1,1])
axes[1,0].set_xlabel("similarity value")
axes[1,0].set_ylabel("# molecules")
plt.show()

【類似性評価の値の分布】

解析結果は早速ですがMagattacaさんの記事から引用します。

理論編で述べたように、同じフィンガープリント（例　 MACCSフィンガープリント）について比較すれば、タニモト類似度の値はDIce類似度の値よりも小さくなります。また、２つの異なるフィンガープリント（例　MACCSフィンガープリントとMorganフィンガープリント）を比較すると、類似性評価の値（例　タニモト類似度）は変化します。

先述のヒストグラムでも見て取れると思いますが、