見出し画像

【W4】リガンドベーススクリーニング_08_Step3_後編

【本パート(W4)の目的】
化合物をエンコード(記述子、フィンガープリント)し、比較(類似性評価)する様々なアプローチを取り扱います。さらに、バーチャルスクリーニングを実施します。

上記はPython版のT4の説明ですが、W4の目的も同じです。

そのための教材として

既知のEGFR阻害剤ゲフィチニブ(Gefitinib)をクエリとして使用し、EGFRに対して試験済みの化合物データセットの中から類似した化合物を検索します。

Step1で化合物をエンコードし、Step2で類似性評価しました。
Step3ではバーチャルスクリーニングを体験します。
Step3の下部Enrichment Plotter (local)ノード2つを見ていきます。

画像1

【エンリッチメントプロットとは】

Magattacaさんの記事から引用します。

エンリッチメントプロットの生成
バーチャルスクリーニングの妥当性を評価し、見つかった活性化合物の比率を見るためにエンリッチメントプロットを作成します。
エンリッチメントプロットが示すのは; 
データセット全体のうち、トップにランクした化合物の比率(x-axis)  vs.  データセット全体のうち活性化合物(y-axis)の比率
MACCSフィンガープリントとMorganフィンガープリントのタニモト類似度を比較します。
化合物を活性化合物あるいは不活性化合物のいずれとして取り扱うかを決めるために、一般に使用されるpIC50のカットオフ値6.3を適用します。文献中にはpIC50カットオフ値として5〜7にわたる範囲でいくつか提案がなされていて、データポイントをとらない排除範囲を定義しているものもありますが、私たちはこのカットオフ(6.3)は合理的と考えています。


【デモデータでの比較結果の説明】

結果は以下の通りです。Pythonでの可視化です。

画像2

創薬化学者にとってエンリッチメントプロットはあまり日常的に使う可視化ではないです。そこでくどいかもと思いつつ見方の説明をしてみます。読み飛ばしてもらってもいいです。

Optimalすなわち最適なバーチャルスクリーニングの線はデモデータでいえば、4510化合物のうち、ヒット化合物(今回はpIC50≧6.3となるのは2511/4510化合物)から先に選ぶことができた場合を示します。
つまり、全化合物群のうち、2511化合物すなわち約56%までは活性化合物(True activities identified)率は上がり続け、2511化合物選んだところで全ての活性化合物を選び終わるので活性化合物率は100%となります。

一方で、Randomに選べば上図のように全化合物群選んだ化合物の率と選んだ活性化合物率は一致します。全ての化合物を選んでようやく活性化合物率は100%となるので上図のような直線となります。

いろいろな条件で、類似度評価し、類似度の高い順に化合物を選んだらそのうち何%が活性化合物かをプロットしていくので、カーブの立ち上がりが早い方が、良いバーチャルスクリーニングと言えます。
よって上図ではMorganがMACCSより良いという解析結果です。

さて、エンリッチメントプロットの見方はここまでとして、次はこのプロットをKNIMEでどう作成するかを説明します。


【Enrichment Plotter (local)】設定方法

上記の条件で設定するとき、初見では操作が分かりにくそうなので詳しく説明してみます。

画像3

設定:(例)デモデータをTanimoto係数で比較する場合

画像4

上記のように設定するには
① ヒットクライテリアをpIC50値で指定(下図赤色破線部)
② プロットするバーチャルスクリーニング条件を指定(下図青色破線部)

画像5

① は先述の通り”6.3”を入力します。
② の設定操作について以下数枚のスナップショットを掲載します。

画像6

Sort Columnにプロットしたいカラム名を設定
Sort ColumnにpIC50値のカラムを指定
Sort descendingにチェック
でAdd curveボタンを押すと

画像7

一つ目のプロット条件設定完了。

次も同様に

画像8

でAdd curveボタンを押すと

画像9

で設定完了なので、OKボタンを押してConfigureウィンドウを閉じる。
ノードを右クリックして

画像10

Execute and Open Viewsで実行すると、出来上がりです。


結果:

画像11

因みにこのノード、メタノードの外にある下記ノードも全く同じ設定なので説明を省きます。

画像12

【Enrichment Plotter (local)】Diceでの解析

画像13

W4ではタニモト類似度とDice類似度それぞれでのエンリッチメントプロットをしています。
同様に設定すればノーコードで描画まで出来上がり。
設定:

画像14

結果:
Dice係数も傾向は同じでしたね。

画像15

KNIMEが強いのは、このようにKNIME社もしくはコミュニティの皆さんが協力してかなりマニアックな用途のノードを作ってくれているので、用途に合うノードが見つかったら簡便に実装できることだと思います。

以上でStep3も全て完了です。次回はW4の振り返りとTipsです。


記事を読んでいただきありがとうございます。 先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。 もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。