見出し画像

【W6】最大共通部分構造_06_応用例紹介

【W6の目的】

化合物セットが共通してもつ最大の部分構造を計算する方法を学びます。

前回まででW6のworkflow (WF)全体像とデモデータを見てきました。

KNIMEを利用することでノーコードでのMCS解析が可能でした。

今回はノーコードとはいかないですがMCS関連技術など紹介してみます。


【共通部分構造での解析手法いろいろ】

上に引用したmagattacaさんの記事にある通り

ケモインフォマティクスの分野で多くの適用用途があります。例えば、類似性検索(similarity search)、階層クラスタリング(hierarchical clustering)、分子アラインメント(molecule alignment)など。
利点:
* 直観的 → 対象化合物に共有されている構造は重要である可能性が高い
* ありうる活性のパターンへの洞察を与える
* 単純に部分構造をハイライトすることで簡単に可視化できる

階層クラスタリング(hierarchical clustering)に関連してJKlusterを紹介済です。また、分子アラインメント(molecule alignment)はMCSの結果を可視化するW6のStep2で化合物がMCSに合わせて向きが揃って表示されて(アラインメントされて)いましたね。

【Fraggle】

MCSに着目した類似性評価はPythonを使えば学ぶことができます。

MCS(Maximum Common Substructure)は対象となる分子集合の共通部分構造のことを指します。共通部分構造が多いほどそれらの分子はより似ていると考えます。」
「RDKitではMCSに基づく類似性を数値化するアルゴリズムのひとつにFraggle Similarityが実装されています。これを利用することでクラスタリングや、類似性に基づいた解析が行なえます。
ECFPを利用した類似性よりもケミストの感覚に近いことが多いです。

Fraggle Similarityは今のところKNIMEのノード化はされていないですので、下記の記事を紹介するに留めます。

Fraggle開発の動機としては,「分子の中心部での微細な構造変化」に対応するためと述べられています.具体的には以下のようなアザインドール誘導体の位置異性体が例として挙げられています.

画像1

これらの分子をECFP4フィンガープリントで評価した類似度が0.65のようです.これら分子がもっと似ていると思うかどうかは人次第でしょうが,Fraggleではこういった分子の類似度をもっと高く評価するためのアルゴリズムを提供します.
他のフィンガープリントを用いた類似度の評価方法と比べると,Fraggleは分子中の小さい構造変化に捕らわれにくい

とのことで興味深いです。

【MMPとMMS】

MCSに限らず共通部分構造に注目した化合物解析は創薬化学者に直観的に理解しやすいと思います。
例えばですが、上記のPy4chemoinformaticsにも紹介されている
Matched Molecular PairとMatched Molecular Series
も現在も良く利用されていると思います。MMPならKNIMEでも実装できますね。いつか紹介したいと思っています。

しかしながらMMSとなると計算速度なども考えるとPythonなどで処理したくなるでしょう。
(再掲)https://github.com/Mishima-syk/py4chemoinformatics/blob/master/ch07_graph.asciidoc

RDKitコミュニティで培われた大いなる智慧を学ぶとき、ケモインフォマティクスにはやっぱりPythonを使いたくなりますね。次のW7はとうとう機械学習ですしそろそろ…


【Novartisへの敬意とともに】

さて、ちょっと早いですがきりが良いので(?)今年のnoteは今回までとして冬籠りに入ります。
最後に今年一番KNIME活用事例で感銘を受けたNovartisの発表を紹介して締めといたします。

画像2

バッシュをはいて、ちょっと高く跳んでみようぜ!

とおっしゃったのは尊敬するすさんですが、ここまで高く飛んでいるのは初めてみました。
今年の大トリにふさわしい好例であると思いました。


ではまたいつか!

もう急がぬ齢の中の冬籠 村越化石 (山國抄)





記事を読んでいただきありがとうございます。 先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。 もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。