【W8】タンパク質データの取得_01_概要

2022年7月17日 00:26

【W8の目的とおことわり】

下記はPython版TeachOpenCADDのT8についてのmagattacaさんの記事から引用しました。

(i) PDBデータベースからEGFRの全てのPDB IDを取得し、(ii) X線結晶構造解析による構造で、最も質の良い５つのタンパク質ーリガンド複合体構造を取得、そして、(iii) ５つの構造を互いに3Dで重ね合わせ（アラインメント）、次のトークトリアルで使用するためにリガンドを抜き出し保存します。

本来のPython版の目的は上記の通りかと思います。
一方で、TeachOpenCADD-KNIME版はW8が最終であり、W9はありません。

そしてPythonなしのKNIMEの基本extensionsでは(iii)のアラインメントまでは実装できないので(ii)すなわちPDBファイルの取得までをスコープとしています。

KNIMEでのケモインフォマティクス初心者向けの体験はとうとうここまでとなります。

そこでW8のKNIME workflow (WF)の目的というか内容を以下にお示しします。

翻訳するならば、

8. PDBからのデータ取得
PDBデータベースは、実験的に構造決定されたタンパク質の3次元構造データおよびメタ情報を保持しています。以下は、PDBから構造データを自動的に取得し、処理する方法です。

蛇足ながらPDBって何の略語だっけと思った方は、文頭で紹介しているmagattacaさんの記事を読まれることをお勧めいたします。

【PDBは改良され続けている】

もう一点大切な情報共有があります。
実は私がこの1年間教材として活用させていただいた、下記のバージョンにおいては、2022年7月時点でW8部分のみは初期設定のままでの実行完了が出来ないです。

もし再実行すると、PDB Connector Query Executorノードでエラーが出ます。

この不具合をどう回避するかについては後日体験結果を報告していきます。

WF内に下記のコメントがあります。

Note:
Steps 1 and 2 have changed w.r.t. to the originally published workflow due to changed PDB nodes (due to a changed RCSB PDB API).

RCSB PDB API側での改良が続けられているが故に今後も不具合が生じて回避策を探ったり、extensionsの改作で対応していくことになるでしょう。

一方で、再実行をしないで、デモデータの処理結果を閲覧するだけならば問題は生じません。そこでひとまずはこのWF全体でどういった情報処理をしているかを見ていくところから始めましょう。

【W8概要】

Step1: Uniplot IDをキーとして、特定のたんぱく質のPDBデータを検索します。
検索の絞り込み条件もPDB Connector Query Builderで設定できます。

Step2-01: Step1で取得したPDB IDリストをもとに、各PDBデータの解像度、リガンドのIDと分子量をJSON形式で取得

Step2-02: Process JSONメタノードでJSON形式からテーブル形式へ変換

Step2-03: 各PDBデータのうち、分子量100以上のリガンドとの共結晶に限定して、最大分子量のリガンドのデータを取得し解像度順に並べ替え

Step3: より高い解像度のデータ4つに限定してPDB全データを取得し、名前を付けて保存

という概要になります。
次回より順にデモデータでの体験をしていきます。

おまけ：

【PDBデータ取得技術紹介】

このWF、創薬化学の観点では初心者から扱うであろうPDBデータ取得の半自動化ができるので魅力的な題材を取り上げています。
その反面、KNIME初心者にとっては難易度高めのWFです。私がどこまで説明できるのか不安ではありますが、よろしくお付き合いください。

今回W8でのGrapgQL形式でのデータ取得は、magattacaさんのT8と技術的に異なるため私がこれまで臆面もなく取ってきた手法、「難しい説明は丸投げ」ができません。

代わって紹介しておきたい記事がこちらです。

後日より詳しく引用させていただきます。くろたんくさん、お世話になります！

記事を読んでいただきありがとうございます。先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。