【W8】タンパク質データの取得_02_Step1_01_PDB検索

ナイメスト

2022年7月23日 14:54

【W8の目的】

(i) PDBデータベースからEGFRの全てのPDB IDを取得し、
(ii) X線結晶構造解析による構造で、最も質の良い4つのタンパク質―リガンド複合体構造を取得して保存します。

https://magattaca.hatenablog.com/entry/2020/05/03/203437

KNIME版のTeachOpenCADDのW8は上記までを扱います。

一方、Python版のT8はより発展的です。

今回からはデモデータを使ってW8のStep1の設定を見てみます。

【Uniplot ID】

Step1ではUniplot IDを用いて、特定のたんぱく質のPDBデータを検索します。

検索するクエリタンパク質の選択

EGFRをクエリタンパク質として使います。EGFRのUniProt IDはP00533で、以降のPDBデータベース検索でこのIDを使います。

さて構造生物学に関する情報のデータベースであるPDBについてはmagattacaさんの上記の記事に詳しかったので割愛しますが、Uniplot IDが初出の単語かと思います。

Magattacaさんがすごいのはタンパク質配列データベースであるUniplotについても別途解説して下さっていることです。最後までご覧になると楽しいです。

あるいはこちらも良い教材かと思いました。

ともあれUniplotでのIDを使って検索対象のタンパク質を特定できると言うことです。

【PDB Connector Query Builder】

そして検索の絞り込み条件はPDB Connector Query Builderで設定します。
日本語化されたノードディスクリプションを見てみましょう。

このノードはRCSBのPDB advanced query webserviceへのアクセスを提供します。
インターフェースはhttps://www.rcsb.org/search/advanced のウェブUIに近いものになっています。

上図では今回のクエリの一部をウェブUIでも設定してみた例です。
一方で、PDB Connector Query Builderノードでのクエリすなわち検索式の設定方法もディスクリプションに詳しく記載されています。

クエリはネストしたフィールドとサブグループ（それ自体が任意の深さのフィールド/サブグループを含むことができます）で構成されます。
各フィールドのアイテムは、示された論理演算子を使って結合されます。
フィールドは、フィールドの左側にある「X」ボタンをクリックすることで削除でき、関連するグループの下部にある「フィールドの追加」ボタンをクリックすることで追加できます。
サブグループを追加するには、親グループパネルの下部にある「Add SubGroup」ボタンをクリックし、削除するにはサブグループの下部にある「Remove Group」ボタンをクリックします。
一番上の「親」グループは削除できませんが、空にすることは可能です。
個々のフィールドは、フィールドの右端にある「Clear」ボタンをクリックしてリセットできます。
サブグループパネルの下部にある「クリア」ボタンをクリックすると、そのパネルからすべてのフィールドとサブグループが削除されます。
クエリをテストするには、フィールドの右端またはグループパネルの下部にある「カウント」ボタンを押します。
いずれの場合も、ボタンのテキストは、クエリの関連部分（フィールド、サブグループ、またはクエリ全体）のカウント数に置き換えられます。
このボタンは、該当するクエリが何らかの方法で変更されるまで、繰り返しカウントできないようになっています。
多くの入力ボックスでは、テキスト入力を開始すると、可能なオプションのドロップダウンが表示されます。

Text、Structure、Sequenceの各クエリの関係は常に「AND」です。

文章だけだとわかりにくいかもしれませんので、デモデータのクエリを見てみましょう。

5つの条件がANDで繋がっています。

①   Uniplot IDがP00533で
②   実験方法はX線回折で
③   データの解像度は3.0Å以下で
④   リガンドとの共結晶で
⑤   リガンドの分子量が100.0以上

のデータを検索します。

実は先に紹介したウェブUIでは➃と⑤の検索式が入れられないです。

We have re-inserted a few convenience queries which are no longer present in the web interface to the node:

Recently Released Structures
Recently Updated Structures
Has Ligand

Vernalisノードの特別仕様ということかと思います。便利でしょうね。
ところが実は、2022年7月現在は私のKNIME AP (ver.4.4.1)環境でPDB Connector Query Builderに➃と⑤を設定すると、PDB Connector Query Executorでエラーが出てしまいます。最新バージョンでは解消されているのかな。

すでに2000字ほどになってしまったので続きは次回に。検索結果を見つつ、おまけで上記エラーの回避策も紹介します。

謝辞：

【Vernalisへの謝意】

ノードディスクリプションにはもう一つ重要な情報が記載されています。

本ノードはVernalis Research社（英国ケンブリッジ）により開発されました。
フィードバックや詳細については、knime@vernalis.com までご連絡ください。

もはやKNIMEのケモインフォマティクス技術の代表格でもあるVernalisのノード群、
TeachOpenCADD-KNIMEを開いている皆さんは当然インストール済と思います。

皆さんは既に下記の論文もお読みになっているかもしれません。

"Five Years of the KNIME Vernalis Cheminformatics Community Contribution."
Curr Med Chem. 2020;27(38):6495-6522. doi:10.2174/0929867325666180904113616

Abst.だけDeepL翻訳して引用させていただきます。

2013年6月にKNIME Community Contributionとして正式リリースされて以来、Vernalis KNIMEノードは1ノード（「PDB Connector」ノード）から約126ノード（2017年11月；バージョン1.12.0）に増え、さらに、多くのノードがKNIMEのコア製品に採用されています。
このレビューでは、現在の公開リリースの開発の簡単な年表と、現在のノードの概要を説明します。ウェブサービスを介して一般に公開されている情報にアクセスするノード、ケムインフォマティクスツールキットに依存せずにケムインフォマティクス機能を提供するノード、そしてKNIMEに存在するケムインフォマティクスツールキットの一つを使用するノードという3つの特定の領域に、より詳細に焦点を当てます。
最後に、Vernalis社におけるKNIMEの使用を実証するいくつかのケーススタディを紹介します。

Vernalis社の皆さんの素晴らしい取り組みに感謝しつつ、この論文をすべて訳したい気持ちにすらなります。
私が好きなのはMMPのworkflowです。これはまたいつか取り上げようと思っています。

最大限の感謝と敬意とともに。

記事を読んでいただきありがとうございます。先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。