見出し画像

【W8】タンパク質データの取得_09_Step2_06_Transform

【W8の目的】

(i) PDBデータベースからEGFRの全てのPDB IDを取得し、
(ii) X線結晶構造解析による構造で、最も質の良い4つのタンパク質ーリガンド複合体構造を取得して保存します。

Python版はより発展的です。

【JSON Pathの出力まで再確認】

デモデータを使ってW8のStep2を学んでいます。上記の(ii)を実行中。
Process JSONメタノードの中身を見てみました。

今回はETLのTすなわちデータ変換(Transform)です。2つめのJSON Pathで得られた下記のデータテーブルを整形し、もっと見やすい内容にしていきます。

無駄に空白データの部分があったり、formula_weightは分子量1000を1とする小数表示だったりで率直に言って見にくいですからデータ変換していきます。

【Column Expressions】

もう何度か紹介してきましたこのノード、まっきーさんも書いている通りとにかく多機能です。

今回は分子量の計算ですね。Math Formulaで十分とは思いつつ設定を見てみます。

設定:

PDBでは分子量がkDa単位で登録されているようなので1000倍して実際の分子量に直しています。
ところで豆知識としてkDaは分子量の単位ではないそうなので、上記の表現は不正確かもしれません。

<参考>

https://www.sbj.or.jp/wp-content/uploads/file/sbj/9108/9108_yomoyama.pdf

Transformの結果は後でまとめて見ましょう。


【カラムの整形】FilterとRename

カラム群を選抜して名前を変更するだけの単なるデータ整形なので詳しくは述べる必要がないかと思います。

以下設定です。

設定:

結果:

欲しい情報項目の列(カラム)に絞られてきました。
一方で、行(ロー)はまだ不要なものが残っていますがそれはまた次回に。
 
ここまででProcess JSONメタノードの中身をすべて体験しました。

次回でStep2体験を終わります。


おまけ:

【KNIMEとPythonが一体化】

「最近はいきなりすべてPythonの方がいいって方が増えてきている」と前回コメントしました。

KNIMEの玄人さんならば「両方一緒に使えばいいじゃない」と勧めるでしょうね。
2022年夏のKNIME APの最新バージョンは4.6系で、KNIMEにそもそもPythonが一体化(バンドル)されているようです。

含まれるPythonパッケージの全リストはドキュメントを参照してください。

もちろん単独でPythonを使うよりは制限があったりするのはやむなしのようなので、今後もどう発展していくのか楽しみにしていきます。


TeachOpenCADD-KNIMEの記事を書き終わったら、私も4.6系に移ってPythonの勉強も始めようかと思います。まあ、過去に挫折した経験はあるんですけども…
TeachOpenCADDの続きT9以降はPythonが使えないと体験すらできないですからね。

そんなことを思っていたらiwatobipenさんの下記の記事が。

試したい!!後日の愉しみが増えました。

KNIMEの情報発信をして下さっている皆さんはPython体験についての発信もされてますよね。ほんの数例だけリンクを紹介しておきます。

すさん

まっきーさん

t-kahiさん

ちょろさん

iwatobipenさんのようにむしろPythonなど駆使されていて、他の方のためにKNIMEでもという玄人の方まで考えたら枚挙にいとまがないのでここまでにします。目的別に適材適所ということですね、きっと。

なら、僕もそうするのがオプティマイズされたソリューションというものか。

有田春雪「アクセルワールド」


記事を読んでいただきありがとうございます。 先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。 もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。