私の仕事はawkによってずいぶん助けられてきた

2024年2月19日 23:46

何百という井戸で測定されている物理検層データを3次元地質モデル作成のためのソフトウェアにロードしたり、様々な処理を行って解析したりするときに、私は「awk (オーク)」と呼ばれるテキストファイルを処理する目的で作られたスクリプト言語にずいぶん助けられてきました。

awkはUnixで古くからサポートされている言語で、Windowsでもたとえばgawkというawkと似たようなスクリプト言語が利用できます。

エクセルなどでは処理しきれないテキストファイルのフォーマット化や簡単な計算などで大活躍していました。

たとえば昔、Excel2003以前のExcelで扱えるデータは、65,536行、256列ほどしかありませんでした。したがって、たとえば、5000ftの石油井で取得された0.5ftサンプリングの物理検層データは、単純に井戸1本で10000行となり、それが500本、各井戸10種類の物理検層データがあるとすると、たちまち、Excelでは扱えないデータ量になってしまいます。

そんな時、awkで簡単なスクリプトを書くことによって、大量のテキストデータをバッチ処理できるのは、魔法のようで大変助かりました。

私にawkを教えてくれた先輩や同僚には感謝しています。そして今でも時々利用させてもらっています。

たとえば、現在扱っているのは1秒間に20サンプル程度記録されるモニタリングデータ。1日は86400秒なので 86400 × 20サンプルで172万8000行になります。30日分のデータとなると5千184万行のデータになります。

awkでなくても良いのかもしれませんが、ついつい慣れ親しんだawkで処理したりしています。

それでも私が扱うデータの量なんてかわいいほうだと思います。地震探査の収録データや、日本人全体のデータともなると、それこそ膨大です。もちろん、データの扱い方の思想も変わってくるのでしょうが、膨大なデータを扱い処理できる能力というのはこれからますます重要になってくると思います。

この記事が気に入ったらサポートをしてみませんか？