【書評】大規模データ管理 ―エンタープライズアーキテクチャのベストプラクティス

Piethein Strengholt
オライリー・ジャパン
2022/12/02

 DBスペシャリスト受験、E資格受験、GX関連等々を間に挟み、ずっと放置していた本をようやく着手・読了。履歴見ると買ったのが2023年3月。1年以上寝かしていたとは。。。こう見るとデータ理解をするべきと思い立って1年以上が経っているということですね。本当年取ると1年早いです。

 おなじみオライリー・ジャパンの書籍です。仕事でAI注力するという話になってずいぶん経つわけですが、いかんせん売り手側で解決できない課題として顧客側がデータを持っていない。AIに食わせるデータがないのに、学習はできない。じゃあ担当業界である建設業では、どんなデータが必要なのか?設計では図面という非構造化データで意思伝達をし、工事現場(生産現場)では職人たちがノウハウ・暗黙知とKKD(勘・経験・度胸)で仕事をこなしている。これらを構造化し、データ化し、計測し、改善し、自動化するという途方もない道のりのスタートに立つべくこの本を発注しました。

 前半はレガシーなデータアーキテクチャの変遷とその崩壊の歴史を辿ります。データベースの定石であった強一貫性を保持した中央集権型のアーキテクチャ=データウェアハウスの実現の難しさが説明されます。いまだにコンセプトとしては良いように感じますが、実装ともなると実現可能性が低い、かつ、利用の形を考えると無駄が多いアーキテクチャになってしまいます。

 中盤は上記を踏まえ、データをプロバイダー、コンシューマーに分けて、どう生産され、どう消費されるかを考えます。データはためるだけではなく消費されることにより価値変換されるので、最終的な業務・事業ドメインに準じた区切り方と管理をしなければ意味がありません。また、データは単なる符号ですが、ドメインにはコンテキスト・セマンティクスがあります。例えば「顧客情報」といっても、顧客マスタに必要な情報・型・更新頻度・意味・目的とCRMに必要なそれとは異なってきます。そのためデータはドメイン境界により分割され、アプリもマイクロサービス化されて疎結合されるのが一つ良い形とされています。

 後半は上記を踏まえ、データの価値変換フェーズに着目します。すなわちデータ消費の仕方。BI、AIでの利用は消費パターンとして必須のテーマとなり、そのためにETL、データカタログによるメタデータ管理の重要性などが語られます。特に最近社内のAI企画に参加した経緯があり、実際に自社内とはいえどんなデータがどんなフォーマットでどこにあるのか、いざ企画をしろと言われると相当調べないとわからないという現実にぶち当たりました。メタデータ管理の重要性は実感を伴って理解ができ、この辺りは実務でもすぐに活かせそうな手ごたえがあります。プロダクトもあるし。

 ということで自社リソースではこのエンタープライズアーキテクチャ実装そのものを提供するのはハードルが高いですが、かなり理解が進んだ感があります。実際に利用されているリポジトリから、どのように抽出・データ消費パターンがあり、管理ができるのか。実現場で提案重ねて理解を深めていきたいと思います。

この記事が気に入ったらサポートをしてみませんか?