見出し画像

dbts2023セッションレポート#5 H12「オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理 - データの抽出、保存形態、必要となる前処理 -」

こんにちは。株式会社インサイトテクノロジー マーケティング本部です。

インサイトテクノロジー社員がdb tech showcase2023のセッションを受講した感想レポートの第5弾をお届けします

db tech showcaseについてはこちらの記事をご覧ください。

H12セッション

報告者

株式会社インサイトテクノロジー
コンサルティング本部
松岡

セッション情報

  • セッションID:H12

  • タイトル:オンプレミスRDBのデータをAWSクラウド上の分析基盤に取り込む手法の整理 - データの抽出、保存形態、必要となる前処理 -

  • 登壇者:Amazon Web Services Japan G.K.
    データ事業本部ポートフォリオスペシャリストソリューション部
    シニアアナリティクススペシャリストソリューションアーキテクト
    下佐粉 昭 氏

セッション概要

企業の中にある各種システムからクラウド上の分析基盤(データレイク)にデータを取り込み、クラウドのパフォーマンスを活かして分析する手法は一般的になりつつあります。企業はオンプレミス上でRDBを多数活用しており、そのデータをクラウド上に効率よく取り込み、活用しやすい形で保存することが、データ活用促進の鍵です。本セッションでは、主にRDB上のデータを取得する際の手法と、取得したデータをどのような形にしてデータレイク上に保存するかという「データ取り込み」部分にフォーカスした説明を行います。環境はAWSを前提にしていますが、他クラウドのオブジェクトストレージへのデータ取り込み方法の一般論としても応用可能です。

※dbts2023セッション情報より抜粋

はじめに

データレイクの構築の必要性から実際に取り込む際のデータ処理方法、処理の際に必要な視点についてご解説いただきました。

データレイク構築の狙いと柔軟な構成

データレイクの構築は、迅速かつ柔軟なデータ処理と変更への対応が可能なITインフラの実現を目指して行われます。

データと処理系のライフスパンの違いに対応し、データを一か所に蓄積することで新たな要件に素早く対応可能な環境を提供します。

処理系の容易な切り替えやデータの捨てない構造により、データと処理系を分離し、データを中心とした分析環境を構築します。

手法を検討する際のポイント

データ取り込みの段階では、初期のデータ量やバリエーションが少ないなどの課題に直面します。
AWSを活用し、S3を中心にした構築ではSQLが利用可能でありデータ取得から前処理までのスムーズな管理を行うことができます。

RDSからのデータ取り込みにおいては、更新の反映やトランザクションデータの取り扱いに慎重な手法が必要です。
更新が多い場合、データの洗い替えや差分抽出のポイントを考慮する必要があります。

また、データセットが大きく部分的な更新が発生する場合、高度なニーズに対応するためにOTF(Open Table Format)や特定のフォーマット、メタデータを管理するレイヤーを検討することができます。

まとめ:データ整備の基本戦略

データレイクの構築においては、狙いを理解し、柔軟性と効率性を両立させる手法を選択することが鍵となります。
そしてデータ整備の基本戦略は、生データを残し、前処理を施してデータレイクを共有可能なものにすることです。

データのフォーマットはオープンであり、多様なアプリケーション・サービスからアクセス可能である必要があります。
ビジネス的な前処理やファイルの配置方法の工夫により、処理性能を向上させることが重要です。

パーティショニングなどの手法を利用し、分割可能なフォーマットを使用することで分散処理での性能向上が期待できます。

聴講した感想

データレイクについての解説をいただけたため、大変理解しやすいセッションでした。

データの出し手・データレイクチーム双方にとって効率が良い環境の実現することを念頭にデータレイク構築を行うという視点が印象に残っています。

データの取り込みや更新においては、データの特性やビジネスの要件に合わせた柔軟なアプローチが必要であり、データ整備においては共通のフォーマットや前処理を施すことで、データを効果的に活用できる環境が構築できることが理解でき、大変勉強になりました。

db tech showcaseについて

db tech showcaseは、データに関わるすべての技術者に「学び」「気づき」「変化」を提供する、国内最大規模のデータ技術カンファレンスです。

国内外の有名テック企業が一堂に会し、国内外の革新的な技術や最新の事例などの多数のセッションを提供しています。

12年目となった2023年は12/6~12/8の3日間、ベルサール六本木グランドコンファレンスセンターにて開催され、データに関わるたくさんの方にご来場いただき大盛況のうちに閉幕しました。

2024年は7月に開催予定ですので、ぜひお見逃しなく!
https://www.db-tech-showcase.com/

アーカイブ配信のご案内

db tech showcaseは、期間限定でアーカイブ動画を配信中です。
このレポートでご紹介したH12セッションをはじめとする約100セッションをオンラインでご視聴いただけるほか、講演資料のダウンロードも可能です。
※一部をのぞく

ご視聴には会員登録(無料)が必要となります。
皆さまのご登録・ご視聴をお待ちしております!
https://www.db-tech-showcase.com/2023/

この記事が気に入ったらサポートをしてみませんか?