見出し画像

AWS認定データ分析-スペシャリティ【DAS-C01版】100題 問題集全問解答+全問解説付き

AWS認定データ分析-スペシャリティ【DAS-C01版】の過去問100題を全問解答+全問解説付き

AWS Certified Data Analytics - Specialty(DAS-C01) の最新の問題になります。

筆者が実際に受験して、問題を収集し解答とその解説を全問付けております。
問題数は合計100題。
実際に受験し、重複問題や類似問題を削除しています。
この100問の問題の解答を理解できれば、ほぼ間違いなく、合格すると思います。

ここから問題と解答/解説になります。

100題、全問解答+全問解説付きになります。

1.

あるマーケティング会社は、Salesforce、MySQL、および Amazon S3 にデータを持っています。この会社は、これら 3 つの場所からのデータを使用して、ユーザー向けのモバイル ダッシュボードを作成したいと考えています。同社は、ダッシュボードをどのように作成するべきか確信が持てず、カスタマイズとコーディングを最小限に抑えたソリューションを必要としています。
これらの要件を満たすソリューションはどれですか?


A. Amazon Redshift 連携クエリを使用してデータ ソースを結合します。Amazon QuickSight を使用して、モバイル ダッシュボードを生成します。
B. Amazon Athena フェデレーテッド クエリを使用して、データ ソースを結合します。Amazon QuickSight を使用して、モバイル ダッシュボードを生成します。
C. AWS Lake Formation を使用して、データ ソースを Amazon S3 に移行します。Amazon QuickSight を使用して、モバイル ダッシュボードを生成します。
D. Amazon QuickSight を使用してデータ ソースに接続し、モバイル ダッシュボードを生成します。



正解:A

解説: A. Amazon Redshift 連携クエリを使って異なるデータソースを結合することで、Amazon Redshift は他のデータベースとデータウェアハウスにあるデータに対してクエリを実行できます。Amazon QuickSight は、データを視覚化しモバイルフレンドリーなダッシュボードを作成するサービスです。このオプションは、カスタマイズやコーディングを最小限にしつつ、異なるソースからデータを集約してダッシュボードを作成する要件に適しています。

B. Amazon Athena フェデレーテッド クエリを使用してデータソースを結合することも可能ですが、Athenaは主にAmazon S3上のデータに対してSQLクエリを実行するサービスであり、SalesforceやMySQLなどの外部データソースに直接クエリを実行するためには追加のセットアップが必要です。この選択肢は、SalesforceやMySQLデータソースに直接接続する機能について明確ではありません。

C. AWS Lake Formation を使用してデータソースをAmazon S3に移行するアプローチは、データレイクを作成する際に有効ですが、このシナリオではデータレイクの作成は必要とされていません。また、この選択肢はデータをS3に移行した後、それらをどのように結合するかについて詳細を提供していません。

D. Amazon QuickSight は確かにデータソースに接続し、モバイルフレンドリーなダッシュボードを生成する機能を持っていますが、この選択肢ではSalesforceやMySQLなどの異なるデータソースを統合するプロセスが不足しています。ただし、QuickSightがこれらのデータソースに直接接続する機能を持っているかどうかについての情報がないため、不確実性が残ります。


2.
データ分析チームが、複数のデータソースから収集されたビッグデータをリアルタイムで分析し、洞察を即座に得る必要があるシナリオに直面しています。このデータは、ソーシャルメディア、センサーデータ、トランザクションログなど、様々な形式であり、高速なデータインジェストと分析が必要です。次のAWSサービスのうち、この要件を最も効果的に満たすのはどれですか?

A. Amazon Redshift
B. Amazon Athena
C. Amazon Kinesis Data Analytics
D. AWS Glue

正解: C. Amazon Kinesis Data Analytics

解説:
A. Amazon Redshiftは、ペタバイト規模のデータウェアハウスサービスで、複雑なSQLクエリを使用して大量のデータを迅速に分析することができます。しかし、リアルタイムでのデータストリーム分析には最適化されていません。

B. Amazon Athenaは、S3に保存されたデータを直接SQLクエリで分析するサービスです。サーバーレスであり、設定不要で使用できますが、リアルタイム分析ではなく、主に静的なデータセットに対するアドホックなクエリに適しています。

C. Amazon Kinesis Data Analyticsは、リアルタイムでのストリーミングデータ分析を可能にするサービスです。ソーシャルメディア、センサーデータ、トランザクションログなど、さまざまなデータソースからの大量のデータストリームを処理し、即座に洞察を得ることができるため、このシナリオに最適です。

D. AWS Glueは、ETL(抽出、変換、読み込み)サービスで、データの準備とロードを自動化します。データカタログ機能を提供し、データソース間でのデータ移動と変換をサポートしますが、リアルタイム分析には特化していません。


3.

最近、ある小売企業のデータ分析チームが、Amazon QuickSight を使用して、製品ごとの平均販売価格について複数の製品販売分析ダッシュボードを作成しました。ダッシュボードは、Amazon S3 にアップロードされた .csv ファイルから作成されました。チームは現在、Amazon QuickSight で個々のユーザーを作成して、ダッシュボードをそれぞれの外部製品所有者と共有することを計画しています。コンプライアンスとガバナンスの理由から、アクセスを制限することが重要な要件です。製品所有者は、ダッシュボード レポートでそれぞれの製品分析のみを表示する必要があります。
製品所有者がダッシュボードで製品のみを表示できるようにするために、データ分析チームはどのアプローチを採用する必要がありますか?


A. 製品ごとにデータを分離し、認可に S3 バケット ポリシーを使用します。
B. 製品ごとにデータを分離し、認可に IAM ポリシーを使用します。
C. 行レベル セキュリティでマニフェスト ファイルを作成します。
D. 行レベルのセキュリティでデータセット ルールを作成します。



正解:D

解説:

A. S3バケットポリシーを使用することで、特定のS3バケットやその中のオブジェクトへのアクセスを制御することはできますが、QuickSightダッシュボード内でユーザーによるデータ表示を制限するための直接的な手段にはなりません。S3バケットポリシーはデータのストレージレイヤーにおけるアクセス管理に関連しており、QuickSightのダッシュボードレベルのアクセス制御とは異なる機能です。

B. IAMポリシーを使用することで、AWSリソースへのアクセスを細かく制御できますが、これもまたS3レベルのアクセス管理に関するもので、QuickSightでの行レベルのデータアクセス制御には該当しません。QuickSightでユーザーが見ることができるデータを制限するには、別のアプローチが必要です。

C. マニフェストファイルを使用する行レベルセキュリティは、特定のデータファイルへのアクセスを制御するために使われることがありますが、QuickSightの文脈での行レベルセキュリティはデータセットルールに基づいて構成されるべきです。マニフェストファイル自体はデータファイルの集合を定義するものであり、ユーザーが見ることができるデータ行を直接制御するためのメカニズムではありません。

D. 行レベルのセキュリティ(RLS)を使用してデータセットルールを作成すると、QuickSight内でユーザーがアクセスできるデータの範囲を制限することができます。RLSは各ユーザーが見ることができるデータをユーザー属性に基づいてフィルタリングするために使用されます。このケースでは、各製品所有者が自分の製品に関するデータのみを見ることができるようにRLSルールを設定することで、必要なアクセス制限を実現できます。したがって、正解はDです。


4.

企業のデータ アナリストは、コスト管理のために、Amazon Athena で実行されるクエリが規定量を超えるデータをスキャンできないようにする必要があります。所定のしきい値を超えるクエリは、すぐにキャンセルする必要があります。
これを達成するために、データ アナリストは何をすべきでしょうか?


A. 所定のしきい値を超えたときにクエリを終了する AWS Lambda 関数を呼び出すように Athena を構成します。
B. ワークグループごとに、各クエリの管理限界を所定のしきい値に設定します。
C. すべての Amazon S3 バケット ポリシーに所定のしきい値を適用します。
D. ワークグループごとに、ワークグループ全体のデータ使用制限を所定のしきい値に設定します。



正解:B

解説:

A. Amazon Athena は直接 AWS Lambda をトリガーするような設定を持っていません。Lambda 関数を使用して Athena のクエリを監視し、特定の条件に応じてクエリをキャンセルするという方法は技術的には可能ですが、これには外部からの監視と介入が必要であり、Athena 自体の設定として組み込むことはできません。

B. Amazon Athena ではワークグループを使用してクエリの実行環境を管理することができます。ワークグループの設定には、クエリの実行に使用されるデータの量に対する上限を設定することが含まれます。この機能を使えば、クエリが設定されたデータ量を超えた場合に自動的にキャンセルされるようにすることができます。このオプションは、クエリによるデータスキャン量を制限するための直接的な方法です。

C. Amazon S3 バケットポリシーは、S3 バケットへのアクセスを制御するために使用されますが、Athena のクエリによってスキャンされるデータの量を制限するためのメカニズムではありません。S3 バケットポリシーは主にアクセス許可とセキュリティに関連しており、クエリのコスト管理とは関連がありません。

D. ワークグループのデータ使用制限は、ワークグループ全体のクエリによるデータスキャン量に対する全体的な制限を設定するものです。これはワークグループ内で実行される全てのクエリに適用される制限であり、個々のクエリが特定のデータ量を超えてスキャンすることを自動的に防ぐものではありません。

正しい答えは B です。ワークグループレベルでクエリのスキャンするデータ量に上限を設けることで、個々のクエリが所定のしきい値を超えた場合に自動的に停止するように設定できます。これにより、コスト管理のためにデータ量を監視し、規定量を超えるクエリをキャンセルする要件を満たすことができます。


5.

世界中に数百万人のユーザーを持つオンライン小売企業が、e コマース分析機能を改善したいと考えています。現在、クリックストリーム データは圧縮ファイルとして直接 Amazon S3 にアップロードされます。1 日に数回、Amazon EC2 で実行されるアプリケーションがデータを処理し、編集者やマーケティング担当者が視覚化できる検索オプションとレポートを作成します。同社は、ウェブサイトのクリックと集計データを編集者やマーケティング担当者が数分で利用できるようにして、ユーザーとより効果的につながることを望んでいます。
最も効率的な方法でこれらの要件を満たすのに役立つオプションはどれですか? (2つ選んでください。)


A. クリックストリーム レコードを圧縮ファイルとして Amazon S3 にアップロードします。次に、AWS Lambda を使用して、Amazon S3 から Amazon Elasticsearch Service にデータを送信します。
B. Amazon Kinesis Data Firehose を使用して、圧縮およびバッチ化されたクリックストリーム レコードを Amazon Elasticsearch Service にアップロードします。
C. Kibana を使用して、Amazon Elasticsearch Service に保存されているデータを集約、フィルタリング、視覚化します。コンテンツ パフォーマンス ダッシュボードをほぼリアルタイムで更新します。
D. Amazon EC2 にデプロイされた Amazon Elasticsearch Service を使用して、データを集約、フィルタリング、および処理します。
コンテンツ パフォーマンス ダッシュボードをほぼリアルタイムで更新します。
E. Amazon S3 から Amazon Kinesis Data Streams にクリックストリーム レコードをアップロードし、Kinesis Data Streams コンシューマーを使用してレコードを Amazon Elasticsearch Service に送信します。



正解:B,C

解説:

A. AWS Lambda を使用して Amazon S3 から Amazon Elasticsearch Service にデータを転送することは技術的に可能ですが、数百万人のユーザーを持つ企業のクリックストリーム データをリアルタイムで処理するには、Lambda のコールドスタートやスケーリングの問題など、処理能力が限られている可能性があります。これは最も効率的な方法とは考えられません。

B. Amazon Kinesis Data Firehose はリアルタイムデータ転送サービスであり、大規模なストリームデータを自動的にキャプチャして目的のデータストアにロードするために設計されています。これはデータを Amazon Elasticsearch Service に効率的に送信するためのスケーラブルな方法であり、問題のシナリオに適しています。

C. Kibana は Elasticsearch のデータを視覚化するためのオープンソースツールです。Amazon Elasticsearch Service に保存されたデータに対して集約、フィルタリング、視覚化を行い、ほぼリアルタイムでダッシュボードを更新することができます。これは迅速な分析と意思決定を可能にするために必要な要件を満たしています。

D. Amazon EC2 に Amazon Elasticsearch Service をデプロイするという選択肢は誤りです。Amazon Elasticsearch Service はマネージドサービスであり、ユーザーはサーバーのプロビジョニングや管理を気にすることなく、Elasticsearch クラスターを使用できます。この選択肢は現実には存在せず、誤解を招く表現です。

E. Amazon S3 から直接 Amazon Kinesis Data Streams にデータをアップロードすることはできません。通常、データプロデューサーが Kinesis Data Streams に直接データを送信し、その後にストリームデータを消費して処理するコンシューマーがデータを受け取ります。また、このプロセスは追加のステップが必要であり、選択肢 B に比べて効率的ではありません。


6.
AWSのデータ分析サービスであるAmazon Athenaを使用する際、大量のデータに対するクエリのパフォーマンスを向上させるために最も効果的な方法はどれですか?

A. クエリ結果の出力先をS3バケットからEFSに変更する。
B. クエリ結果のキャッシュを有効にする。
C. 適切なパーティション分割とデータ形式を使用する。
D. クエリ実行時のDPUの数を増やす。

解答: C

解説:
A. Amazon Athenaのクエリ結果の出力先をS3バケットからEFSに変更することは、パフォーマンスの向上にはつながりません。AthenaはS3上のデータに直接アクセスするため、出力先の変更はクエリのパフォーマンスに影響しません。

B. Amazon Athenaでは、クエリ結果のキャッシュ機能は提供されていません。繰り返し実行されるクエリのパフォーマンスを向上させるには、他の方法を検討する必要があります。

C. 適切なパーティション分割とデータ形式を使用することが、Amazon Athenaでクエリのパフォーマンスを向上させる最も効果的な方法です。データをパーティショニングすることで、クエリが必要とするデータの量を減らすことができます。また、列指向の圧縮データ形式(ORC、Parquetなど)を使用することで、データの読み取り速度が向上します。

D. Amazon Athenaでは、クエリ実行時のDPU(Data Processing Unit)の数を増やすことで、パフォーマンスを向上させることができます。ただし、これはクエリのコストを増加させるため、最初にデータの最適化を検討することが推奨されます。


7.

住宅ローン会社には、支払いを受け入れるためのマイクロサービスがあります。このマイクロサービスは、データを DynamoDB に書き込む前に、AWS KMS が管理するキーで Amazon DynamoDB 暗号化クライアントを使用して機密データを暗号化します。財務チームは、このデータを Amazon Redshift にロードし、機密フィールド内の値を集計できる必要があります。Amazon Redshift クラスターは、さまざまなビジネス ユニットの他のデータ アナリストと共有されます。
このタスクを効率的かつ安全に達成するために、データ アナリストはどの手順を実行する必要がありますか?


A. DynamoDB ストリームを処理する AWS Lambda 関数を作成します。同じ KMS キーを使用して機密データを復号化します。出力を財務チーム用の制限された S3 バケットに保存します。財務チームのみがアクセスできる財務テーブルを Amazon Redshift に作成します。COPY コマンドを使用して、Amazon S3 から Finance テーブルにデータをロードします。

B. Amazon EMR クラスターを作成します。DynamoDB に格納されたデータを参照する Apache Hive テーブルを作成します。財務チームの制限付き Amazon S3 バケットに出力を挿入します。KMS キーにアクセスできる IAM ロールで COPY コマンドを使用して、Amazon S3 から Amazon Redshift の財務テーブルにデータをロードします。

C. DynamoDB ストリームを処理する AWS Lambda 関数を作成します。出力を財務チーム用の制限された S3 バケットに保存します。財務チームのみがアクセスできる財務テーブルを Amazon Redshift に作成します。KMS キーにアクセスできる IAM ロールで COPY コマンドを使用して、S3 から Finance テーブルにデータをロードします。

D. KMS キーにアクセスできる EMR_EC2_DefaultRole ロールを持つ Amazon EMR クラスターを作成します。
DynamoDB に保存されたデータと Amazon Redshift の Finance テーブルを参照する Apache Hive テーブルを作成します。Hive で、DynamoDB からデータを選択し、出力を Amazon Redshift の財務テーブルに挿入します。



正解:C

解説:

A. Lambda 関数を使用して DynamoDB ストリームを処理し、同じ KMS キーでデータを復号化し、S3 バケットに保存するアプローチはセキュリティ上のベストプラクティスを示しています。しかし、この選択肢は Redshift にデータをロードする際に KMS キーで暗号化されたデータの復号化を明示的に述べていません。Redshift が暗号化されたデータを復号化するには、適切なアクセス権を持った IAM ロールを使う必要があります。

B. Amazon EMR を使用することで、大規模なデータセットの処理が可能ですが、DynamoDB から Redshift へのデータ移動には EMR よりも Lambda の方がコスト効率が良い場合が多いです。また、この選択肢では EMR クラスターが DynamoDB 内の暗号化されたデータを復号化するプロセスについて触れておらず、財務チームが機密フィールドを集計するために必要な機能が提供されていません。

C. この選択肢は、DynamoDB ストリームを Lambda 関数で処理し、復号化されたデータを財務チームのみがアクセスできる S3 バケットに保存し、その後 Redshift にロードすることを提案しています。ここで重要なのは、Redshift にデータをロードする前に、IAM ロールを使用して KMS キーで暗号化されたデータを復号化するプロセスが適切に設定されていることです。これはセキュリティ上の要件を満たし、財務チームが集計する必要がある機密データへのアクセスを安全に提供できるため、正解です。

D. EMR を使用して DynamoDB のデータを Hive テーブル経由で Redshift にロードすることは、大量のデータに対して効果的ですが、この場合、Lambda によるアプローチが推奨されます。また、この選択肢では、KMS キーで暗号化されたデータを EMR_EC2_DefaultRole が復号化できるとは限らず、このアクションが可能であることを確認する必要があります。Redshift でのデータの安全な取り扱いについての詳細が不足しています。


8.
AWSのデータ分析サービスであるAmazon QuickSightを使用する際、データソースとして使用できないものはどれですか?

A. Amazon S3
B. Amazon RDS
C. Amazon DynamoDB
D. Amazon EC2インスタンス

解答: D

解説:
A. Amazon S3は、Amazon QuickSightのデータソースとして使用できます。QuickSightは、S3上のCSV、TSV、JSON、Parquet、Avroなどの様々なファイル形式をサポートしています。

B. Amazon RDSは、Amazon QuickSightのデータソースとして使用できます。QuickSightは、RDS上のMySQL、PostgreSQL、SQLServer、Auroraなどの関係データベースに直接接続できます。

C. Amazon DynamoDBは、Amazon QuickSightのデータソースとして使用できます。QuickSightは、DynamoDBテーブルのデータを直接読み取ることができます。

D. Amazon EC2インスタンスは、Amazon QuickSightのデータソースとして直接使用することはできません。ただし、EC2インスタンス上で稼働するデータベースやアプリケーションからデータを取得することは可能です。QuickSightは、JDBC/ODACドライバを使用して、様々なデータソースに接続できます。


9.

会社には、Amazon S3 バケットに .csv ファイルをアップロードするビジネス ユニットがあります。同社のデータプラットフォームチームは、検出を行い、テーブルとスキーマを作成するために AWS Glue クローラーをセットアップしました。AWS Glue ジョブは、作成されたテーブルから処理されたデータを Amazon Redshift データベースに書き込みます。AWS Glue ジョブは、列のマッピングと Amazon Redshift テーブルの作成を適切に処理します。1 日に何らかの理由で AWS Glue ジョブが再実行されると、Amazon Redshift テーブルに重複レコードが導入されます。
ジョブが再実行されたときに、重複することなく Redshift テーブルを更新するソリューションはどれですか?


A. AWS Glue ジョブを変更して、行をステージング テーブルにコピーします。DynamicFrameWriter クラスのポストアクションとして、メイン テーブルの既存の行を置き換える SQL コマンドを追加します。
B. 以前に挿入したデータを AWS Glue ジョブの MySQL データベースにロードします。MySQL で upsert 操作を実行し、結果を Amazon Redshift テーブルにコピーします。
C. Apache Spark の DataFrame dropDuplicates() API を使用して重複を排除し、データを Amazon Redshift に書き込みます。
D. AWS Glue ResolveChoice 組み込み変換を使用して、列の最新の値を選択します。



正解:A

解説:

A. AWS Glue ジョブがステージングテーブルにデータをコピーし、その後にSQLコマンドを実行してメインテーブルのデータを更新または置き換える方法は、重複するレコードの問題を解決するための一般的なアプローチです。DynamicFrameWriterのポストアクションとしてSQLを実行することで、ジョブが再実行された際に既存のデータを新しいデータで置き換えることができます。これにより、重複を避けつつデータの整合性を保つことができるため、これが正解です。

B. AWS Glue ジョブが直接MySQLデータベースにアクセスしてデータをロードし、upsert操作(存在しない場合は挿入、存在する場合は更新)を実行することは、Glueの標準的な使い方とは異なります。また、このプロセスはAmazon Redshiftの外で実行されるため、オーバーヘッドが大きくなりますし、一般的には推奨される方法ではありません。

C. SparkのDataFrame APIにはdropDuplicates()メソッドがあり、これを使用して重複するレコードを除去することができます。ただし、これはデータがRedshiftに書き込まれる前に重複を除去するもので、既にRedshiftに書き込まれたデータの重複を解決するものではありません。

D. AWS GlueのResolveChoice変換は、DynamicFrameが複数の可能なデータ型を持つ列に対してどのように処理すべきかを決定する際に使用されます。しかし、これは重複データの問題を解決するものではなく、データ型の選択に関する問題に対処するためのものです。


10.
ある企業が大量の構造化データと非構造化データを含むデータレイクをAWS上に構築しています。このデータレイクからビジネスインテリジェンス(BI)ツールを使用してインサイトを得るためには、データをクエリし、分析することが必要です。次のAWSサービスのうち、この要件を最も効果的に満たすのはどれですか?

A. Amazon Redshift
B. AWS Glue
C. Amazon Athena
D. Amazon EMR

正解: C. Amazon Athena

解説:
A. Amazon Redshiftは、大規模なデータセットに対して高速な分析クエリを実行できる完全管理型のペタバイトスケールのデータウェアハウスサービスです。データウェアハウスとしての強力な機能を持っていますが、データレイクから直接クエリを実行する場合に最適とは限りません。

B. AWS Glueは、データ準備とロードのための完全管理型のETL(抽出、変換、ロード)サービスです。データカタログ機能を提供し、データソースを発見し、分析のためにデータを準備するのに役立ちますが、クエリ実行自体は行いません。

C. Amazon Athenaは、S3に保存されたデータを直接SQLクエリで分析するためのインタラクティブなクエリサービスです。サーバーレスであり、セットアップや管理が不要で、データレイクから直接データをクエリするのに最適です。このシナリオでは、Athenaが最も効果的なサービスです。

D. Amazon EMR(Elastic MapReduce)は、ビッグデータフレームワーク(Apache HadoopやApache Sparkなど)を使用して大規模なデータ処理、分析、変換を行うためのクラウドビッグデータプラットフォームです。非常に強力ですが、セットアップや管理にはより多くの労力が必要であり、単にデータレイクからのクエリと分析のみを目的とする場合には、Athenaよりも複雑かつコストがかかる可能性があります。

ここから先は

85,542字
この記事のみ ¥ 2,000

この記事が気に入ったらサポートをしてみませんか?