DEA-2.2データカタログシステムを理解する。

カテゴリ: DEA-2.2データカタログシステムを理解する。

1
2
3

【DEA-34】大規模動画配信企業は、Kinesis Data Streams で 1 秒あたり 5 万レコードの視聴ログを取り込み、ほぼリアルタイムで S3 に Parquet 形式で保存し Athena で分析しています。
JSON ペイロードのスキーマは四半期ごとに後方互換の追加が発生します。
要求は次のとおり:
• スキーマ変更によるアプリケーション停止を避ける
• 新パーティションを 5 分以内に Glue Data Catalog に反映する
• 運用負荷とコストを最小化する
これらの要件を同時に満たすアプローチはどれか。

Kinesis Data Streams から Kinesis Data Firehose を介し、Glue Schema Registry にバックワード互換ポリシーを設定、Firehose で Parquet 変換と動的パーティション付与を行い、S3 イベントトリガの Glue クローラで増分更新を行う
JSON スキーマを Avro ファイルとして S3 に保存し、スキーマ変更時に Glue クローラを全件再スキャンしてテーブルを再生成し、Athena で分析する
アプリケーションでスキーマ変更ごとに手動マイグレーションスクリプトを実行し、Hive メタストアに ALTER TABLE 文を発行してパーティション情報を更新する
Kinesis Data Streams から Kinesis Data Analytics でストリームを集約し、Glue Schema Registry を用いずに Firehose の動的パーティション機能でロードし、毎時 Athena CTAS で新テーブルを作成する

カテゴリ: DEA-2.2データカタログシステムを理解する。

1
2
3

【DEA-35】ある広告配信企業は、S3 に s3://logs/yy=YYYY/mm=MM/dd=DD/ 形式で 1 日あたり 5 GB の JSON ログを保存している。
Athena でほぼリアルタイムに分析したい。
新しいパーティションはアップロード後 10 分以内にクエリ可能である必要がある。
Glue クローラは 1 回の実行で約 30 秒、料金は 1 分単位で課金されるものとする。
運用負荷とコストを最小化しつつ Glue Data Catalog を常に最新に保つ方法として最適なのはどれか。

S3 ObjectCreated イベントを EventBridge で受け Glue クローラをオンデマンド実行し、当該パスのみスキャンさせてパーティションを即時登録する
Glue クローラを 1 時間毎に定期実行し、Athena JDBC 経由で MSCK REPAIR TABLE を呼び出してパーティション同期を行う
Kinesis Data Firehose で Redshift へストリーム取込後、Redshift Spectrum の外部スキーマを日次バッチで手動更新する
Lambda バッチで S3 を走査し CSV で未登録パーティション一覧を出力後、Athena CTAS でメタデータテーブルを全件再作成する

カテゴリ: DEA-2.2データカタログシステムを理解する。

1
2
3

【DEA-36】通信事業者 A 社は、Spot インスタンスを用いた一過性 Amazon EMR 6.x クラスターを 1 日 6 回起動し、Amazon S3 に保存された 300 TB の Parquet データを Hive と Spark で処理している。
各バッチは 45 分以内に完了後クラスターを削除する。
全バッチで同一のスキーマとパーティション統計を共有し、RPO 0・RTO 5 分未満でメタデータを常時利用可能にしたい。
運用負荷とコストを最小化しつつ要件を満たすメタデータ管理方法を選択せよ。

各クラスターのマスターノードに MySQL を構築して Hive メタストアとし、終了前に mysqldump を S3 へエクスポートして次回起動時にインポートする
Amazon RDS MySQL Multi-AZ を共有 Hive メタストアとして構築し、日次自動スナップショットとクロスリージョンコピーで冗長化する
AWS Glue Data Catalog を共通メタストアとして –enable-glue-datacatalog を指定した EMR を起動し、必要最小限の IAM ロールで接続する
EMRFS Consistent View 用の DynamoDB テーブルを Hive メタストアに流用し、オンデマンドバックアップで障害時にリストアする

カテゴリ: DEA-2.2データカタログシステムを理解する。

1
2
3

【DEA-37】動画配信企業A社は、S3に保存する日次パーティション(yyyy-MM-dd)付きParquet約1,000テーブルをAmazon EMR(6.15)、Athena、Redshift Spectrumから横断検索したい。
現在のオンプレApache Hiveメタストアは6か月以内に廃止予定。
要件は
①新規パーティションを最長5分以内に自動検出、
②各サービスで単一かつ高可用なメタデータストアを共有、
③Lake Formationで列レベル権限を集中管理、
④運用負荷とコストを最小化すること。
最適なアプローチはどれか。

Amazon RDS for MySQLを外部Hiveメタストアとして構築し、EMRとAthenaをJDBCで接続する。パーティション検出はcronで毎時MSCK REPAIR TABLEを走らせる構成とする。
AWS Glue Data Catalogを共通メタストアとして設定し、5分毎に実行するGlueクローラでスキーマとパーティションを更新し、Lake Formationを有効化して列レベル権限を集中管理する構成とする。
各EMRクラスタにローカルHiveメタストアを立ち上げ、終了時にS3へダンプをDistCpで同期し、Athenaには手動で外部テーブルを再作成する運用とする。
Amazon Redshift Serverlessのデータシェア機能をメタデータハブとし、EMRからSpectrum外部スキーマを再利用してAthena連携は行わない構成とする。

カテゴリ: DEA-2.2データカタログシステムを理解する。

1
2
3

【DEA-38】金融系スタートアップ FinX は、S3 バケット finx-raw に日次 5 GB の JSON ログを保存している。
event_date でパーティションされたこれらを Glue データベース testdb のデータカタログへ 6 時間ごとに Glue クローラで同期したい。
他部門が管理するデータベースには変更させず、対象バケットの読み取りと testdb 内でのテーブル・パーティション登録に必要最小限の権限のみを持つ IAM サービスロールを作成する。
次のポリシー案のうち要件を満たすものはどれか。

finx-raw の s3:ListBucket, s3:GetObject と testdb の glue:GetDatabase, glue:CreateTable, glue:BatchCreatePartition を Resource レベルで許可する
finx-raw への s3:GetObject, s3:ListBucket と glue:CreateDatabase, glue:UpdateTable, glue:DeleteTable を ARN=* で許可する
全 S3 バケットに s3:PutObject, s3:GetObject, s3:ListBucket と glue:* を ARN=* で許可する
AWS 管理ポリシー「AWSGlueConsoleFullAccess」をサービスロールにアタッチする

カテゴリ: DEA-2.2データカタログシステムを理解する。

1
2
3

【DEA-39】動画配信企業では、JSON 形式の視聴ログ約 5 TB/日（1 日あたり約 200 パーティション）を s3://logs/year=YYYY/month=MM/day=DD/ に保存し、Athena で分析している。
要件は次のとおりである。
① 新規オブジェクトは投入後 10 分以内にクエリ可能であること
② 列追加などのスキーマ変更は週 1 回検出できればよい
③ Glue クローラ実行時間とコストを最小化する。
これらを満たす Glue Data Catalog の運用設計として最適なのはどれか。

Amazon S3 PUT イベントを EventBridge で受け、「新しいフォルダのみをクロール」設定の Glue クローラを直ちに起動してパーティションを追加し、週 1 回だけフルクロールを走らせてスキーマ差分を検出する
15 分おきに同一クローラをフルスキャンで起動し、バケット全体を毎回再解析してパーティションとスキーマを常に再生成する
Glue ETL ジョブ完了時に Step Functions から Athena の MSCK REPAIR TABLE を実行してパーティションを反映し、スキーマ変更は開発者が手動で ALTER TABLE で対応する
S3 Batch Operations で新規オブジェクト一覧を抽出し、Glue ETL ジョブでメタデータを DynamoDB に保存後、1 日 1 回のカスタム Python スクリプトで Data Catalog を更新する