DEA-1.1データの取り込みを行う。

カテゴリ: DEA-1.1データの取り込みを行う。

1
2
3

【DEA-1】オンライン広告配信企業は世界中のクリックイベントをリアルタイムに取り込み、秒間最大3万件 (各1 KB) を処理する基盤を設計している。
要件は
①イベントを到着順に24時間保持し任意時点で再処理可能、
②ダッシュボードはDynamoDBへの単一項目読み込みを50 ms以内で取得、
③トラフィック変動に応じ自動スケールし運用負荷とコストを最小化することである。
最も適切な取り込み・保存アーキテクチャはどれか。

Kinesis Data Streams (オンデマンド) に取り込み、強化ファンアウト付き Lambda で並列消費し、広告IDをパーティションキーとする DynamoDB オンデマンド + TTL 24 h に書き込む
Kinesis Data Firehose で S3 に PUT し、5 分毎の Glue バッチで DynamoDB にロードし、ダッシュボードは QuickSight から 50 ms 以内に取得する
SQS FIFO キューでイベントを受け取り、Auto Scaling EC2 コンシューマが Aurora MySQL Multi-AZ に INSERT し、Read Replica をダッシュボードが参照する
MSK (3 ブローカー固定) へ送信し、EMR Spark Streaming が処理後、プロビジョンド 5 000 WCU/RCU の DynamoDB に書き込み、TTL 設定は行わない

カテゴリ: DEA-1.1データの取り込みを行う。

1
2
3

【DEA-2】ある EC 企業は注文イベントを 1 秒あたり 5 万レコードの速度で Amazon Kinesis Data Streams に発行している。
イベント到達から 60 秒以内に Amazon Redshift RA3 クラスタへ取り込み、ダッシュボードを更新することが目標である。
同クラスタはユーザークエリの SLA が 2 秒、同時接続 250 を維持しロード処理でクエリをブロックしてはならない。
ピーク時は 10 万レコード/秒まで拡張予定で、ETL サーバー追加や S3 経由のバッチ COPY は許可されない。
重複を排除しつつ最小遅延で取り込むアプローチを 1 つ選べ。

Amazon Redshift のストリーミング取り込み機能を使い、Kinesis Data Streams をソースとするマテリアライズドビューを作成して直接ロードし、DISTKEY ごとに重複を除去する。
Kinesis Data Firehose を S3 配信先として設定し、60 秒バッファリング後に Redshift COPY を実行するスケジュールドクエリでロードする。
Kinesis トリガーの Lambda が 1,000 レコード単位で Redshift COPY を逐次実行し、書き込み競合を避けるために SQS でキューイングする。
AWS Glue ストリーミングジョブで Kinesis を Parquet に変換して S3 に保存し、Redshift Spectrum 外部テーブルから 1 時間ごとに INSERT SELECT で取り込む。

カテゴリ: DEA-1.1データの取り込みを行う。

1
2
3

【DEA-3】FinTech 企業は、1 日あたり最大 50 GB の市場データを提供する外部データセットを利用して機械学習モデルを更新したい。
このデータセットは AWS Data Exchange for APIs で公開されており、取得後 30 分以内に生データを Amazon S3 に保存し、保存と同時に AWS Glue ジョブを自動起動してカタログ化・変換することが求められる。
追加の常時稼働インスタンスを用いず運用負荷を最小化できる取り込み方法として最も適切な構成はどれか。

Data Exchange for APIs のサブスクリプションを作成し、Amazon EventBridge Scheduler で 30 分間隔の InvokeAPI ジョブを起動、AWS Lambda でレスポンスを S3 に保存し、S3 PUT イベントで Glue ジョブをトリガーする
プロバイダー発行の API キーを Secrets Manager に保管し、cron 設定の EC2 から curl で取得後オンプレミスに転送し、毎晩 rsync で S3 に同期して Glue を手動実行する
Data Exchange のファイル配信データセットを購読し、S3 エクスポートジョブを週次で手動実行し、完了後に Glue クローラと ETL を CLI から手動実行する
Amazon AppFlow に Data Exchange コネクタを設定し、30 分間隔でフローを走らせて結果を Kinesis Data Streams に送信し、Redshift に COPY する

カテゴリ: DEA-1.1データの取り込みを行う。

1
2
3

【DEA-4】ある医療SaaS企業は、オンプレミスの Oracle 11g データベース（4 TB、平均変更レート毎時 5 GB）を Amazon Aurora PostgreSQL へ移行したい。
通信は Site-to-Site VPN（実効 90 Mbps）のみで、停止許容時間 15 分かつ RPO 0 を満たす必要がある。
業務外の夜間に自動で全量ロードと継続レプリケーションを実行し、切替時に差分を速やかに解消したい。
最もコスト効率が高く運用負荷を抑えられる移行方法はどれか。

Oracle ソース用 AWS DMS タスク（フルロード＋CDC）を m5.4xlarge レプリケーションインスタンスで起動し、VPN 経由で Aurora に継続同期し、切替前に DMS のスワップカットオーバー機能を実施する構成
AWS Snowball Edge で Oracle データを搬送し S3 へインポート後、AWS Glue で変換し Aurora へ JDBC ロードし、変更分は夜間に手動スクリプトで同期する構成
Oracle Data Guard を Amazon EC2 に同期モードで構築し、切替後に AWS SCT と DMS で Aurora へリホストし、アプリ側で段階的に書き込み先を切替える構成
AWS DMS のフルロードのみに t3.medium インスタンスで実行し、完了後アプリを最大 15 分停止して Oracle からダンプ差分をインポートする構成

カテゴリ: DEA-1.1データの取り込みを行う。

1
2
3

【DEA-5】金融機関A社は、機密性の高い300 TBのデータレイクを Amazon S3 に保持し、1日あたり50並列で AWS Glue ETL ジョブを実行している。
全トラフィックをオンプレミス Direct Connect 経由の Site-to-Site VPN ルートに集約しており、VPC 内のプライベートサブネットからのみ S3 にアクセスさせたい。
インターネット経由を禁止しつつ、転送コストと運用負荷を最小化するネットワーク設計として最適な構成はどれか。

プライベートサブネットのデフォルトルートを NAT Gateway に向け、NAT Gateway が配置されたパブリックサブネットでは IGW への 0.0.0.0/0 ルートのみを許可する
プライベートサブネットのルートテーブルに S3 プレフィックスリストを追加し、VPC Gateway Endpoint（com.amazonaws.*region*.s3）へのルートを設定する
プライベートサブネットに AWS Glue 用 Interface Endpoint を作成しつつ、S3 へは IGW 宛て 0.0.0.0/0 ルートを残す
S3 バケットをパブリックアクセス可能に設定し、VPC からのトラフィックは IGW 超えで直接 S3 URL にアクセスさせる

カテゴリ: DEA-1.1データの取り込みを行う。

1
2
3

【DEA-6】企業A（ログ送信元）と企業B（分析先）は別アカウントで、AのCloudWatch Logs（/us-east-1/application.log）をBのKinesis Data Stream（1 MB/秒×10シャード）へリアルタイム転送する。
サブスクリプションフィルターは作成済みだが、転送直後に「AccessDeniedException: Unable to assume role」が発生した。
AのCrossAccountStreamingRoleの信頼ポリシーを修正して解決する最適な方法はどれか。

Service を logs.amazonaws.com に設定し、Condition で aws:SourceArn に対象ロググループ ARN を完全一致で指定した信頼ポリシーへ置き換える。
信頼エンティティを Aアカウントの運用 IAM ユーザーに変更し、同ロールに Kinesis:PutRecord* のみ許可する。
Bアカウント側に Kinesis 書込専用ロールを新規作成し、Service を kinesis.amazonaws.com としてサブスクリプションフィルターにその ARN を指定する。
Service を kinesis.amazonaws.com に変更し、Condition で aws:SourceAccount に A のアカウント ID のみを指定する。

カテゴリ: DEA-1.1データの取り込みを行う。

1
2
3

【DEA-7】製造業 A 社は SaaS 型 CRM (Salesforce) から 1 時間当たり約 10 万件 (3 KB/件) の取引データを取得し、3 年間保持したうえで Amazon Redshift に日次で集計クエリを実行したい。
要件は
①RPO 15 分
②ストレージコスト最小
③コードレス
④履歴保持しやすいパーティション構造
⑤VPC エンドポイント経由の PrivateLink と暗号化必須。
Redshift クラスターは dc2.large 4 ノードで同時実行数は 10 以下であり、取込時の CPU 影響を抑えたい。
最も適切な取り込み設計はどれか。

Amazon AppFlow を PrivateLink 接続で Salesforce に 15 分周期で実行し、Parquet 形式かつ日付パーティションで S3 に保存、Glue クローラでカタログ化後、Redshift Spectrum 外部スキーマから日次 CTAS で集計テーブルへ取り込む構成とする。
Amazon AppFlow を PrivateLink 接続で 15 分周期に実行し、Salesforce データを直接 Redshift 内部テーブルへ連続 INSERT し、3 年保持はテーブル VACUUM／DELETE で管理する構成とする。
AWS DMS レプリケーションインスタンスを用い、Salesforce から Redshift へフルロード＋CDC を行い、取り込みテーブルは行指向 CSV のまま保持し、集計は Redshift 内部クエリで行う構成とする。
EventBridge で 15 分毎に Lambda 関数を起動し、Salesforce API から取得した JSON を Kinesis Data Firehose 経由で Redshift へロードし、履歴保持用の S3 連携は行わない構成とする。

カテゴリ: DEA-1.1データの取り込みを行う。

1
2
3

【DEA-8】大手医療画像解析企業ではオンプレミス NFS 共有に毎日 3 TB の増分データが生成される。
AWS Direct Connect 10 Gbps 回線があり、00:00–04:00 のメンテナンス時間内に Amazon S3 Standard へ自動転送したい。
要件は次のとおり。
①転送中は TLS 1.2 以上で暗号化
②転送後に整合性検証を行い欠損率 0.1 % 超で CloudWatch アラームを発報
③90 日後に Glacier Deep Archive へ自動移行
④運用負荷は最小とする。
最も適切なアーキテクチャはどれか。

オンプレ VM に DataSync エージェントを導入し NFS→S3 タスクを作成。スケジュールを 00–04 時に設定し TLS と転送後検証を有効化。タスクメトリクスを CloudWatch アラームで監視し、S3 ライフサイクルで 90 日後に Glacier Deep Archive へ移行する。
S3 Transfer Acceleration を有効化したバケットへ rsync スクリプトを cron 実行。転送後は S3 Batch Operations で MD5 を再計算し Lambda で欠損率を集計して CloudWatch へ送信し、コピータグで 90 日後に Glacier Deep Archive 移行を実装する。
Storage Gateway ファイルゲートウェイをオンプレに配置し非同期アップロードを利用。週次のキャッシュフラッシュ後に独自整合性スクリプトを実行し、S3 ライフサイクルで 90 日後に Glacier Deep Archive へ移行する。
毎週 Snowcone を注文し暗号化済みデータを書き込み発送してインポート。完了後に CloudWatch Events で検証ジョブを起動し、S3 ライフサイクルで 90 日後に Glacier Deep Archive へ移行する。

カテゴリ: DEA-1.1データの取り込みを行う。

1
2
3

【DEA-19】金融 SaaS 企業は、オンプレ Oracle データベース（毎時差分 500 万行）と Amazon MSK（ピーク 2,000 メッセージ/秒）のデータを Amazon S3 上のデータレイクに統合したい。
ETL は AWS Glue Spark ジョブで行い、
①認証情報をコードに埋め込まない
②VPC 内のみで TLS 通信させる
③運用負荷を最小化する、という要件がある。
最適な Glue の設定はどれか。

Oracle 用 JDBC 接続と Kafka タイプの Glue Connection を個別に作成し、Secrets Manager で資格情報を管理したうえでジョブに両接続を関連付ける
Glue ジョブに JDBC URL とブローカーエンドポイントを直接記述し、実行時引数でユーザ名とパスワードを渡して通信を行う
Glue DataBrew のレシピを 1 時間ごとにトリガーし、VPC エンドポイント経由で Oracle と MSK へ接続して変換を行う
Oracle と MSK からのデータを DMS で S3 に複製し、Glue ジョブは S3 から COPY コマンドで取り込みを行う

DEA-1.1データの取り込みを行う。

採点する

インフォメーション

結果

結果

カテゴリー

1. 質問

ヒントボタン

2. 質問

ヒントボタン

3. 質問

ヒントボタン

4. 質問

ヒントボタン

5. 質問

ヒントボタン

6. 質問

ヒントボタン

7. 質問

ヒントボタン

8. 質問

ヒントボタン

9. 質問

ヒントボタン