MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-112】FinTech 企業は、1 日あたり JSON 形式 500 GB と CSV 形式 50 GB の取引データを Amazon S3 の s3://fin-raw/ に保存している。
ビジネスアナリストはサーバレスで運用したいが、
①平均 25 並列クエリ、
②クエリ開始遅延 5 秒以内、
③スキーマ変更を列単位で追従、
④ETL チームが同一データカタログを利用、
⑤クエリ実行分だけ課金、という要件がある。
最小の運用負荷とコストで要件を満たすアーキテクチャはどれか。

S3 上に日付パーティションを切ったテーブルを AWS Glue Data Catalog に登録し、Amazon Athena WorkGroup で DPU 32 の Capacity Reservation を作成してクエリ実行結果を別バケットに出力する
Amazon EMR クラスター（Hive/Presto）を常時起動し、Hive Metastore を Amazon RDS で運用してクエリと ETL を実施する
Amazon Redshift RA3 クラスターを常時稼働させ Redshift Spectrum で S3 上のデータを参照し、Glue Crawler でテーブル定義を 1 日 1 回更新する
全データを Amazon RDS PostgreSQL の jsonb カラムにロードし、pg_partman で月次パーティションを管理してアナリストに接続させる

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-113】通信機器メーカーは年間 200 万通のサポートメールを自動仕分けしたい。
1 通のメールが「製品ライン」「障害種別」「優先度」の最大 3 つのラベルを同時に取る。
要件は誤検知率 5％未満、推論レイテンシ p99 2 秒以内、ラベルは最大 30 種類に増加予定、モデルは月 1 回再学習と再デプロイ、運用負荷とコストは最小限にすること。
最適な実装はどれか。

Amazon Comprehend のカスタム分類器をシングルラベルモードで訓練し、メールを 3 つの部分に分割して個別に推論させる
Amazon Comprehend のカスタム分類器をマルチラベルモードで訓練し、30 ラベルを 1 つのモデルに統合してエンドポイントとして提供する
Amazon Comprehend のトピックモデリング機能を用いてメールを自動クラスタリングし、各クラスタ ID をラベルとして採用する
Amazon SageMaker BlazingText を用いてマルチクラス分類モデルを構築し、マネージド Spot Training とリアルタイムエンドポイントで提供する

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-114】国内EC企業は、毎月50万件追加される日本語レビューを5分類し、1リクエスト当たり100 ms以内で推論したい。
教師データはS3に保存された「ラベル,本文」のCSV2列で提供される。
運用負荷を最小化しつつ、毎月の自動再学習とモデルバージョン更新を実現するアーキテクチャとして最も適切なものはどれか。

Amazon Comprehend カスタム分類器をCSVで学習し、EventBridgeの月次ルールで再トレーニングを自動化。完了後にエイリアス経由で最新版ARNをLambdaがClassifyDocument APIに渡してリアルタイム推論する。
Amazon SageMaker BlazingText で再学習し、単一 ml.m5.large エンドポイントを手動デプロイ。Lambda から InvokeEndpoint を呼び出し、必要時に管理者がスクリプトで再デプロイする。
Amazon Translate で日本語を英語に変換し、DetectSentiment API のスコアをしきい値で分岐して分類する。学習やモデル更新は不要とする。
AWS Glue ETL でCSVを処理し、結果をQuickSightの計算フィールドで動的にラベル付与。API Gateway から Athena を呼び出し判定結果を返す。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-115】新聞社は、Kinesis Data Firehose が 1 分ごとに約 3,000 件（1 時間最大 50,000 件）のツイートを JSON ファイルとして暗号化 S3 バケットに保存するストリーム基盤を運用している。
ネガティブ投稿が 1 分平均 500 件を超えた場合に即時 SNS 通知を受け取る必要がある。
追加の永続ストレージは設けず、運用負荷とコストを最小化しつつ Comprehend のデフォルト同時呼び出し制限内で要件を満たすアーキテクチャを選べ。

S3 PUT イベントで起動する Lambda が 25 件単位で BatchDetectSentiment API を呼び出し、ネガティブ件数を CloudWatch カスタムメトリクスに PutMetricData し、Threshold 500/1min のアラームから SNS へ通知する。
S3 イベントで起動する Lambda が各ツイートごとに DetectSentiment API を同期呼び出しし、結果を DynamoDB に格納し、1 分ごとの CloudWatch Events ルールでスキャン集計して SNS 通知する。
S3 イベントで Step Functions を開始し、StartSentimentDetectionJob を用いた Comprehend 非同期ジョブでファイル全体を解析し、完了後の SNS 通知で CloudWatch にメトリクスを発行する。
Firehose の変換 Lambda で DetectSentiment を呼び出し、結果を Kinesis Data Analytics ストリームに送り集計、Alarm を EventBridge で発火させて SNS 通知する。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-116】国内3000店舗の日次売上データ（50SKU/店、過去3年＝約150万行）とプロモーション・祝日情報をAmazon S3に保存する小売企業がある。
ML専門家は不在だが、4時間以内に月次で再学習し翌90日分を予測したい。
予測結果はAmazon RedshiftにロードしてBIで可視化する必要がある。
運用保守負荷とインフラコストを最小化し、関連時系列やカレンダー特徴量を自動生成させる最適なアーキテクチャを選択せよ。

Amazon ForecastのAutoPredictorでS3からデータセットグループを作成し、プロモーション情報を関連時系列として取り込み、予測をS3へエクスポート後Redshift COPYで取込む。AWS Glueワークフローをイベント駆動で起動し月次ETLと再学習を自動化する。
Amazon SageMakerでDeepAR+を用い、Glueでプロモーションと祝日をワンホット化した特徴量を生成し、Spot Instanceクラスタで学習後、Batch Transformで推論し、Redshift Spectrum外部テーブルとして参照する。
Amazon QuickSight Qで自然言語クエリから時系列予測を実行し、AthenaでS3データを直接分析し、祝日列を計算フィールドで補完してダッシュボードに可視化する。
Amazon Timestreamに売上をストリーミングし、Lookout for Metricsで自動更新される異常検知モデルを利用し、検出スコアをRedshiftにFederated Queryで統合する。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-117】金融取引プラットフォームでは、1 秒あたり平均 1 万件・ピーク 2 万件の約定レコード (1 KB/件) を受信し、取引金額の外れ値を 5 秒以内に検知して即時アラートを発報する仕組みを求めている。
追加要件:
• データは単一リージョン内で処理／保存すること
• 運用担当者が ANSI-SQL で閾値変更やモデル評価を行えること
• 将来的なスループット増にも自動で対応し、コストを最小化すること
これらの要件をすべて満たすストリーミング異常検知基盤の構成として最も適切なものはどれか。

Amazon Kinesis Data Streams にレコードを投入し、Kinesis Data Analytics for Apache Flink の Random Cut Forest SQL 拡張で外れ値スコアを計算し、SQL から Amazon SNS を呼び出して即時アラートを送信する。
Amazon Kinesis Data Streams から AWS Lambda を同期呼び出しし、起動時に S3 から読み込む scikit-learn モデルで推論し、結果を CloudWatch Events で 1 分単位に集計して通知する。
Amazon MSK へ取り込み、Kinesis Data Firehose で Amazon Redshift にロードし、Redshift ML のバッチジョブで外れ値を検出後 QuickSight ダッシュボードで共有する。
Amazon DynamoDB Streams でデータを取得し、毎時実行の Amazon SageMaker バッチ変換で異常を検知し、結果を S3 に書き出してから Amazon EventBridge で通知する。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-118】フィンテック企業 X は決済トランザクションを 1 秒あたり 5 万件（平均 2 KB）受信している。
異常値は発生後 5 秒以内に検出し、Exactly-once で圧縮・列指向フォーマットのまま S3 に保存し、即座に Athena からクエリ可能としたい。
追加開発と運用負荷を最小化しつつ要件を満たすリアルタイム異常検知パイプラインの構成として最も適切なのはどれか。

Kinesis Data Streams → Kinesis Data Analytics SQL アプリで Random Cut Forest → 変換機能付き Kinesis Data Firehose（Parquet＋GZIP、バッファ 1 分/128 MB）→ S3、CloudWatch Alarms で異常を通知する構成
Kinesis Data Streams → AWS Lambda で RCForest を独自実装 → Firehose で CSV のまま S3 に配送し、Step Functions で 5 分ごとに Athena CTAS 変換を走らせる構成
Amazon MSK → EMR Spark Streaming で異常検知 → DynamoDB に書き込み、DynamoDB Streams で S3 へエクスポートして Athena で参照する構成
IoT Core → AWS Lambda → SNS で異常通知し、全データを Amazon Aurora MySQL に INSERT する構成

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-119】会社Aは世界中の支店に設置したRTSP対応IPカメラ100台（平均8 Mbps、15 fps）からの映像を暗号化してAWSに取り込み、2 秒以内に顔認識を行い、既知人物が検出された場合は社内APIにJSONで通知したい。
全映像は30 日間解析可能な形で安価に保存し、運用は最小化したい。
高可用性を維持しつつAWSサービスクオータ内に収めること。
月額コストは現行オンプレシステム比で50%削減を目指す。
これらの要件を同時に満たす最も適切なストリーミング処理パイプライン構成はどれか。

各カメラをAmazon Kinesis Video Streamsに接続し、Kinesis Video StreamsのHLSエクスポートでS3へ自動アーカイブ（30日後削除）。同ストリームをAmazon Rekognition Video ストリームプロセッサに接続し、結果をKinesis Data Streamsへ送り、AWS LambdaでJSON整形後にAPI Gatewayエンドポイントへ転送する。
IPカメラをAmazon Kinesis Data Streamsに直接送出し、5分毎にAWS Glueバッチでフレーム抽出、Amazon Rekognition Image APIを同期呼び出し。結果はAmazon SQSに書き込みオンプレアプリがポーリング。映像は未保存。
エッジで映像を5秒毎にMP4へ分割しAmazon S3へPUT。S3イベントでAWS Lambdaを起動してAmazon Rekognition Video非同期ジョブを開始、完了通知をAmazon SNSへ送信。S3バージョン管理で30日保管するがレイテンシは数分。
AWS Elemental MediaLiveでRTSPストリームを受信し、MediaConvertでJPEG化後にAmazon SageMakerエンドポイントでカスタム顔認識を実施、Step Functionsでオーケストレーション。S3へ保存するが運用とコスト負荷が大きい。

ヒントボタン

RTSP をそのままクラウドへ届け、TLS で暗号化した状態を保ちつつマルチ AZ で冗長化してくれるマネージド取り込みサービスは Kinesis Video Streams だけです。汎用の Kinesis Data Streams や MediaLive では映像コンテナの再ラップやトランスコードが必要になり、100 台 × 8 Mbps で 2 秒以内という遅延要件を維持するには処理負荷と開発工数が急増します。Kinesis Video Streams の推奨 4 Mbps/ストリームを守ればサービスクオータ内で接続でき、追加申請や自前フェイルオーバー構成を用意しなくても高可用性を実現できる点が大きな差異となります。

リアルタイムに顔を検出するなら Amazon Rekognition Video のストリームプロセッサを Kinesis Video Streams に直結し、結果を Kinesis Data Streams→AWS Lambda のイベント駆動パイプラインで受け渡すと最短数百ミリ秒で JSON が生成できます。Glue バッチや S3 経由の非同期ジョブはキュー待ちやポーリングが発生しやすく、2 秒 SLA を超過しがちです。Lambda で整形したデータを API Gateway 経由で社内 API へ POST すればネットワーク越えも HTTPS で統一でき、フルマネージドの自動スケールにより運用負荷は最小化されます。

30 日間の映像保存は Kinesis Video Streams の HLS エクスポート機能で S3 に自動アーカイブし、ライフサイクルポリシーで 30 日後に削除または Glacier 移行すれば手離れ良く管理できます。S3 Standard-IA や Intelligent-Tiering を併用すればオンプレ比 50% 以上のコスト削減も現実的です。取り込みの容易さ、2 秒以内の推論レイテンシ、イベント通知の即時性、安価な長期保存、高可用性とサービスクォータの両立という複数条件を総合的に満たす構成かどうかを俯瞰して判断してみてください。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-120】国内通信キャリアは、月間50種のプロモーションを案内する問い合わせチャットボットを Amazon Lex V2 で運用している。
ユーザは「学割」「学割プラン」「学生プラン」など略称・俗称で発話するため、Slot campaignName の未充足による NLU エラー率が 15% に達している。
ピーク同時接続 500/秒、許容レイテンシ 200 ms 以内、追加コストと運用負荷は最小に抑えつつ発話認識精度を向上させたい。
最適な対策を選べ。

Slot を AMAZON.AlphaNumeric 型に変更し、バリデーション Lambda で正規表現マッピングを行う
カスタムスロットタイプに各プロモーション名を値として登録し、略称・俗称を同義語として追加する
Amazon Comprehend のカスタムエンティティモデルを学習し、Lex から Lambda 経由で都度呼び出す
Amazon SageMaker で BERT ベースの分類モデルを訓練し、API Gateway–Lambda で前段推論を行う

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-121】国内アパレル EC は月間 200 万ユーザ、平均同時接続 2,000、推論レイテンシ 50 ms 未満を要求している。
毎日 5,000 の新規 SKU が追加されるため、追加後 2 時間以内に推薦に反映し、運用は可能な限り自動化したい。
Amazon Personalize を利用して目標を達成する最適な運用方法はどれか。

PutEvents API を呼び出す Event トラッカーを Kinesis Data Streams 経由で実装し、CloudWatch Event ルールで毎時 CreateDatasetImportJob→CreateSolutionVersion→UpdateCampaign を連鎖実行してモデルとエンドポイントを無停止で更新する構成とする
イベントトラッカーのみでクリックを送信し、アイテム追加は翌日のバッチ CSV インポート時に反映、週 1 回手動で CreateSolutionVersion を実行してキャンペーンを更新する構成とする
新旧アイテムを DynamoDB に格納し、Amazon Personalize のバッチ推論ジョブを 1 日 1 回実行して S3 に結果を出力、アプリケーションは結果ファイルをキャッシュしてレスポンスを返す構成とする
新規アイテムイベントを DynamoDB Streams から Lambda で Amazon Personalize の PutEvents に直接送信し、キャンペーンは自動的に学習内容を取り込むため追加のジョブは不要とする

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-122】国内EC事業者A社は会員300万・ピーク5 000同時接続のモバイルアプリで、1 000 req/s・平均50 ms以下の応答で商品レコメンドを提示したい。
USER_PERSONALIZATIONレシピで学習済ソリューションがあり、Itemsデータセットにはavailability属性がある。
在庫切れ商品(availability=0)をリアルタイムに除外しつつ再学習コストを抑えたい。
最適な実装はどれか。

Itemsにavailabilityを保持しFilterで「INCLUDE Item.availability IN (1)」を定義、GetRecommendationsにfilterArnを渡しTPS1 000のキャンペーンを利用するとする。
イベントストアのみを用いキャンペーン結果をアプリ側で在庫切れを除外、Personalize側ではFilterやItems更新を行わないとする。
SIMSレシピで毎時Batch Inference Jobを実行しS3出力をAPI Gateway経由で配信、在庫切れは後段で除外する構成とする。
Filterを使わず在庫変動の都度PutItems後に新規solution versionを再学習・再デプロイしてからレコメンドを取得する実装とする。

ヒントボタン

モバイルアプリで 1 000 req/s・50 ms 以下という低レイテンシを目指す場合、Amazon Personalize のキャンペーンが提供する推論 API がもっともシンプルなリアルタイム手段です。キャンペーンは最大 1 000 TPS を公式にサポートしており、Elastic Load Balancing 等を挟まずともスケールが確保できますから、外部キャッシュに逃がすより応答速度面で有利になります。GetRecommendations エンドポイントは既存の USER_PERSONALIZATION モデルをオンライン推論に載せるだけで利用でき、追加のバッチ処理や S3 操作を経由しないため、ピークタイムでの同時接続 5 000 にも即応できます。

在庫切れを即時に外すなら、Items データセットに availability 属性を保持し、Amazon Personalize Filter で「INCLUDE Item.availability IN (1)」と宣言し filterArn を GetRecommendations に渡す方法が効きます。PutItems API で値を 0→1 に更新すると再学習なしでフィルタ判定が反映されるため、在庫変動に秒単位で追随でき、学習コストも solution version 生成の待ち時間も発生しません。キャンペーン側はモデルパラメータを変えずにリクエスト時点で動的に除外処理を行うので、推論精度を保ちながらレスポンスの安定性を損なわずに済みます。

要件を整理すると、リアルタイム性では Batch Inference や S3 配信より直結 API、レイテンシではアプリ側除外より Personalize 内部 Filter、コストでは頻繁な solution version 作成より PutItems 更新が有利です。Amazon Personalize キャンペーンと Filter を組み合わせれば 1 000 req/s で在庫を即反映させつつ 50 ms 以内の応答、加えて再学習費用の抑制という複数目標をバランス良く同時に達成できるとの総合判断になります。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-123】国内EC企業は商品レビューページに投稿された画像（JPEG）から文字列を抽出し、Aurora MySQL に即時反映するワークフローを 10 日以内に構築する予定です。
要件は次のとおりです。
①1 日 12 万枚、ピークは 1 秒間に 500 枚アップロード　
②各画像の処理結果は 4 秒以内　
③月額 1,000 USD 以内　
④将来的に多言語 OCR を追加しても改修を最小化する。
運用負荷を最小にしつつ要件を満たすアーキテクチャとして最適なのはどれか。

S3 PUT をトリガにオブジェクトキーを SQS に送信し、Reserved Concurrency 500 の Lambda から Amazon Rekognition DetectText 同期 API を呼び出す。Service Quotas で DetectText TPS を 500 に引き上げ、結果を Aurora Data API で書き込む。
S3 PUT を起点に AWS Batch で Fargate Spot タスク 500 個を起動し、コンテナ内の Tesseract OCR で文字検出後、直接 Aurora に保存する。
S3 PUT で Step Functions を実行し、SageMaker Ground Truth でラベリングジョブを発行、ジョブ完了後に出力 CSV を Aurora にロードする。
S3 PUT を契機に Lambda から Amazon Textract AnalyzeDocument 同期 API を呼び出し、結果 JSON を S3 に配置後、毎時 Glue ジョブで Aurora にインポートする。

ヒントボタン

S3 に届くバースト 1 秒 500 枚を滑らかに処理するには、まず SQS にキューイングしてスロットリングし、その後 Reserved Concurrency 500 の Lambda で平行実行すると効果的です。Lambda から Amazon Rekognition DetectText 同期 API を呼ぶ場合、Service Quotas で TPS を 500 まで事前申請しておけば 1 枚あたり数百 ms で応答し、SLA の 4 秒以内を十分にクリアできます。Aurora には VPC やプールを気にせず Aurora Data API で非同期書き込みが可能なため、ピーク処理と遅延の両立が容易になります。

10 日という短期開発と月額 1,000 USD 以内の両方を満たすには、サーバレス中心で初期構築を抑え、従量課金を活かす設計が鍵です。Amazon Rekognition DetectText の単価は 1,000 枚あたり約 1 USD なので 1 日 12 万枚でも月 2,000 USD 弱に収まり、Lambda・S3・SQS は無料枠や小額で済みます。コンテナを並べる AWS Batch＋Fargate や Textract AnalyzeDocument の単価と比べるとコスト効率が高く、運用負荷もパッチ不要で小さくできるため、予算と期間の制約に適合しやすい構成になります。

将来の多言語 OCR 追加を視野に入れるなら、画像保管の S3、バッファリングの SQS、実行エンジンの Lambda を疎結合で組み、内部で呼ぶ OCR サービスのみを差し替えるパターンが適しています。Amazon Rekognition DetectText は既に多言語対応が進み API 変更無しで新言語を取り込めるうえ、必要に応じて Textract や Comprehend に乗り換える際も Lambda のコードを書き換えるだけで済みます。スケーラビリティ、コスト、運用、拡張性を総合的に見渡すと、完全マネージドのイベント駆動サーバレスアーキテクチャが要件を最もバランス良く満たすという判断に至ります。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-124】製造業の品質検査部門は、1 日あたり 100 万枚の高解像度画像を Amazon S3 に保管し、月次で分類モデルを再学習しています。
現場の Raspberry Pi-4（ARM64）に推論を配置し、ネットワークが断続的でも 50 ms 以内のレイテンシーを保証したい。
エッジ側のメモリは 512 MB に制限されており、運用負荷と通信コストを最小化する必要があります。
この要件を満たす最適なワークフローはどれか。

SageMaker Studio でモデルを学習し、学習済みモデルをそのまま Docker イメージとして ECR に保存し、各デバイスにフルサイズのコンテナを SCP で配布する
SageMaker トレーニングジョブでモデルを作成後、SageMaker Neo で ARM アーキテクチャ向けに最適化し、AWS IoT Greengrass モジュールとして自動デプロイする
SageMaker Autopilot でモデルを生成し、Amazon Rekognition Custom Labels にインポートして推論エンドポイントを呼び出す
Amazon S3 イベントで Lambda をトリガーし、ml.m5.4xlarge 上で即時再学習し、結果を AWS DeepLens に手動コピーする

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-125】動画配信サービス企業は、月次で収集される4億行・500 GBのCSVログを用いて解約予測モデルを構築したい。
開発者は機械学習フレームワークの知識が乏しく、コードを書かずに高精度モデルを得て、P95=40 ms、毎秒500リクエストのリアルタイム推論エンドポイントを自動で本番反映したい。
データは暗号化されたS3バケットに保存されている。
社内ポリシーでKMS暗号化とタグ付けによる課金可視化が必須であり、モデルの毎月再学習を自動化できることが求められる。
運用負荷とコストを最小化しつつ、監査用に全学習成果物をバージョン管理する設計として最も適切なのはどれか。

Amazon SageMaker Autopilot ジョブを EventBridge で毎月起動し KMS 暗号化を有効化する。ジョブ完了後、SageMaker Model Registry に最高評価モデルを登録し、SageMaker Pipelines で承認と Blue/Green デプロイを自動実行してエンドポイントをスケールアウト可能に維持する。
Amazon SageMaker Studio ノートブックを手動で開き GenerateCandidateDefinitionsOnly モードの Autopilot を実行する。成果物を ECR に格納し、毎月 Lambda が新イメージを ECS サービスへローリングデプロイする構成とする。
AWS Glue で特徴量を生成後 Amazon QuickSight ML Insights でモデルを作成する。QuickSight ダッシュボードの予測値を API Gateway から取得しリアルタイム推論に利用する構成とする。
Amazon Forecast でデータセットグループを作成し毎月再学習する。出力を AWS Batch でマルチモデルコンテナにパッケージし、ECS へ常時稼働させて推論を提供する構成とする。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-126】金融 SaaS 企業は Amazon SageMaker で XGBoost を使い、ml.m5.4xlarge スポット 2 台構成の再学習ジョブを毎日実行している。
監査部門の要件は
①学習終了から 10 分以内に最新モデルの SHAP 特徴量寄与度サンプルを S3 に自動保存する
②追加コストと運用工数を極力抑える、の 2 点である。
現状 Debugger は無効、外部 Processing ジョブの新設や手動運用は避けたい。
この要件を最も効率的に満たす実装方針はどれか。

学習ジョブの DebuggerHookConfig に "shap" コレクションを追加し、組み込みルール ShapExplainer を有効化、save_interval と S3 出力プレフィックスを設定して SHAP を自動収集させる
学習完了後に Amazon SageMaker Clarify Processing ジョブを起動し、enable_explainability パラメータで SHAP を出力し、その結果を S3 に保存する
エンドポイントを Serverless Inference に変更し、EnableFeatureAttribution オプションを true に設定して推論時に生成された SHAP ファイルを CloudWatch Logs へ転送する
トレーニングスクリプト内で shap ライブラリを pip install し、学習中に SHAP 値を /tmp に保存後、学習完了フックで S3 へ同期するシェルスクリプトを手動管理する

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-127】国内大手EC企業は、非公開商品画像10万枚を2週間でバウンディングボックス付きでラベリングしたい。
作業者50名は社内IdPで認証され、VPC内のみからHTTPS接続し、進捗はS3のマニフェストで日次更新する必要がある。
追加要件：
①S3外への画像転送禁止、
②作業者ごとに品質指標を収集、
③今後のトレーニングコストを最小化。
各画像につき平均4つのボックスを描画し、ピーク時の同時ラベリング要求は毎時3,600タスクに達する見込み。
1ラベルあたり0.02 USD以内に抑えることも条件である。
現行インフラは東京リージョンに限定する。
最適な設計はどれか。

SageMaker Ground TruthでプライベートワークフォースをCognito＋AWS SSOで構成し、VPCエンドポイント経由でS3に置いた入力マニフェストを読み込み、組み込みBounding BoxジョブとActive Learningを併用して成果物を同バケットに保存する
SageMaker Ground TruthでMechanical Turkのパブリックワークフォースを選択し、インターネット経由で画像を配信し、カスタムHTMLテンプレートで手動ボックスを描画し、完了後に外部FTPで成果物を取得する
Amazon Rekognition Custom Labelsを利用し、自動ラベリングで画像を推論し、結果をAthenaにエクスポートする。ワーカーは置かず、誤差は後続モデル学習で補正する
SageMaker StudioのData Wranglerで50名が共有ノートブック上で手作業ラベル付けを行い、成果物をEFSに保存し、ラベル管理はGitで実施する。VPCエンドポイントは設定しない

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-128】大手 EC 企業は商品画像アップロード時にリアルタイムでカテゴリ推定を行う新モデルを既存モデルと比較評価したい。
要件は次のとおり:
① 1 時間あたり最大 1 万枚、p95 レイテンシ 300 ms 未満
② 新旧モデルを 80:20 で同時配信し、CloudWatch の精度指標がしきい値を下回った場合は即座に 100% を旧モデルへ戻す
③ 運用負荷とコストを最小化する。
最適な設計はどれか。

Amazon SageMaker シングルエンドポイントに 2 つのプロダクションバリアントを登録し、それぞれ AutoScaling を有効化する。S3 イベントで起動した Lambda が InvokeEndpoint を実行し、CloudWatch Alarm→SNS→Step Functions で UpdateEndpointWeightsAndCapacities API を呼び重みを変更する。
Amazon SageMaker Batch Transform ジョブを新旧 2 本同時に実行し、S3 イベントで開始する。精度低下時は新しいジョブを停止し旧モデルのみを残す。
新旧モデルを個別の SageMaker 非同期推論エンドポイントに配置し、S3 Put イベントで Lambda が画像を 80:20 の確率でランダムに選んだエンドポイントへ invoke。重み変更は各エンドポイントの自動スケール設定を編集して行う。
新旧モデルをそれぞれ ECS Fargate 上の REST API としてコンテナ化し、ALB の加重ターゲットグループで 80:20 ルーティング。Lambda は ALB 経由で推論呼び出しし、精度低下時はコンソールで重みを手動変更する。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-129】国内ECサイトを運営する企業のデータサイエンス部門は、週次で約10台の Amazon SageMaker ノートブックインスタンス（ml.t3.medium）を起動・停止して実験を行っています。
起動時には
①社内 PyPI サーバーからライブラリを自動インストールし、
②AWS Secrets Manager に格納した Git 認証トークンでプライベートリポジトリをクローンし、
③EBS を保持して停止中コストを最小化しつつ環境を再現できることが求められます。
セキュリティチームは IAM 最小権限と資格情報のハードコード禁止を厳守させたいと考えています。
最も運用負荷が低く、要件を満たす実装はどれですか。

ノートブックに on-create／on-start スクリプトを含むライフサイクル構成を関連付け、on-create で Conda 環境を構築し、on-start で Secrets Manager から一時クレデンシャルを取得して Git をクローンする方法
ノートブックの IAM ロールに Git トークンをインラインで記述し、ユーザーが起動後に手動で bash スクリプトを実行してライブラリとリポジトリをセットアップする方法
EC2 Image Builder でカスタム AMI を毎週作成し、その AMI からノートブックを新規起動して実験後にインスタンスと EBS を完全削除し、次回は再度 AMI を作り直す方法
CloudWatch Events から Systems Manager Run Command を起動し、平文のトークンを格納したパラメータストアを参照して pip install と Git クローンを自動実行する方法

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-130】フィンテック企業 A 社は TensorFlow 2.13 で開発した独自 CUDA オペレーションを含むニューラルネットを学習し、99% のリクエストに対し 50 ms 以内で応答するリアルタイム推論 API を提供したい。
学習は A100 相当 GPU を 4 台用いた分散ジョブで行い、Managed Spot Training によりコストを 40% 削減したい。
さらに SageMaker Debugger で勾配爆発を検知し、学習環境と同一イメージでエンドポイントを自動スケールさせたい。
運用負荷を最小化しつつ要件を満たすアプローチとして最適なのはどれか。

標準の SageMaker TensorFlow 2.13 Estimator を script mode で用い、pip で独自レイヤをインストールし、オンデマンド ml.p4d.24xlarge×4 で学習し、マネージドマルチモデルエンドポイントにデプロイする
SageMaker TensorFlow 2.13 コンテナを継承したカスタム Docker に独自 CUDA オペレーションを組み込み ECR に登録し、TensorFlow Estimator で image_uri を指定して Managed Spot Training＋SageMaker Distributed Data Parallel で ml.p4de.24xlarge×4 を起動し、同イメージを Auto Scaling 付きリアルタイムエンドポイントにデプロイする
Amazon EKS 上で Horovod を用い自作 Docker で分散学習し、S3 に保存したモデルを SageMaker Batch Transform にインポートして推論 API を提供する
SageMaker Studio Lab で単一 GPU で学習後、モデルを Model Registry に登録し、コンテナイメージを使用して AWS Lambda にデプロイし、Provisioned Concurrency でスケールさせる

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-131】金融系スタートアップは、970 GB の履歴取引データでトランスフォーマーモデルを学習している。
現在 ml.p4d.24xlarge をオンデマンドで連続 80 時間実行しているが、学習コストを 50 %以上削減するよう経営陣から要請された。
中断が発生しても失われる学習進捗は 15 分以内、総学習時間の増加は 10 % 以内に抑える必要がある。
社内にはインフラ専門要員が少なく、運用負荷は極小化したい。
この要件を最も満たすアプローチはどれか。

Amazon SageMaker のマネージドスポットトレーニングを用い、checkpoint_s3_uri を設定して /opt/ml/checkpoints に 15 分間隔で重みを保存するよう学習コードを修正する
Amazon SageMaker をオンデマンドで継続利用し、学習終了後にモデルアーティファクトを Amazon EFS へ自動コピーする Lifecycle 設定を追加する
EC2 Spot Fleet 上に自己管理の Horovod クラスターを構築し、Spot 中断通知を受信したらジョブを停止し、次回は冒頭から再学習する運用に切り替える
Amazon SageMaker Processing ジョブをマネージドスポットで実行し、15 分ごとに CloudWatch イベントでジョブを再投入して最新のチェックポイントを上書きする

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-132】小売企業の ML チームは 5 GB の商品画像を使った TensorFlow 2.13 モデルの試行錯誤を 1 台の Ubuntu + RTX A6000 ワークステーションで行い、完成後は同一コードで Amazon SageMaker の本番トレーニングへ拡張したい。
開発フェーズのコストと待ち時間を最小化するため、SageMaker Python SDK のローカルモードで Docker イメージを動かし、GPU も利用する必要がある。
最も適切な実装方法はどれか。

ワークステーションに Docker と NVIDIA Container Toolkit を導入し、SageMaker TensorFlow 2.13 ベースのカスタムイメージをビルドしてローカルにタグ付けし、SDK で session=sagemaker.local.LocalSession() と instance_type='local_gpu' を指定して fit() を実行する。
SageMaker Studio ノートブックで TensorFlow 2.13 Conda カーネルを選択し、ローカル実行に切替えた上で ScriptProcessor を使用し、instance_type='ml.t3.medium' を指定して CPU のみでジョブを送信する。
docker run コマンドで学習コンテナを手動起動し、/opt/ml のバインドマウントとハイパーパラメータの環境変数を設定、終了後に成果物をスクリプトで S3 にコピーし、SDK は利用しない。
SDK Estimator の instance_type='ml.g5.xlarge'、instance_count=1、spot_price=0.2 を設定してマネージドトレーニングを起動し、完了後に TensorBoard で評価し、効果確認後にローカル実行へコードを書き換える。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-133】国内EC企業A社は、1日1,000万件のログイン試行(ユーザID・IPアドレス・端末情報を含む)をAPI Gateway経由で受信する。
要件は以下の通り。
・200 ms以内に不審IPを検知しLambdaでブロック判定を返す
・新規IPが日次で20%増加するため、モデルを毎日03:00に増分学習し、運用中の推論エンドポイントを無停止で置換したい
・月次ML予算は3,000 USD以内、PIIはすべてVPC内にとどめること
この要件を最も効率よく満たすアーキテクチャはどれか。

FirehoseでS3にログを書き込み、EventBridgeで日次起動するSageMaker PipelineがSpotインスタンスでIP Insightsを増分再学習し、Model Registry経由でBlue/Green方式でリアルタイムエンドポイントを置換、API Gateway→Lambda→VPC内のエンドポイントで推論する
LambdaでKinesis Data Streamsをポーリングし、そのままRandom Cut Forestアルゴリズムで推論・学習を同一ノートブックインスタンス上で実施、学習完了後にUpdateEndpoint APIで即時置換する
CloudWatch メトリクスの異常検知機能とAWS WAFのIPレピュテーションリストを組み合わせ、異常値として検知されたIPをWAFに自動登録しブロックする
Kinesis Data Analytics for Apache Flinkでストリームを前処理し、EMR上のSpark MLlib Isolation Forestで夜間バッチ学習、S3にモデルを出力後に手動でEC2上の推論サーバへデプロイする

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-134】保険会社は、毎日 8,000 枚の請求書 PDF（平均 300 KB）から請求額と請求日を抽出し社内システムへ登録したい。
要件は次のとおり：
① 抽出項目に 90 % 未満の信頼度が含まれる場合は 24 時間以内に人間レビュアへ転送する。
② データは同一リージョンの S3 に SSE-KMS で暗号化する。
③ コード改修と運用負荷を最小化し、フルマネージドサービスのみを用いる。
④ 今後の取扱量増加に備え自動スケールする。
最も適切なアーキテクチャはどれか。

Amazon Textract StartDocumentAnalysis で HumanLoopConfig を有効化し、Amazon A2I のプライベートワークフォースと Flow Definition を指定する。S3 入出力バケットに SSE-KMS を設定し、高信頼度のみを Lambda で DynamoDB へ登録する
Amazon Textract を使わず Step Functions で Amazon Comprehend を呼び出し低スコア行を判定し、結果を Amazon Mechanical Turk へ手動アップロードし S3 を SSE-S3 で暗号化する
SageMaker Ground Truth のカスタムラベリングジョブで請求書 PDF を全件人手処理し、Athena で結果を集計後オンプレミス DB へ連携する
Amazon Rekognition TextDetection で OCR し、低スコア検出は SNS 経由メールで担当者に通知しローカルツールで修正後に再アップロードする

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-135】ある金融 SaaS 企業は、1 時間あたり 5,000 枚（平均 1.2 MB）の手書き混在請求書 PDF を自動処理するワークフローを計画している。
要件:
1) 文字抽出再現率 99 %以上
2) 明細行からベンダー SKU と契約番号をエンティティ化し JSON で返却
3) 呼び出しから 10 秒以内に結果取得用 URI をクライアントへ返し、完了後は S3 に成果物を配置
4) コストは 1 ドキュメント 0.05 USD 未満
最も費用対効果が高く要件を満たす実装はどれか。

Lambda で Textract DetectDocumentText を同期実行し、直後に Comprehend 標準エンティティ BatchDetectEntities を呼び出して S3 に保存し、API から最終 JSON を返す。
Step Functions が Textract StartDocumentAnalysis(FORMS+TABLES) を非同期起動し、完了トリガーで Comprehend カスタムエンティティ BatchDetectCustomEntities を実行、結果を S3 に配置し URI を API で返す。
SageMaker エンドポイントで独自学習した OCR モデルを GPU 推論し、その結果を Comprehend 標準エンティティで解析後 Glue ジョブで整形し、API から JSON を返す。
API から AnalyzeExpense を同期呼び出し、OpenSearch の ML プラグインでベンダー SKU と契約番号を抽出し、完了後 Lambda が S3 に JSON を出力する。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-136】国内で医師向け e ラーニングを展開する企業は、日本語の医学講義動画を週 400 本（各 60 分、1.2 GB）収録し、ピークで同時に 50 本をアップロードする。
収録後 15 分以内に英語字幕を生成し、3,000 語の専門用語は訳文中に日本語を括弧付きで残し、誤字許容率は 1% 未満とする。
すべてマネージドサービスで自動スケールし、将来の用語追加は UI から反映できる構成が求められている。
最も適切なソリューションはどれか。

Amazon Transcribe のカスタム言語モデルに 3,000 語を登録してバッチで文字起こしし、結果を Amazon Translate のカスタム用語集に渡して英語字幕を生成する。用語追加は両サービスのリソース更新のみで対応できる。
Amazon Transcribe Medical のストリーミング API で文字起こしし、標準 Amazon Translate で翻訳後、AWS Lambda で専門用語を文字列置換して括弧付きに整形する。
AWS Elemental MediaConvert の自動キャプション機能で SRT を作成し、Amazon Comprehend カスタムエンティティ認識で用語を抽出後、AWS Step Functions で外部翻訳 API を呼び出して字幕を生成する。
Amazon SageMaker Studio 上でオープンソース音声認識モデルを再学習し、SDK で Amazon Translate を呼び出して字幕を作成、EKS クラスターで水平スケーリングする。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-137】医療系テレヘルス企業は、患者との通話を最長60分のストリーミングで200同時セッション録音し、2秒以内に文字起こしを表示したい。
専門用語や薬品名4,000語のCSVが毎週S3に配置される。
運用負荷を抑えて認識精度を最大化するため、最小限のコード変更で語彙を更新し、TranscribeストリームAPIで常に最新版を利用したい。
最も適切な実装はどれか。

S3のPUTイベントで起動するAWS LambdaがUpdateVocabulary APIを呼び出して最新カスタム語彙を作成し、StartStreamTranscriptionでVocabularyNameを指定して毎ストリームに適用する。
毎週SageMakerノートブックでTranscribe結果を再学習した専用音声モデルをトレーニングし、新モデルをエンドポイントにデプロイしてストリームを転送する。
S3の語彙CSVを同名ファイルで上書き保存すればTranscribeが自動的に新語彙を読み込み、追加設定やAPI呼び出しは不要である。
Amazon Lexのカスタムスロットタイプに薬品名を登録し、音声ストリームをLexチャネルに送信して取得した入力テキストを通話記録として保存する。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-138】多国籍 EC 企業では 12 言語で毎日約 50 万件（平均 200 文字）の商品レビューが投稿される。
PII を外部に出さず AWS 内で処理し、翌営業日 9:00 までに英語でのトピック分析結果を OpenSearch Dashboards に可視化する必要がある。
運用工数とコストを最小化し、AWS 推奨のサービス構成として最も適切なものを選択せよ。

Lambda でレビューを同期的に Amazon Translate Text API へ送信し逐次 S3 保存後、SageMaker Processing で BlazingText Word2Vec を実行し、ベクトルを OpenSearch にロードする
Firehose でレビューを取り込み Glue で ETL、Amazon Transcribe で英語文字起こしを行い、SageMaker GPU インスタンスで LDA モデルを 24 時間ホストし推論して OpenSearch にストリーム配信する
Amazon Comprehend の多言語トピックモデリングジョブを直接実行して翻訳を省略し、結果を Athena ビュー経由で OpenSearch に連携する
Amazon Translate の非同期バッチジョブで前日分を S3 に英語変換出力し、そのオブジェクトをトリガに SageMaker Managed Spot Training で NTM アルゴリズムを実行、結果を S3 経由で OpenSearch にロードする

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-139】ある金融企業は機微データを Redshift から S3（KMS 暗号化）にエクスポートし、AWS Glue 開発エンドポイントで整形後、同一 VPC の Amazon SageMaker ノートブックから PySpark を用いて機械学習前処理を行う予定である。
ノートブックはパブリックアクセスを許可せず、最小権限を順守する必要がある。
SageMaker ノートブックが Glue 開発エンドポイントと該当 S3 バケットに安全にアクセスできる IAM ロール構成として最適なのはどれか。

SageMaker ノートブックの実行ロールに AWSGlueServiceRole、AmazonS3ReadOnlyAccess、AmazonEC2ContainerRegistryReadOnly を付与し、信頼ポリシーには "sagemaker.amazonaws.com" のみを許可するとする
SageMaker ノートブックと Glue 開発エンドポイントで同一 IAM ロールを共有し、信頼ポリシーに "sagemaker.amazonaws.com" と "glue.amazonaws.com" を追加した上で AWSGlueServiceNotebookRole と対象 S3 への限定権限を付与するとする
Glue 開発エンドポイントのロールに AmazonSageMakerFullAccess を追加し、SageMaker ノートブックのロールには CloudWatchLogsFullAccess のみを付与するとする
SageMaker ノートブックを起動するインスタンスプロファイルに AdministratorAccess を付与し、Glue 開発エンドポイントはデフォルトの AWSGlueServiceRole をそのまま用いるとする

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-140】製造業 A 社は、Arm64-Linux ゲートウェイ（4CPU・8 GB RAM）を各ラインに配置している。
1 秒当たり 1,000 件のセンサーデータから 50 MB の PyTorch 異常検知モデルで推論し、結果を 100 ms 以内に PLC へ返す必要がある。
インターネットは 1 日に数回、最長 1 時間断絶する。
モデルは月 1 回更新し、改ざん防止と通信コスト削減、運用自動化を優先したい。
この要件を満たす構成として最も適切なものはどれか。

Amazon SageMaker マネージド推論エンドポイントを us-east-1 に配置し、AWS IoT Core MQTT メッセージでセンサーデータを送信し、結果を IoT Rule で返す
学習済みモデルを Amazon S3 の署名付き URL で配信し、AWS IoT Greengrass V2 コンポーネントとして Amazon SageMaker Edge Manager エージェントとともにデプロイし、ローカル推論結果を Greengrass Stream Manager 経由で PLC へ連携する
AWS RoboMaker フリートシミュレーションを使用し、エッジゲートウェイに ROS ノードとしてモデルをコンテナデプロイし、結果を Kinesis Video Streams で送信する
AWS IoT Greengrass V1 に Lambda 関数としてモデルを zip 配布し、OTA Update 機能で手動更新し、メトリクスはカスタム MQTT トピックで収集する

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-141】製造業A社は工場内200台のロボットにGreengrass v2コアを導入し、SageMakerで訓練済みResNetモデルによる画像分類をオフラインで実行している。
要件は
①新しいモデルバージョンがモデルレジストリに登録され次第、自動でロールバック付きの段階的デプロイを行う
②前処理用Pythonコードを同じエッジで動かし、将来の機能追加時に無停止で更新できる。
最も運用負荷が低く要件を満たすアーキテクチャはどれか。

EventBridgeでモデル登録を検知し、CodePipelineからGreengrass V2コンポーネント（Lambda＋SageMaker Edge Manager）を段階的ロールアウト・自動ロールバック付きで配信する
IoT Jobsでモデルファイルを各コアへコピーし、前処理はSSH常駐Pythonで実行し、失敗時は手動で再配信する
Greengrass V1 MLインファレンスグループにモデルS3パスを設定し、更新時に全コアを再プロビジョニングして前処理Lambdaを再デプロイする
AWS RoboMakerフリートマネージャーで新モデルをROSパッケージとして配信し、Greengrassコアは推論結果のみをMQTT経由で受信する

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-142】国内通販企業は 500 名のオペレータが利用する Amazon Connect を稼働させている。
1 日平均 50,000 件の通話を自動文字起こしし、「返品」「返金」などのキーワードを含む不満通話を翌営業日までにスーパーバイザーへ通知したい。
PCI-DSS 準拠のためクレジットカード番号は保存前にマスクする必要があり、追加の ML パイプライン運用とコストは最小化したい。
最も効率的なアプローチはどれか。

Amazon Connect で Contact Lens を有効化し、キーワードベースの通話カテゴリとセンチメントルールを設定し、PII 自動マスキング機能でカード情報を除外して S3 に保存する
通話録音を S3 に保存後、Amazon Transcribe と Amazon Comprehend を Step Functions でオーケストレーションし、Lambda でキーワード検出と PII マスキングを行う
通話メディアを Kinesis Data Streams へ配信し、Amazon SageMaker 上のカスタム音声認識モデルと PyTorch でセンチメント分類を学習・推論し、結果を DynamoDB に格納する
Amazon Connect 録音を無効にし、オンプレミス Asterisk で録音後 AWS Snowball Edge でバッチ転送し、Amazon Transcribe Call Analytics に入力して分析を実施する

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-143】製造業A社は1日240億件（平均28万件/秒、ピーク50万件/秒）のセンサーデータをAWSにストリーミング送信している。
同社は次の要件を提示した。
1) 取り込みから30秒以内にダッシュボードへ最新値を反映する
2) 圧縮後1日3 TBとなる生データを90日間保存し、Glue Data Catalogでスキーマを管理しつつAthenaで遅延15秒以内にアドホックSQLを実行したい
3) 運用はフルマネージドサービスで統一し、スキーマ変更時のアプリ改修を最小化したい。
これらの条件を最も満たすデータ処理パイプラインの組み合わせはどれか。

Kinesis Data Streamsで取り込み、Kinesis Data Analyticsでウィンドウ集計後、Kinesis Data FirehoseでAmazon OpenSearch ServiceとS3（Parquet、Glue Data Catalog自動登録）へ同時配送する。AthenaはS3をクエリし、ダッシュボードはOpenSearch Dashboardsを用いる。
Kinesis Data Streamsで取り込み、AWS Lambdaでレコードを変換しAmazon EMR HDFSに書き込む。EMR Spark Streamingで集計し、結果をS3へ出力、ダッシュボードはAmazon QuickSight SPICEで更新する。
AWS IoT Core RulesでセンサーデータをDynamoDBに保存し、DynamoDB StreamsをAWS Glueジョブで取り込んでS3へエクスポートする。ダッシュボードにはAmazon CloudWatch Logs Insightsを使用する。
Kinesis Data Firehoseに直接送信し、変換を無効化したままAmazon Elasticsearch Serviceの単一ドメインに配送する。必要に応じてKibanaからクエリする。S3へのバックアップは行わない。

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-144】製造業 A 社は IoT センサーから毎秒 50,000 件の JSON データを受信している。
要件は次のとおり。
・30 秒以内にリアルタイムで異常スコアを算出しダッシュボードへ送信する
・生データとスコア付きデータを SSE-KMS で暗号化し 1 日 200 GB を S3 に保存する
・インフラは自動スケーリングし、運用とコード保守を最小化する
これらの要件を最も効率的に満たすアーキテクチャはどれか。

Amazon Kinesis Data Streams を取り込みソースとし、Kinesis Data Analytics の RANDOM_CUT_FOREST 関数で異常スコアを付与後、Kinesis Data Firehose の動的パーティション機能で SSE-KMS 暗号化された S3 バケットに配信する構成
Kinesis Data Firehose で即座に S3 に書き込み、Athena の予約クエリと UDF による RCF 判定を 5 分間隔で実行し、異常行を別 S3 バケットへ CTAS で保存する構成
AWS Glue Streaming ETL ジョブで Spark MLlib の RCF モデルを適用し、結果を S3 に書き出した後、Glue ワークフローで Auto Scaling を制御する構成
Amazon SageMaker の RCF アルゴリズムでトレーニング済みモデルを作成し、EventBridge で 1 時間毎に起動する Batch Transform ジョブで S3 生データを推論し、結果を別 S3 プレフィックスへ出力する構成

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-145】国際的な動画配信企業は、1 日あたり 1,000 本（各 60 分）のユーザー投稿動画を Amazon S3 に保存しています。
アップロード後 2 時間以内に (1) 動画内のブランドロゴと人物を検出してタグ付けし、(2) 多言語が混在する音声から自動で言語判定・文字起こしを行いキーフレーズを抽出し、(3) 生成したメタデータを Amazon OpenSearch Service に登録して検索できるようにする必要があります。
カスタムモデルのトレーニングは行わず、最小限の運用負荷とコストで実装したい場合、最も適切なソリューションはどれですか。

S3 イベントで Step Functions を起動し、Rekognition DetectLabels と Rekognition Custom Labels でロゴを検出し、Amazon Transcribe の自動言語識別と Comprehend でキーフレーズを抽出、結果を Lambda で整形して OpenSearch へ書き込む
S3 イベントで Lambda を実行し、SageMaker 上の自前 YOLOv5 と OSS ASR を推論、結果を DynamoDB に保存後 Glue ETL で OpenSearch にロードする
S3 イベントで MediaConvert で字幕を生成し、Polly で音声合成してから Comprehend で解析し、Athena で結果をクエリして OpenSearch と連携する
S3 イベントで Kinesis Video Streams に送信し、Rekognition Video のブランド・顔認識と Amazon Transcribe のストリーミング自動言語識別を実行、Comprehend DetectKeyPhrases でテキストを解析し、Step Functions と Lambda でメタデータを集約して OpenSearch に登録する

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-146】医療画像解析 SaaS を提供する A 社は、毎時10 GBずつ追記され最終的に200 TB規模となる診断用 DICOM データをオンプレミスから AWS に送信している。
8 並列のハイパーパラメータ検索を 1 日 3 回実行するため、各トレーニングジョブが常に最新ファイルを POSIX 互換で共有し、事前コピーの待ち時間とストレージ重複コストを最小化する必要がある。
運用負荷を抑えながら要件を満たす設計として、最適なデータソース設定はどれか。

SageMaker トレーニングジョブの DataSource に Amazon EFS を直接指定し、File Mode で /opt/ml/input/data にマウントする
事前に SageMaker Processing ジョブで EFS から S3 へ rsync し、各トレーニングは S3 Pipe Mode を使用する
Studio ライフサイクル設定で NFS マウントを手動実装し、トレーニング開始時にローカル EBS へコピーして参照する
Amazon FSx for Lustre を S3 バケットにリンクし、トレーニングジョブはリンク先バケットを Pipe Mode で読み込む

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-147】ある国内 EC 企業は ResNet-50 に基づく商品画像分類を Amazon SageMaker エンドポイント (ml.p3.2xlarge) で 24 時間稼働させている。
ピーク 200 req/s、平均推論レイテンシー 30 ms 未満が必須で、日中は 50 req/s まで低下する。
GPU 使用率は常時 10 % 未満で月 1,500 USD のコストが課題となっており、50 %以上の削減を目指す。
追加の学習工数は最小限に抑え、SageMaker 管理機能のみを利用する条件で、最も費用対効果の高い推論基盤はどれか。

ml.p4d.24xlarge のエンドポイントを単一台で常時起動し、Auto Scaling を無効化する
ml.c5.2xlarge に Elastic Inference eia2.medium を付与し、オートスケーリングを最小 1・最大 5 で構成する
ml.inf1.xlarge にモデルを Neuron SDK で再コンパイルしてデプロイし、プロビジョニングを最小 1・最大 5 とする
SageMaker サーバーレス推論 (メモリ 2048 MB、最大同時 10) を用いてリクエストに応じてスケールさせる

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-148】金融系スタートアップは、自己開発した時系列予測アルゴリズムを Amazon SageMaker で学習・推論させたい。
要件は次のとおり。
1) Dockerfile から毎回新バージョンのコンテナをビルドし、同一リージョンに保管すること
2) 学習ジョブは安全にイメージを取得し、モデル成果物 (約200 MB) をバージョン管理された S3 バケットへ保存すること
3) 学習は 1 日 10 回実行し、CI/CD の運用負荷は極小化すること
この要件を満たす構成として最も適切なものはどれか。

Docker Hub パブリックリポジトリにイメージを push し、SageMaker は URI を直接参照して学習し、成果物を EFS に保存するアプローチ
CodeCommit に Dockerfile を保存し CodeBuild で自動ビルド後、同一リージョン ECR に push し、ECR:BatchGetImage と S3:PutObject 権限を持つ IAM ロールで SageMaker が学習し、成果物を S3 に版管理するアプローチ
EC2 上の自己管理プライベート Registry から SageMaker が trainingInputMode=File でイメージを pull し、成果物をイメージへ再パッケージするアプローチ
Elastic Beanstalk マルチコンテナ環境で学習ジョブを実行し、完了後 models/*.tar.gz を Beanstalk アプリケーションバージョンとして保存するアプローチ

カテゴリ: MLS-4.2特定の課題に対応する適切な機械学習サービスおよび機能の推奨と実装。

1
2
3

【MLS-149】多言語（日本語/英語）のコールセンター録音（平均 5 分 WAV）が 1 日 1,000 件 Amazon S3 に保存される。
各通話終了後 15 分以内に感情スコア付きの文字起こしを JSON で Data Lake（S3）へ格納し、コード量と運用負荷を最小化しつつコストを抑えたい。
最適なアーキテクチャはどれか。

S3 PUT 通知で AWS Step Functions を起動し、1) Amazon Transcribe 非同期ジョブで文字起こし 2) Amazon Translate で言語を統一 3) Amazon Comprehend DetectSentiment で感情抽出 4) 出力 JSON を S3 に保存する構成とする。
S3 PUT 通知で AWS Glue Python シェルを起動し、Amazon Transcribe Call Analytics で文字起こしと感情を抽出し Kinesis Data Firehose で S3 に送信し、その後 Amazon Comprehend で追加解析する。
Amazon Transcribe Call Analytics の自動パイプラインを使用し、S3 へのファイル配置だけで文字起こしと感情分析を完了し、結果を CloudWatch Logs に送りエクスポートで S3 に保存する。
Amazon Lex V2 ボットに音声ファイルを渡してインテントと感情を取得し、必要に応じ Amazon Translate で翻訳し、Lambda で JSON に整形して S3 に配置する。