21問中 0問が回答されています
質問:
You have already completed the テスト before. Hence you can not start it again.
問題を読み込んでいます…
You must sign in or sign up to start the テスト.
まず、次の操作を完了する必要があります:
正解数 0/問題数21
回答にかかった時間:
終了時間となりました
回答お疲れ様でした。
Earned Point(s): 0 of 0, (0)
0 Essay(s) Pending (Possible Point(s): 0)
【MLS-61】動画配信企業A社では、累計30 TBの視聴ログ(ユーザID、作品ID、1〜5の評価値)がAmazon S3に保存されている。
コストを最小化しつつAmazon EMR 6.x上のApache Spark MLで日次バッチ学習を行い、生成した個別推薦リストを2時間以内にAmazon RDSへ書き込む必要がある。
協調フィルタリングによるパーソナライズを達成するために最も適切なアルゴリズムとその理由の組み合わせはどれか。
Amazon S3に保管された1〜5の評価値はクリック数などとは異なるexplicit feedbackとして扱えるため、Apache Spark MLのAlternating Least Squaresをexplicitモードで用いるとユーザ×アイテム疎行列を直接低ランク分解できます。Amazon EMR 6.xは分散メモリ処理に最適化されているので30 TB規模でもシャッフル量を抑えながら学習が完了しやすく、コストを抑えつつ精度向上に必要なパラメータ探索も行えます。
個別推薦リストをAmazon RDSへ書き込むにはユーザ単位でスコアリングした結果が必要ですが、クラスタリングやWord2Vecではクラスタ共通・全員共通の提案になりやすく細かなパーソナライズが難しくなります。行列分解を活用すればユーザと作品の潜在ベクトルから即座に予測スコアを算出でき、Sparkのブロードキャストやパーティション設計を駆使することでI/Oを抑えつつ大規模ID空間でもスループットを確保できます。
学習からRDS書き込みまでを2時間以内に収めるには計算量が線形でスケールアウト可能な手法が不可欠で、ワンホットエンコードを要するツリーモデルは特徴数増大によりEC2コストが膨らみます。Spark ML組み込みのALSはハイパーパラメータが少なくAmazon EMRのスポットインスタンスでも短時間で収束できるため、データ特性・性能要件・TCOを俯瞰して総合判断すると最も適切な選択と言えます。
【MLS-62】全国 2 万店を展開する小売企業は、15 分間隔の売上を 6 万系列保持している。
欠測値を補完しつつ店舗属性と祝日カレンダーを用いて 14 日先までの P50/P90 需要予測を行い、API 呼び出しから 100 ms 以内で単一系列の結果を返したい。
新店舗も自動で学習対象に含め、運用負荷を極小化する最適な実装はどれか。
1. 15 分間隔 × 6 万系列という巨大スケールではシリーズごとにモデルを作ると管理が破綻しやすいですが、Amazon Forecast の AutoPredictor は内部で階層クラスタリングを行い新規系列を即時に学習対象へ編入し、欠測値補完・特徴量生成・チューニングまでフルマネージドで回すため、機械学習基盤を持たないチームでも運用負荷をほぼゼロにできます。
2. 分位点予測を求められる P50/P90 は一般的な回帰アルゴリズムでは追加実装が必要ですが、Forecast は QueryForecast API がネイティブにパーセンタイルを返し、シングルシリーズの呼び出しが 100 ms 未満で完結する低レイテンシ設計なので、中間キャッシュや Lambda のバッチ化を挟まずとも API Gateway から直接呼び出すだけでサービスレベルを満たせます。
3. 祝日や店舗属性といった外生情報を簡単に組み込み、モデル更新も定期スケジュールで自動化できるフルマネージド時系列サービスは現状 Forecast だけであり、SageMaker Autopilot や Redshift ML など汎用サービスでは特徴量作成・再学習・API レイヤの自前実装が増えて複雑化するため、要件(多系列・分位・100 ms・無停止学習)を総合的に見て最適な選択肢が浮かび上がります。
【MLS-63】国内に400店舗を展開する衣料小売企業は、SKU5,000種類×店舗200=計100万系列の3年間の日次販売実績と価格・販促・祝日など20種類の外部共変量をS3からAmazon Forecastへ投入し、30日先までを95%信頼区間で予測したい。
セール時の突発的な需要急増を捉えたいが、モデル運用コストは抑えたい。
1回のトレーニングで多系列をまとめて学習し、同時に分位点(quantile)予測を出力できるアルゴリズムとして最も適切なのはどれか。
Amazon Forecast で SKU×店舗の約100万系列をまとめて扱う際は、系列ごとにモデルを別建てにする AutoARIMA や Prophet ではトレーニングジョブが爆発しますが、CNN-QR なら1モデルでスケールし畳み込み層が系列間の共通構造を学習するため、S3 から取り込む価格や販促などの外部共変量も含めて低コストで運用でき、これによりバッチ学習を夜間一度回すだけで全店舗全SKUの翌月分を推論でき追加のサーバーレス処理も不要になります。
需要の急なスパイクを把握したいときは中央値だけのポイント予測では不十分で、Amazon Forecast の CNN-QR が直接最小化する分位点損失は p10 や p90 を同時に最適化できるため 95% 信頼区間をそのまま得られますが、AutoARIMA や ETS+ を使うと後段で統計的仮定を置いて区間を計算するか別モデルを用意する必要があるぶん運用が複雑化し、さらに CNN-QR は推論 API からマルチクォンタイルを一括返却するのでダッシュボードや発注基準在庫計算へ直結しやすく手動で誤差分布を捕捉する余地を減らせる点も実務で大きなメリットです。
セール特有の非線形変動まで捉えるモデル精度、S3 に蓄積した三年分の日次データと二十種類の外的要因を一括入力できる柔軟性、100万系列を単一ジョブで学習し SageMaker など追加コンピュートを要さないコスト効率、そして直接的なクォンタイル出力によるリスク幅の可視化という複数要件を総合的に見比べると、深層学習ベースの CNN-QR が最も条件を満たしていると判断できます。
【MLS-64】大手動画配信企業は Amazon Personalize でトップページの「あなたへのおすすめ」枠をパーソナライズしたい。
要件は
①月間アクティブユーザ600万、RPS50、P95応答30ms 未満
②毎日数千本の新作動画を即時に候補へ反映
③視聴・評価・検索語の3種イベントを収集
④ジャンルやキャストなど60種のメタデータを保持
⑤協調フィルタリングを主としコールドスタートを緩和すること。
最適なレシピはどれか。
月間600万MAUでRPS50、P95 30ms 未満という性能要件に注目すると、Amazon Personalize のキャンペーンは単体で数十RPSを処理し Auto Scaling で水平拡張できるためレイテンシを維持できます。SageMaker バッチ変換や offline 専用レシピでは即時応答が難しいため、リアルタイム推論 API を持つレシピをまず候補に残しておくと判断が速くなります。
毎日数千本の動画追加と視聴・評価・検索語という3種類のイベントを即時学習させたい場合、PutEvents API でストリーミング取り込みができる Amazon Personalize が有利です。さらに ITEM_ID に紐づくジャンルやキャストなど60列の Item metadata、場合によっては USER_ID への属性を組み合わせることで cold start を大きく緩和できます。こうした多様なフィーチャを併せ持つレシピがどれかを整理しましょう。
性能、多イベント対応、豊富なメタデータ、協調フィルタリング主体、cold start 緩和という五つの要求を横並びで見ると、ユーザ軸で候補生成ができリアルタイム更新とメタデータ活用を同時に満たす汎用レシピこそ最終的に要件に最もフィットする選択と言えるでしょう。
【MLS-65】製造業A社は生産ラインを撮影する1080p静止画を1分間に120枚取得している。
3週間以内に外観検査モデルを用意し、推論は1枚あたり50 ms以内、再学習は月1回とする。
ML専門家は不在で運用負荷を最小化したい。
欠陥箇所のバウンディングボックスをREST API経由で取得するソリューションとして最も適切なのはどれか。
1. 1分間に大量の1080p画像を50ms以内で推論し、3週間でモデルを準備したいなら、Amazon Rekognition Custom Labelsのマネージドリアルタイムエンドポイントが有力です。データセット登録からトレーニング、推論 API 公開までコンソール操作だけで進められ、バウンディングボックス付き結果を高速に返せる点が要件と合致します。
2. 物体検出が必要なときはクラスのみ返す SageMaker Image Classification やオフライン処理の Batch Transform ではギャップが生じます。Ground Truth でラベル付けし毎分ジョブを回してもリアルタイム 50 ms は困難です。リアルタイム推論とバッチ推論の違い、そして REST API で即時に座標を取得したいという条件を整理しましょう。
3. YOLOv5 を深層学習 AMI で手動トレーニングし GPU EC2 へ自己管理デプロイする構成や、TensorFlow Lite を AWS Lambda と API Gateway で呼び出す構成は柔軟ですが、スケール設計・監視・月次再学習の自動化など運用タスクが多く、ML 専門家不在で運用負荷を最小化したいというビジネス要件と比較すると工数とリスクが増大する点を考慮してください。
物体検出、低レイテンシ、短納期、省運用という複数要件を俯瞰すると、フルマネージドでモデル作成とエンドポイント提供を一気通貫で行えるサービスを選ぶ判断が導きやすくなります。
【MLS-66】国内EC企業は約5,000 SKUの販売数を日次で収集している。
系列長は3〜24か月とばらつき、休日による強い季節性と在庫切れによる零売上が存在する。
要件は
①SKUごとに14日先まで需要分布を出力する、
②疎系列でも他系列情報を活用し精度を高める、
③特徴量前処理を最小限とし週次の再学習を2時間以内で完了させることである。
Amazon SageMaker の組み込みアルゴリズムのみを用いる場合、最も適切な選択はどれか。
14日先までの需要を「分布」として返したいときは、生成的にサンプリングして分位点や予測区間を直接出力できる Amazon SageMaker DeepAR が役立ちます。1つのRNNが連続時系列を学習するため、休日による鋭い季節性や在庫切れによる連続ゼロといった非線形の揺らぎも内部で表現可能です。準備するのは時刻スタンプと売上値を並べる程度で済み、複雑な特徴量設計をせずに①を満たせます。
販売点がまばらな SKU にも他の人気 SKU のパターンを流用したい場合、複数系列を束ねて一つのモデルで学習できるかが鍵です。Amazon SageMaker DeepAR ならミニバッチ内で全系列を一緒に更新し疎系列の情報不足を補えますが、Linear Learner や XGBoost を SKU ごとに個別学習するとサンプル不足やパラメータ探索が増え、週次2時間という③の制約を満たしにくくなります。
結局は①確率予測の標準サポート、②多系列を横断する学習効果、③前処理と再学習の軽さの三点を同時に達成できるサービスを選ぶ必要があります。Amazon SageMaker の組み込みアルゴリズムの中で、RNNベースで多系列対応し確率出力が標準実装され、ml.m5 や ml.g4dn の1〜2台構成で5,000系列を2時間以内に再学習できる実績があるものを思い出してください。
【MLS-67】ライドシェア企業は、各市区の 1 分当たり乗車リクエスト数を予測し、自動スケール用 Lambda 関数が 50 RPS、p95 レイテンシ 20 ms 未満で SageMaker エンドポイントを呼び出しています。
曜日・天候・イベント有無などの離散特徴が相互に条件依存しており、低トラフィック地域では外れ値が多発します。
データサイエンティストは Poisson 分布を仮定したベイズネットワークで λ を推定し、週次で再学習したいと考えています。
最も運用負荷を抑えつつ要件を満たす実装はどれですか。
曜日や天候、イベント有無といった離散特徴が相互に条件付きで影響し、しかも低トラフィック地域で外れ値が散発するという状況では、平均発生回数 λ を確率変数として扱う Poisson ベイズネットワークが最も自然に適合しますので、Pyro を組み込んだ SageMaker のカスタムコンテナで階層モデルを構築すれば条件依存を明示的に表現でき、線形回帰や XGBoost では暗黙的に近似するしかない複雑な関係を解釈性を保ったまま捉えられます。
週次再学習の運用を軽くするには、EventBridge などで SageMaker トレーニングジョブを定期起動し、そのままリアルタイムエンドポイントへ Blue/Green デプロイするパイプラインを組むのが効果的で、Auto Scaling 機能付きエンドポイントなら Lambda から 50 RPS を浴びても p95 20ms 未満を維持するよう CPU やメモリを自動調整してくれるため、Glue+Athena のバッチ処理や大量モデルを抱えるマルチモデルサーバよりも日常運用が簡潔になります。
精度面での条件付き確率の表現力、レイテンシとスループットを守るリアルタイム推論基盤、週次更新を自動化できる学習パイプラインという三つの要件を俯瞰すると、Poisson ベイズモデルを載せた SageMaker カスタムコンテナをリアルタイムエンドポイントへデプロイし Auto Scaling を有効化する構成が、機械学習の適合度・パフォーマンス・保守工数のバランスを最も高い水準で同時に満たすという総合的な判断になります。
【MLS-68】金融系スタートアップでは、不正取引検知モデルを Amazon SageMaker 上で再構築している。
毎日 500 万件の取引ログ(30 特徴)を S3 に蓄積し、AUC 0.9 以上を要求する。
「取引地域」と「通貨」など相関の高い特徴が多く、従来の Multinomial Naive Bayes では独立性仮定に起因して偽陽性が増加した。
特徴間の条件付き依存を明示的に表現しつつ、学習済みモデルを SageMaker エンドポイントへ継続的にデプロイできる構成として、最も適切なアプローチはどれか。
1行目
Amazon SageMaker で Naive Bayes をそのまま使うと「各特徴は独立」という仮定が残るため、地域と通貨のような高い相関は尤度に歪みを生じさせます。ノード間の有向エッジで条件付き依存を表現できる動的ベイジアンネットに移行し、隠れマルコフモデルで取引の時間推移も捉えると偽陽性の抑制に寄与します。PyTorch カスタムコンテナならネットワーク構造を自由に記述でき、学習ジョブとハイパーパラメータ探索を一体管理できる点に注目してください。
2行目
1 日 500 万件のデータを Amazon S3 へ取り込み続ける運用では、モデルを再学習しても Amazon SageMaker エンドポイントを止めずに切り替える CI/CD が欠かせません。PyTorch 製コードは ECR に格納し、マルチモデルエンドポイントやブルーグリーンデプロイで滑らかにローリング更新が可能です。最新の特徴量は Feature Store で時系列整形し、Pipeline と連携させることで継続デリバリーの運用負荷を大幅に下げられます。
3行目
金融不正検知で AUC 0.9 以上を安定確保するには、Amazon SageMaker Hyperparameter Tuning Job でベイジアンネットの状態数や事前分布を探索し、Model Registry でメトリクスを版管理する流れが効果的です。線形モデルやクラスタリングで相関をぼかす手法もありますが、条件付き依存を陽に表現できるグラフィカルモデルの説明力と汎用性は群を抜きます。時系列・カテゴリ依存・継続デプロイの三要件を俯瞰して組み合わせる視点が最終判断を左右します。
【MLS-69】国内家電量販チェーンのデータ分析チームは、次季6週間分の店舗別売上を毎日更新されるPOSデータから多系列時系列として確率的に予測するプラットフォームをAmazon SageMaker上で構築している。
要件は以下のとおり。
①系列数約1,200、長さ不均一かつ欠損値あり
②毎日23:00に当日データを追加入力し翌朝5:00までに0.9信頼区間付き予測を生成
③系列間の季節性を単一モデルで捉え、短時間で再学習
④コストを抑えるため分散学習とジョブ完了後の自動停止を利用。
これらの条件を最も満たすSageMaker組み込みアルゴリズムの選択として適切なものはどれか。
要件には1,200本の系列をまとめて学習しつつ長さ不揃いと欠損も吸収し、さらに0.9信頼区間を直接返せる確率的予測が求められています。Amazon SageMaker 組み込みでこの機能を備え、シーケンス系RNNを内部に持つのは DeepAR 時系列予測アルゴリズムだけで、Linear Learner や K-Means は点予測やクラスタリングに留まることを思い出してください。
夜23時から朝5時までに再学習を完了しコストを抑えるには、SageMaker 分散学習と Managed Spot Training に対応し、ジョブ終了後にインスタンスを自動停止できることが不可欠です。DeepAR はデータ並列シャーディングによりマルチノードで高速化でき、費用を抑えながら短時間処理が可能ですが、Prophet を独自コンテナで動かす場合は分散化や自動停止を自前で実装する必要があり運用負荷が高まります。
多系列を単一モデルで扱える設計、確率分布出力、分散学習とコスト最適化という複数の要件を俯瞰すると、SageMaker 組み込みのニューラル時系列アルゴリズムが最も自然に条件を網羅し、他の手法はどこかで追加開発や学習時間の増大が避けられないと総合的に判断できます。
【MLS-70】動画配信企業はクリックストリームを用いて「次回再生時の視聴秒数」を連続値で予測し、レコメンドの重みに利用したい。
データは約3億行、ワンホットエンコード済み疎特徴が10万次元。
要件は
①Spotインスタンス利用で数時間以内に学習完了、
②エンドポイント推論99パーセンタイルレイテンシ20 ms未満、
③高次特徴間相互作用を自動で捉え、
④前処理・チューニング負荷を最小化すること。
最も適切な SageMaker 組み込みアルゴリズムはどれか。
約3億行・10万次元ワンホットという巨大スパースデータは、Amazon SageMaker で LibSVM 形式のままインポートできるアルゴリズムを選ぶと I/O と前処理を大幅に削減できます。分散学習モードがあり Spot Instance でも数時間以内に収束しやすく、特徴次元を分割せずデータ並列で処理できる点が高次元疎行列に適しています。
ユーザやコンテンツ ID のワンホットでは高次の組合せ特徴が推薦精度を左右します。Amazon SageMaker Linear Learner などの線形モデルは手動で交互作用を生成する必要がありますが、決定木ベースの勾配ブースティングは分岐構造により非線形かつ高次の相互作用を自動学習できます。連続値回帰も損失関数を選ぶだけで対応でき、デフォルトハイパーパラメータでもまずは実戦的な精度が得られるためチューニングの負荷を抑えられます。
リアルタイム推論で 99 パーセンタイル 20 ms 未満を満たすには、Amazon SageMaker エンドポイントが C++ 実装の高速予測ライブラリを使えるモデルが望ましく、ツリー型勾配ブースティングは条件分岐だけで計算が完了するため RNN の DeepAR や距離計算主体の k-means よりレイテンシが小さくなります。Spot 学習対応、推論遅延、高次特徴自動抽出という複数要件を総合的に比較し最適な手法を選びましょう。
【MLS-71】フィンテック企業A社は、1日1,000万件発生するカード決済データで不正検知モデルを Amazon SageMaker 上に再構築したい。
300列の数値・カテゴリ特徴量を含み、正例:負例=1:1000 と極めて不均衡である。
推論レイテンシーは50 ms以下、監査対応で SHAP による特徴量寄与度の説明が必須とされる。
これらの要件を最も満たす SageMaker 組み込み教師あり分類アルゴリズムはどれか。
1:1000 という極端な不均衡データを扱うときは Amazon SageMaker の組み込みアルゴリズムのうち、scale_pos_weight や alpha でクラス重みと正則化を柔軟に調整できるものが適しています。Linear Learner にも重み付け機能はありますが、決定木ベースの XGBoost は PR-AUC を高く保ちながら重みを効かせやすく、推論エンドポイントも m5.large 程度で 50 ms を切りやすい点が強みです。さらに eval_metric=aucpr や objective=binary:logistic が標準で使えるため、コード量を抑えながら高精度モデルを学習できることを思い出してください。
監査で SHAP による特徴量寄与度が必須となった場合、SageMaker Clarify が TreeSHAP を高速実行できるのは決定木系モデルに限られます。XGBoost や RandomForest なら数千件の推論でも遅延は数ミリ秒程度ですが、線形 Learner や k-means では KernelSHAP 相当になり計算コストが大幅増、50 ms 目標を超過しやすいことに注意しましょう。Clarify の説明可用性とレイテンシー要件を合わせて考えると、TreeSHAP 対応か否かが大きな分岐点になります。
300 列の数値・カテゴリ混在データ、1 日 1,000 万回の推論、50 ms 以内の応答、SHAP での説明、そして SageMaker 組み込みの教師あり二値分類──これら複数条件を俯瞰すると、カテゴリをワンホット化せず扱え、Clarify の TreeSHAP をネイティブで利用でき、scale_pos_weight により不均衡を補正しつつ CPU インスタンスでも高速推論可能な決定木ベースアルゴリズムを選択するのが総合判断として最も合理的です。
【MLS-72】自動運転スタートアップでは、S3 に保存された 200 万枚の 1,024×1,024 JPEG 画像とバウンディングボックス情報を用い、Amazon SageMaker のビルトイン Object Detection アルゴリズムで p3.8xlarge×4 台による分散学習を実施したい。
トレーニングジョブを正常に開始するため、学習・検証データはどの形式で S3 に配置すべきか。
Amazon SageMaker の組み込み Object Detection アルゴリズム(内部で MXNet を採用)は、S3 から大量画像を読み込む際の帯域を抑えるため RecordIO-protobuf 形式と .lst インデックスというセットのみを公式に受理しますので、画像とバウンディングボックスをこの形式へ変換し train と validation という 2 つのチャネル用プレフィックスに格納すれば、p3.8xlarge を 4 台用いた分散学習が問題なく開始できます。
Image Classification など別の SageMaker ビルトインでは tar.gz、自前 TensorFlow Estimator では TFRecord を用いるケースがあるため混同しがちですが、今回の Object Detection にそれらを渡すとジョブ前段のデータ検証で停止するため、RecordIO で画像とラベルを 1 レコードに束ねる構成が S3 からのストリーミング性能や GPU 並列性の観点で最適な選択となります。
以上を踏まえ、JPEG 群とアノテーションを RecordIO-protobuf 化したファイル群と対応する .lst を train/ と validation/ 配下へアップロードし、SageMaker コンソールや SDK でそれぞれの入力チャネルを明示してジョブを起動する方法が、形式要件の充足・データスループット・運用手間の三側面を俯瞰して最もバランスが取れた判断と言えます。
【MLS-73】電子決済サービス企業は、アカウント乗っ取りを即時検知するために Amazon SageMaker でモデルを構築したい。
可用性はマルチ AZ エンドポイントで担保し、1 秒以内に推論応答を返すことが目標である。
2 年分のログには user_id、IP アドレス、日時のみが含まれ、各ユーザが接続する IP は多数かつ動的で数十億レコードに達する。
ラベル付きの攻撃例は存在しない。
運用負荷とコストを抑えつつ、最適なアルゴリズム選択とデプロイ方法を選びなさい。
1. 攻撃例が無い場合は教師なし学習が必須です。Amazon SageMaker IP Insights は user_id と IP アドレスという離散ペアをエンベディング化し、その組み合わせの「らしさ」を確率スコアで返します。数十億行をシャッフルして取り込みながら学習でき、追加ラベルも特徴量も要らないため、アカウント乗っ取りの即時検知に向いた構造をシンプルに実現できます。
2. 1 秒以内の応答と高可用性を同時に満たすには、Amazon SageMaker マルチ AZ エンドポイントをオートスケーリング付きで展開し、リアルタイム推論 API を直接呼び出す設計が最も無駄がありません。Batch Transform や AWS Lambda 中継は待ち時間や運用ポイントを増やすため、レイテンシーとコストの両面でシングルホップのエンドポイントを優先する考え方が役立ちます。
3. 特徴量が user_id と IP だけの場合、距離を前提にする K-means や数値時系列向けの Random Cut Forest では表現力が不足しがちです。IP Insights は離散ペアの出現パターン学習に最適化され、面倒な前処理やエンコードを省けます。シンプルな特徴量設計はトレーニング時間を短縮し、Amazon SageMaker 上での推論コストも最小化できるという総合的視点で判断しましょう。
【MLS-74】製造ライン監視用 IoT センサ 2,000 台から 1 秒毎に 300 個のメトリクスが Kinesis 経由で S3 に保存されている。
機械学習エンジニアは、教師ラベルが無い状態で (1) 相関の高い特徴量を圧縮してダッシュボードに可視化し、(2) 外れ値の早期検知モデルを週次で再学習したい。
推論はバッチで十分であり、コスト最小化が重視される。
Amazon SageMaker の組み込みアルゴリズム選択として最も適切なのはどれか。
製造ラインの 300 次元メトリクスは Amazon Kinesis でストリーミングされ Amazon S3 にたまりますが、教師ラベルが無いので Amazon SageMaker では教師なしアルゴリズムを選ぶことが第一歩です。ダッシュボード表示を考えると数個の軸へ圧縮でき、その学習過程で再構成誤差や距離をそのまま外れ値スコアとして取れる手法なら、特徴量圧縮と異常検知を一度にこなせ、運用もコストもシンプルにまとまります。
Amazon SageMaker に用意されている PCA は主成分を算出し高相関軸をまとめるだけでなく、各レコードの再構成誤差を自動で返します。この値を異常度にすれば追加モデルやクラスタ数チューニングが不要になり、週次バッチ再学習も ml.m5.large など小規模で済みます。k-means はクラスタ数選定、DeepAR は系列数増大、Linear Learner は教師ありという制約を思い出すと、要件とのギャップが浮かび上がるでしょう。
ストリーム規模、教師なし、次元削減と外れ値検知の同時実現、バッチ推論でのコスト最小化という複数要件を俯瞰すると、分散学習に対応し主成分と再構成誤差を一度に返す Amazon SageMaker PCA が可視化に使いやすい連続値も提供するため、総合的に最も高い適合度を示す選択肢であることが見えてくるはずです。
【MLS-75】オンライン小売企業は、全300特徴・約100万件の顧客行動データを Amazon S3 に保存している。
マーケティング部門はラベルなしのまま顧客をセグメント化し、Glue ジョブで毎日バッチ推論したい。
要件は
①分散学習で数分以内に収束
②自動チューニングで適切なクラスタ数を推定
③バッチ変換で推論可能
④コスト最適化に Spot インスタンスを用いる、である。
最も適切な Amazon SageMaker の組込みアルゴリズムと実装はどれか。
ラベルなしの大量データを短時間でセグメント化したいときは教師なしクラスタリングが第一候補になります。Amazon SageMaker の組込み k-means は S3 から 300 特徴・100 万行を取り込み、分散モードでシャーディングしながら重心を更新するためスケールに強く、Parameter Server 方式で CPU や GPU を並列化しても数分で収束するよう最適化されています。Glue ジョブから呼び出しても安定して処理できます。
クラスタ数を手探りで決める負担は SageMaker Automatic Model Tuning が解消してくれます。BayesianOptimization が k の値をハイパーパラメータとして複数試行し、Within-Cluster-Sum-of-Squares やシルエット係数などを目的指標に最適な値を返す仕組みです。k-means はこの自動チューニング機能と公式に連携しており、max_jobs や objective_metric_name など最小限の設定で運用できます。
日次バッチでコストを抑えるなら Managed Spot Training を指定し、学習後は Batch Transform で推論対象の S3 オブジェクトを一括変換して Glue に渡す流れが定番です。教師なし・分散学習・自動クラスタ数推定・Spot 活用・バッチ推論という複数要件を総合的に満たせる選択肢を俯瞰して判断してください。
【MLS-76】国内動画配信企業A社は、約500万件・50数値特徴のユーザープロフィールをラベルなしでセグメント化し、各ユーザーにクラスタIDを付与してレコメンデーションの入力としたい。
数十クラスタへ自動分類できる教師なし学習を希望し、学習は Amazon SageMaker 上で完結、推論はエンドポイントでリアルタイムに50 ms以内の応答を要求する。
コストを抑えつつ要件を満たす最適な手法はどれか。
ラベルなしで500万件×50特徴を十数~数十のグループにまとめたい場合、教師なしクラスタリングの代表格である k-means が最初に浮かびます。Amazon SageMaker には分散実装済みの k-means が組み込まれており、CSV や Parquet を Amazon S3 に置くだけで学習ジョブをスタートできます。PCA は連続値の主成分を返す次元削減でクラスタIDは得られず、Linear Learner は正解ラベルが要る教師あり分類という違いを思い出すと選択肢が絞りやすくなります。
推論は50 ms以内という厳しいレイテンシが求められています。Amazon SageMaker の k-means 推論はリクエストごとに特徴ベクトルとクラスタ中心とのユークリッド距離を計算するだけなので、ml.m5.large など低コストの CPU インスタンス1台でも十分達成可能です。対照的に多項ロジスティック回帰や IP Insights は行列演算や埋め込み計算を含むため時間とコストが増大しやすい点を比較してみてください。
教師なしで数十クラスタを自動生成できること、学習とホスティングが Amazon SageMaker 内で完結すること、50 ms以内のリアルタイム推論を低コストで実現できること――これら複数の要件を俯瞰して総合判断すると、分散学習と軽量推論を両立できる組み込み k-means アルゴリズムの採用が最も合理的であると整理できます。
【MLS-77】あなたは国内EC企業のMLエンジニアで、商品を5カテゴリ(ラベル0〜4)に分類するマルチクラス分類モデルを構築している。
特徴量化済み1,000万行CSVをS3に保存し、Amazon SageMakerの組み込みXGBoostで1時間以内に訓練することが可能である。
推論エンドポイントでは確率ではなく離散ラベルを50 ms未満で返す必要があり、運用負荷は最小限に抑えたい。
この要件を最も満たすモデル設定はどれか。
訓練データはS3に置き、Amazon SageMaker組み込みXGBoostでobjectiveをどう設定するかが鍵です。multi:softmaxを選べばモデルが推論時に直接クラス番号を返すため、ml.m5.4xlargeのCPUエンドポイント単体で50 ms未満を狙いやすく、追加ロジックや別サービスを置かずに済みます。num_classに5を指定することで1モデル学習となり、1000万行のCSVでも1時間以内に収まる見込みです。
multi:softprobやbinary:logisticの出力は確率値なので、最終的なラベル決定にはAWS Lambdaで最大値を取ったり、Step Functionsで複数結果を統合するなどの後処理が不可欠です。こうしたコンポーネントを挟むとネットワーク往復やコールドスタートが生じ、50 msという厳しいレイテンシ目標に影響しますし、監視・デプロイ対象が増えて運用コストが上がる点にも注意が必要です。
Amazon Linear Learnerのmultilabelモードは「複数ラベルが同時に付く」場合に適した設計で、排他的なマルチクラス分類とは要件が異なります。One-vs-Restでバイナリ分類器を5本運用する方法もありますが、推論時に5回エンドポイントを呼び集約する構成は管理負荷とレイテンシの両面で不利です。学習1時間以内・推論50 ms以内・運用負荷最小という三条件を俯瞰すると、追加サービスを介さず1モデル1エンドポイントで離散ラベルを返せる方法が総合的に合理的と判断できます。
【MLS-78】自動車部品メーカーは 500 次元の疎なセンサーデータ 1,000 万行を Amazon S3 に保持している。
現行の XGBoost+HPO では学習 3 時間・F1 0.86 で、次の新要件が提示された。
① F1≧0.90
② 学習 2 時間以内
③ 同時 1,000 要求の p95 推論レイテンシ <20 ms
④ 独自コード非使用でフルマネージド。
これらを最も効率的に満たす SageMaker 設計はどれか。
センサーデータが 500 次元もあると計算量とメモリ帯域が急増します。まず SageMaker Processing で PCA を実行し 50 次元ほどに縮約し、その結果を Feature Store に登録して疎行列のまま扱えば、CPU ベースでも I/O が約 90% 削減されます。この状態で AMT を用いた Linear Learner の HPO を回すと、探索空間が小さくなるため 2 時間以内に収束しやすく、F1 0.90 以上のターゲット達成が見込めます。
推論レイテンシを 20 ms 未満で 1,000 並列リクエストをさばく鍵は SageMaker Endpoint と Auto Scaling の組み合わせです。Linear Learner は計算が O(d) と軽く ml.m5.large 数台で数千 req/s を実現できる一方、k-NN は距離計算が D×N に比例しピーク帯で遅延が伸びがちです。GPU で高速化してもメモリ常駐が必要な巨大インデックスを抱えるため帯域律速を避けにくく、スループットとコストが釣り合いません。
要件は「フルマネージド」「学習 2 時間」「F1 0.90」「p95 20 ms」「1,000 同時」と多面的です。SageMaker Processing+Feature Store で前処理を自動化し、AMT 付き Linear Learner で軽量高精度モデルを得て、単一モデルエンドポイントに Auto Scaling を組み合わせ水平複製する構成は、学習時間・精度・レイテンシ・運用負荷を俯瞰した総合最適を取りやすい設計と判断できます。
【MLS-79】オンライン動画配信企業は、視聴ログ2億行(視聴時間・デバイス種別・再生停止位置など50特徴量)をAthenaからParquetでS3に保存している。
ラベルは無く、顧客を5〜8グループへ自動分類し行動傾向を分析したい。
SageMakerノートブックから呼び出し、単一リージョンで学習を2時間以内に完了させる必要がある。
最も適切な組み込みアルゴリズムはどれか。
ラベルがない状態で50の特徴量をもとに2億行の視聴ログを5〜8グループにまとめるには、教師なしクラスタリングが適しています。Amazon SageMaker の k-means はユークリッド距離で各レコードを重心に割り当てる代表手法で、クラスタ数をパラメータとして柔軟に試せます。Athena で抽出し S3 に Parquet で置いたデータをノートブックから読み込み、Elbow 法で解が安定するポイントを確認する流れが王道です。特徴量が多くても正規化すれば計算コストは抑えられます。
2億行を2時間以内に処理するには、MPI による分散実装が組み込まれたアルゴリズムを選ぶことが重要です。SageMaker k-means は mini-batch 処理でストリーミング学習が可能なためメモリ効率が高く、マルチノードにスケールさせても手動コーディングは不要です。一方で XGBoost や Linear Learner は教師あり学習なのでラベルが必須、Random Cut Forest は異常検知向けのスコア出力が主目的でクラスタ制御が難しく、今回のセグメンテーション要件には適合しません。
要件を整理すると「ラベルなし」「5〜8クラスタ化」「SageMaker Notebook から呼び出せる組み込み」「数億行を単一リージョンで2時間以内」「追加開発を最小化」の五つとなります。これらを同時に満たすのは、教師なしクラスタリング専用で分散学習が可能な距離ベース手法です。シンプルでスケールするアルゴリズムを選ぶことが、計算時間・コスト・運用負荷の総合バランスを最も良好に保つ判断につながります。
【MLS-80】金融スタートアップは、500 万件・300 特徴量を含む取引ログから不正取引を二値分類したい。
特徴量は数値とカテゴリが混在し欠損値も存在する。
既存のロジスティック回帰では複雑な非線形関係を捉え切れず AUC 0.80 を超えられない。
推論は 1 件 20 ms 以内、学習コストは m5.2xlarge スポットインスタンス最大 4 台までとし、SageMaker の組み込みアルゴリズムを用いて最小限のハイパーパラメータ調整で精度を向上させたい。
最も適切なアルゴリズムはどれか。
500万件で数値とカテゴリが混在し欠損もある場合、SageMaker の決定木系アルゴリズムは分岐に欠損を組み込んで自動処理し、木の深さと勾配ブースティングにより非線形な特徴間相互作用を表現できます。初期ハイパーパラメータでも高い AUC が出やすい点が、ロジスティック回帰からの乗り換えで効果を発揮しやすいポイントです。学習時に列ごとのスケーリングやワンホットを厳密に行わなくても性能が落ちにくいので、前処理コストを抑えて短時間でプロトタイプを検証できます。
SageMaker Linear Learner はシンプルで高速ですが、入力をワンホット化しても本質的には線形結合しか学習できないため、取引の時系列的・組合せ的な非線形パターンを追加特徴なしに捉えるのは難しいです。欠損値は前処理で埋める必要があり、パラメータをいくら微調整しても曲線的な境界が必要な不正検出では頭打ちとなるケースが多いことを思い出してください。ハードリミット 20ms 以内の推論速度は満たしやすいものの、既存ロジスティック回帰の延長では AUC 改善のインパクトが小さい点がネックになります。
トレーニングは m5.2xlarge スポットを最大 4 台とコスト制限が明示され、推論は 1 件 20ms 以下と低レイテンシが求められます。SageMaker の分散モードに正式対応し、軽量なバイナリモデルを生成してエンドポイントで高速にスコアリングできるアルゴリズムは限られます。さらに欠損処理の自動化、数値・カテゴリ混在への強さ、デフォルト設定での実用性という複数要件を俯瞰すると、木構造を段階的に集約しながら学習する勾配ブースティング系が総合的に最もフィットすることが見えてきます。
【MLS-81】不動産仲介会社は物件価格を予測する回帰モデルを Amazon SageMaker で内製しています。
50 個の数値特徴を含む約100万行の CSV を S3 に置き、毎日追加される新規レコードで増分学習を行う方針です。
要件は
①推論は REST API 経由で 1 秒以内、
②モデル係数を経営層へ説明可能、
③GPU を使わずコストを最小化、
④前処理は標準化のみで特徴量設計は追加しない、の 4 点です。
これらを満たす組み込みアルゴリズムとして最も適切な選択はどれか。
REST API で 1 秒以内という低レイテンシ要件を満たすには、Amazon SageMaker のリアルタイムエンドポイントを CPU インスタンスで動かしても十分なスループットが出るアルゴリズムかを見極めることが大切です。Linear Learner や XGBoost など GPU 非依存の組み込みモデルは ml.m5 系でミリ秒応答が可能で、Warm Start による増分学習もサポートされるため、毎日の追加データを効率よく取り込めます。全量再学習よりパラメータ継承型を選ぶと運用コストも抑えられる点を押さえておきましょう。
経営層へモデル係数を提示して説明責任を果たすには、特徴量ごとに重みがそのまま数値で出力される仕組みが望ましいです。Amazon SageMaker Linear Learner は L1/L2 正則化付きの線形回帰を提供し、学習後に重みベクトルを簡単に取得できるので寄与度の解釈が容易です。対照的に Factorization Machines の潜在ベクトルや K-Means のクラスタ中心は重みの解釈が直感的でないため、この要件ではシンプルな線形モデルの利点が際立ちます。
データが 50 列の数値で前処理は標準化のみ、GPU 不使用でコスト最小化という条件では、内部でスケーリング機能を持ちつつ CPU で高速に回帰できる Amazon SageMaker Linear Learner が適合します。S3 から Pipe モードでストリーミング学習を行えば 100 万行規模でも訓練時間を短縮でき、リアルタイム推論・説明可能性・増分学習・コスト効率という複数の要件を総合的に満たせる点が判断の決め手になります。
この教材の改善リクエストがある場合は、お気軽にご報告ください。
カテゴリを選択のうえ、詳細をご記入いただけますと幸いです。
CloudTech(クラウドテック)は多くのユーザーの皆様から改善リクエストをご協力いただき運営できております。
あなたの視点での気づきは他の学習者の迷いを解決する手助けとなります。
運営側でもチェックをしておりますが限界があるため、誠に恐縮ではございますが細かい点でもご遠慮なくご指摘をお願いいたします。
※ 匿名での報告となり、内容は一般公開されません。
※ 技術的なご質問への回答を行うフォームではございませんのでご注意ください。
