13問中 0問が回答されています
質問:
You have already completed the テスト before. Hence you can not start it again.
問題を読み込んでいます…
You must sign in or sign up to start the テスト.
まず、次の操作を完了する必要があります:
正解数 0/問題数13
回答にかかった時間:
終了時間となりました
回答お疲れ様でした。
Earned Point(s): 0 of 0, (0)
0 Essay(s) Pending (Possible Point(s): 0)
【MLS-35】フィンテック企業 A 社は債務不履行検知モデルを Amazon SageMaker で再構築している。
学習データは S3 に 100 GB 保管され、正例比率は 1 % である。
偽陰性 1 件につき 50 USD の損害が発生するため、経営層は (1) 偽陰性最小化を最優先とする指標で評価すること、(2) class_weight 相当のハイパーパラメータも含め 5 項目を自動探索すること、(3) ml.m5.4xlarge の Spot インスタンスのみで 12 時間以内に完了させること――を要求した。
最大並列数は 30、単一ジョブのタイムアウトは 2 時間とする。
最も適切なハイパーパラメータチューニングジョブの設計はどれか。
Amazon SageMaker の Hyperparameter Tuning では objective_metric_name が探索の羅針盤になります。正例 1 % で偽陰性 1 件あたり 50 USD の損害が出る状況では、accuracy や auc を選ぶと負例ばかり当てても高スコアになりかねません。recall や true_positive_rate を選ぶと Bayesian 最適化が「取りこぼしを減らす」方向に効率良く収束しやすくなります。
極端なクラス不均衡を補正するには XGBoost の scale_pos_weight や estimator_parameter の class_weight を広めのレンジで自動探索すると効果的です。正例 1 % なら値は 50 以上でも妥当なので、ContinuousParameter で 1–100 程度にし、さらに learning_rate や max_depth など合計 5 つのパラメータをセットすると SageMaker の BayesianStrategy が少ない試行で最適重みを見つけやすくなります。
12 時間以内に ml.m5.4xlarge の Spot だけで走らせるには ManagedSpotTraining と TrainingJobEarlyStoppingType=Auto を組み合わせ、MaxJobs÷MaxParallelJobs×TrainingTime ≤ MaxWaitTime を満たす並列度が鍵です。Grid はジョブが爆発し、Parallel=1 では時間超過するため、MaxParallelJobs を高めつつベイズ法で試行数を絞る設計がコスト・性能・時間すべてを満たす総合解になりやすいです。
【MLS-90】国内小売 A 社は、60 店舗 × 500 SKU の 1 時間粒度売上データ(過去 24 か月)から 14 日先を予測するモデルを Amazon Forecast で構築している。
DeepAR+ のみを対象とし RMSE を最小化するためハイパーパラメータ探索を自動化したい。
学習コスト抑制のため試行モデル数は 10 件、並列ジョブ数は 3 件以内に制限することが必須である。
CloudFormation で CreatePredictor を呼び出す際、要件を満たす設定はどれか。
Amazon Forecast で DeepAR+ だけを評価したいときは、CreatePredictor の AlgorithmArn に arn:aws:forecast:::algorithm/Deep_AR_Plus を明示し、PerformAutoML を無効にする必要があります。AutoML を true にすると Prophet や CNN-QR など他のアルゴリズムも比較対象になり、さらに HPOConfig が無視されるため試行回数や並列数の制御が効かなくなります。
ハイパーパラメータ探索を行うには PerformHPO を true に設定し、そのうえで HPOConfig に MaxNumberOfTrainingJobs と MaxParallelTrainingJobs を与えます。Amazon Forecast はこれらの値を上限としてジョブをキューイングするため、例えば 10 と 3 を指定すれば試行モデル総数と同時実行数をコスト制約内に収めつつ RMSE を指標に最良モデルを探します。
つまり CloudFormation で CreatePredictor を定義する際は、AutoML をオフ、DeepAR+ を直接指定、HPO をオン、HPOConfig で 10 と 3 を設定という四つのスイッチを正しく組み合わせることが、予測精度・計算コスト・アルゴリズム限定という複数要件を同時に充足させる唯一の構成であると総合的に判断できます。
【MLS-91】FinTech企業F社は、取引ログ1億件(300GB)をAmazon SageMakerで学習する深層学習モデルによる不正検知システムを開発中である。
過学習が顕著で、MLOpsチームは「総学習時間4時間以内」「Spotインスタンスでコスト30%削減」「AUC0.92以上」を求めている。
最も効率良く要件を満たす方法はどれか。
Amazon SageMaker の自動ハイパーパラメータチューニング機能では、ベイズ最適化と並列実行を組み合わせて層数・ドロップアウト率・L2 正則化係数・学習率など広い領域を効率的に探索でき、Early Stopping で性能が頭打ちになった試行を即終了できるため、1 億件 300GB の取引ログでも総学習時間 4 時間以内かつ AUC 0.92 超えを達成しやすく、さらに評価指標に AUC を指定すると最良モデルが自動保存され短時間運用に有利です。
Managed Spot Training を有効にした Amazon SageMaker トレーニングジョブは、中断時にチェックポイントから再開し平均で 70% 前後の料金削減が見込めるため、4 時間という制限下でもコスト 30% 削減を安全にクリアでき、並列ジョブ数を調整すれば期限と予算を両立しやすく、オンデマンド主体や EMR の手動グリッドサーチでは得られない自動再開と割引率が実運用の信頼性を高めます。
過学習対策としてドロップアウトや L2 正則化に Early Stopping を組み合わせ、その最適値を SageMaker HPO で体系的に探索すると汎化性能が安定します;エポック固定の単発学習やデータ増幅のみでは時間・コスト・精度の三条件を同時に満たす保証が薄いため、検索空間を設計し Spot インスタンスと自動チューニングを活用する総合判断が最も合理的です。
【MLS-92】ある国内EC企業は、S3に格納した500 GBのクリックストリームを用い、Amazon SageMaker 組み込み XGBoost で購入予測モデルを構築している。
学習コストを抑えて2時間以内にmax_depth、eta、num_roundを最適化し、F1 スコアを最大化することが求められる。
担当者は試行を並列実行し、性能が伸びないジョブは自動的に打ち切りたい。
最も効率的なアプローチはどれか。
Amazon SageMaker の Hyperparameter Tuning Job は Bayesian 最適化と ParallelTrainingJobs を併用でき、ml.m5.4xlarge の Spot を 10 並列で投入しつつ EarlyStoppingType=Auto を設定すれば性能が伸びない試行を自動終了できるため、500 GB のクリックストリームでも 2 時間以内に validation:f1 を最大化しながら学習コストを大幅に削減できます。
SageMaker Studio ノートブックで boto3 の for ループを回して組み込み XGBoost を逐次起動する方法はシンプルですが、オンデマンド ml.m5.2xlarge 1 台では大量組合せに対して時間が足りず、EarlyStopping も集計も手作業となりがちなので、並列性と自動制御を備えたマネージド機能との差をイメージしてみてください。
Amazon EMR の Spark グリッドサーチは大規模分散に強く Autopilot は前処理やアルゴリズム選定まで自動化できますが、max_depth・eta・num_round のみを短時間で最適化し F1 スコアを追求しつつ低コストを狙うには試行効率と EarlyStop 実装が課題になりやすいため、並列ベイズ探索と自動停止をネイティブで提供するマネージド HPO を総合的に選ぶ視点が重要です。
【MLS-93】FinTechスタートアップは Amazon SageMaker 組み込み Seq2Seq で英⇔日チャット翻訳 API を運用している。
学習ペア数は8万対、学習 BLEU 42・検証 BLEU 28 と過学習傾向。
1 ML m5.xlarge インスタンスで QPS50、遅延150 ms以下を保つ必要がある。
注意メカニズム系ハイパーパラメータだけで正則化を強化し、推論コストを増やさず検証 BLEU を向上させたい。
最も適切な対応はどれか。
過学習が BLEU スコアの乖離として表れている場合、Amazon SageMaker の組み込み Seq2Seq では attention_dropout を活用することで self-attention の重みにのみドロップアウトを掛けられます。encoder や decoder のサイズを弄らず正則化を強められるうえ、dropout は学習時だけ有効なので m5.xlarge での QPS50・遅延150 ms といった推論性能を保ったまま検証 BLEU を底上げできる点に着目してください。
attention_type を MLP に変更して hidden 数を増やしたり、beam 幅を広げる調整はパラメータや演算回数が増え Amazon EC2 の CPU/GPU 使用率が跳ね上がります。対照的に attention_dropout は学習グラフ中の重みを間引くだけで推論コストは据え置きです。過学習を抑えつつ AWS Lambda などから呼ばれるリアルタイム API のレイテンシ目標を厳守したい場合、この軽量な正則化は最も堅実な選択肢となり得ます。
まとめると、FinTech の翻訳サービスは「学習ペア8万対で発生した過学習の解消」「Amazon SageMaker エンドポイントを m5.xlarge 1 台で運用し QPS50・150 ms を維持」「調整範囲は注意メカニズムのハイパーパラメータのみ」という三重の条件があります。モデル容量やデコード探索を増やさず学習時だけで汎化を高められる設定を選ぶことが、複数要件を俯瞰した総合判断として最適です。
【MLS-94】金融系スタートアップは、100:1で不均衡な取引レコード計1TBをAmazon S3に保持し、Amazon SageMaker TensorFlowで2クラスの不正検知モデルを訓練しています。
1時間あたり4USDのml.c5.4xlargeを使用し、HPOの試行は最大20回と設定済みです。
検証データの再現率(Recall)を0.92以上へ高めることが目標ですが、予算制約によりGPUインスタンスや追加の前処理ジョブは許可されていません。
最も効率的な対策はどれですか?
Amazon S3 に保存された 100:1 の不均衡レコードを Amazon SageMaker TensorFlow で扱うときは、class_weight を損失関数へ動的に渡し少数派に大きなペナルティを与えると Recall が上がりやすいです。HyperParameter Tuning Job の探索空間にこの重みを入れ 0.1〜100 など幅広い値で自動探索させれば、追加前処理や GPU を使わず ml.c5.4xlarge のままでもコストを抑えてバランスを最適化できます。
SageMaker の HyperParameter Tuning では ObjectiveMetric が選択基準になります。100:1 のデータで validation:accuracy を用いると全件を正常と予測しても 99% 以上になり不正検知には不向きです。validation:recall を指標にすることで少数派の検出力を重視したモデルが選ばれ、試行回数 20 のままでも学習時間や料金を増やさずに目標 Recall 0.92 へ近づけることが期待できます。
GPU への変更や SageMaker Data Wrangler の SMOTE ジョブは Amazon EC2 の時間単価や処理パイプラインを拡大させ予算制約に抵触します。現行リソースで性能を伸ばすには、SageMaker HPO に class_weight を含めつつ validation:recall を目的指標に設定し、限られた 20 試行で重みの最適解を探る方法が費用対効果と実装負荷の両面から最も合理的と総合的に判断できます。
【MLS-95】医療機器メーカーは、1,000 万枚の胸部 X 線画像を Amazon S3 に保存し、TensorFlow スクリプトを Amazon SageMaker で学習しています。
検証精度 90% 以上を確保しつつ過学習を防ぐため、L1・L2 正則化係数(1e-6〜1e-2)とドロップアウト率(0.1〜0.5)を同時に探索し、予算は合計 200 時間、同時実行は最大 20 ジョブに制限されています。
運用負荷を抑え、再現性も確保できるハイパーパラメータチューニング構成はどれですか。
Amazon SageMaker のハイパーパラメータチューニングジョブでは、l1・l2 と dropout のように相互作用する 3 変数を同時に扱うとき BayesianSearchStrategy を選ぶと過去試行の結果を踏まえて次の候補を提案してくれるため探索効率が高く、MaxTotalTrainingJobs や MaxParallelTrainingJobs を 200 と 20 に縛っても 1e-6〜1e-2、0.1〜0.5 の広い範囲を滑らかに評価しつつ 200 時間内に収めやすい点が重要です。
Random サーチは無作為抽出のため学習率や正則化係数を 90% 以上の検証精度に導くにはジョブ数を大きく増やす必要があり、Hyperband は epochs や batch_size の切り捨てに強いものの今回の核心である L1・L2 と dropout を直接チューニングできず、S3 に置いた 1,000 万枚を何度も学習することで EC2 コストが膨らみ CloudWatch 監視の手間まで増えるリスクを押さえて考えると選びにくくなります。
最終的には S3 の医療画像を入力に Amazon SageMaker Training Job を起動し、objective_metric を validation_accuracy、early_stopping_type を AutoStop に設定して無駄なジョブを自動終了させつつ 3 つのパラメータ範囲を同時探索する構成が、過学習抑制・90% 精度達成・200 時間予算・20 並列制限・監査証跡という複数要件を俯瞰した総合判断として最もバランスが取れます。
【MLS-96】金融系スタートアップは 20 GB の取引データで Amazon SageMaker Autopilot を用い、XGBoost ベースラインモデルで AUC 0.86 を得た。
AUC 0.92 以上を狙い、同一データセット・アルゴリズムで追加のハイパーパラメータ探索を行う必要がある。
要件:
・XGBoost 固定 ・コスト最小化 ・実験履歴を後に比較可能
最も効率的な方法はどれか。
アルゴリズムを XGBoost に固定したまま AUC を 0.92 へ押し上げるには、すでに完了した Amazon SageMaker Training ジョブのメトリクスを土台にして追加のハイパーパラメータを狭い範囲で効率的に探すことが近道です。Warm Start 対応の SageMaker 自動モデルチューニングなら過去ジョブを引き継ぎ Bayesian Optimization を実行でき、無駄な初期ランを省いてコストを抑えつつ精度向上が期待できます。Autopilot を再実行すると不要な前処理パイプラインも評価対象となり、目的に対して遠回りになりがちです。
手動グリッドサーチを ml.m5.24xlarge のスポットインスタンスで大量並列させると一見安価に見えますが、中断再試行やパラメータ組合せの爆発で総実行時間が読みにくく、結果的にコスト超過の例もあります。SageMaker HyperParameterTuningJob は Early Stopping で性能が伸びない候補を途中終了させ、必要な訓練回数を削減します。さらにジョブ結果は SageMaker Experiments に自動保存されるため、後から GUI でメトリクスを比較しながら最良モデルを客観的に選択できます。
規制監査や社内レビューに備えて実験履歴を残すなら、Trial としてメタデータが体系的に蓄積される SageMaker Experiments が有力です。CloudWatch Logs だけでは AUC とハイパーパラメータの関係を横断的に照会しづらく、Processing で学習スクリプトを回すたびに手動集計が発生します。一方、自動モデルチューニングと Experiments を連携させれば、パラメータとメトリクスが時系列で紐づいて保存され、追跡・再現が容易になります。
XGBoost 固定・コスト最小化・比較可能な履歴という三条件を俯瞰すると、過去ジョブを Warm Start で再利用しつつ HyperParameterTuningJob と Experiments を組み合わせる方法が最も要件適合度と運用効率を高められる選択肢です。
【MLS-97】フィンテック企業は、S3に保存した2 TBの取引データでXGBoostモデルを学習している。
検証RMSEを目的指標とし、200通りのハイパーパラメータを試行して2時間以内に最良モデルを得たい。
検証損失が5回連続で悪化した場合は自動で学習を中断し、コストも最小化する必要がある。
最も適切なアプローチはどれか。
SageMaker自動モデルチューニングはBayesianOptimizationで探索効率を高め、MaxNumberOfTrainingJobsやMaxParallelTrainingJobsを設定できます。objective metricにvalidation:rmseを指定しTrainingJobEarlyStoppingTypeをAutoにすると、指標が5回連続で悪化した時点で各トレーニングを自動で打ち切れるため、検証RMSE基準の早期停止要件を自然に満たせます。XGBoost組み込みアルゴリズムが公式サポートされている点も実装を簡素化します。
短時間に200パターンを試行するには、mlインスタンスの大規模分散1ジョブよりもSageMakerの並列Spotトレーニングを最大10台ほど同時に回す方が壁時計時間を圧縮できます。Spotインスタンスは中断時にHPOが自動リトライし、オンデマンド比で大幅なコスト削減が可能です。さらにStep Functionsを使えばHPOジョブの起動、完了通知、ログ収集までをコードレスで統合し、オーケストレーションと監視を自動化できます。
2 TBデータを扱いながら「2時間以内に200試行」「検証損失が連続悪化で自動停止」「費用最小化」という複数条件を俯瞰すると、Bayesian探索による効率的サーチ、EarlyStopping、Spot活用によるコスト最適化、ワークフロー自動化までを一体で提供できるマネージドHPO+Step Functionsの組み合わせが最も合理的な総合解となります。
【MLS-98】EC サイトを運営する企業は、TensorFlow コンテナで CNN を学習する Amazon SageMaker トレーニングジョブを走らせています。
データは 10 万枚・100 クラス、検証 F1 は訓練より 15% 低く過学習が懸念されています。
スクリプトは dropout と weight_decay を受け取り、5 時間以内に最良モデルを得たいと考えています。
コストを抑えつつ検証 F1 を最大化する最適な方法はどれですか。
検証データの指標が学習より劣る状況では過学習が疑われるため、dropout と weight_decay という正則化パラメータを細かく調整することが重要です。Amazon SageMaker のハイパーパラメータチューニングジョブは Bayesian 最適化を用いて連続値を効率探索し、複数トレーニングを並列で実行しつつ最良モデルを自動で S3 に保存できるので、短時間で F1 を高めやすくなります。
5 時間という制約とコスト削減を両立させるには、Amazon SageMaker EarlyStopping で精度が伸びない試行を途中終了し、GPU インスタンスの課金を抑えるのが効果的です。CloudWatch Logs を後から見て手動でパラメータを変える方法や Processing ジョブで逐次ループを回すアプローチは並列性に欠け、限られた時間内では探索が収束しにくい点を意識しましょう。
画像タスクへの適合性、正則化パラメータの連続的な最適化、5 時間というタイムリミット、さらに費用対効果という複数要件を俯瞰すると、Amazon SageMaker のチューニングジョブにおける Bayesian 最適化と EarlyStopping の組み合わせが、Processing や Autopilot など他機能と比べ最もバランスの取れた総合判断となります。
【MLS-99】ある動画配信企業は500万枚の224×224 RGB静止画からCNNを学習し、Top-1検証正解率90%以上を4時間以内、学習コスト300 USD未満で達成したい。
現在はml.p3.2xlargeを1台使用し、1回の学習に約30分かかる。
Dropout率を0.2〜0.8で最適化して過学習を抑制したい。
検証データはS3に分離保存し、訓練・検証メトリクスはCloudWatchに出力している。
最も効率的に要件を満たす方法はどれか。
500 万枚の画像を対象に 4 時間以内で Dropout を探るなら、Amazon SageMaker の自動モデルチューニングで並列実行を活用する発想が鍵です。Bayesian optimization は過去の試行結果を元に次の候補を推定するため RandomSearch よりサンプル効率が高く、ContinuousParameter で 0.2〜0.8 を滑らかに探索できます。MaxJobs と MaxParallel を組み合わせれば壁時計時間を抑えつつ十分な探索幅を確保でき、ml.p3.2xlarge のままでもコストを抑えた高速サイクルが実現します。
目標指標は Top-1 検証正解率 90% 以上なので、CloudWatch に送信する validation:top1_accuracy を HyperParameterTuningJob の objective_metric_name に設定することが重要です。training:accuracy に最適化すると過学習モデルが評価されやすくなりますが、TrainingJobEarlyStoppingType=Auto を有効にすれば収束済みのジョブを途中終了でき GPU 時間と S3 読み出しを節約できます。SageMaker Debugger や Experiments を補助的に使うことも可能ですが、指標最適化そのものは自動モデルチューニングに任せると効率的です。
1 ジョブ 30 分 × 並列 5 で 8 サイクル回すと約 4 時間、ml.p3.2xlarge の時間単価 3 USD で総額 60 USD 前後と 300 USD を大幅に下回ります。大きなインスタンスへ変更するよりも並列度と EarlyStopping の組み合わせが費用対効果に優れ、S3 に分離した検証データも自動的に扱えます。精度・時間・コストという複数要件を俯瞰し、最もバランス良い手法を選択する視点を持つと解答に近づきます。
【MLS-100】大規模 EC サイトを運営する企業は、SageMaker で XGBoost による二値分類モデルを学習しています。
先月、ハイパーパラメータ自動調整(HPO)ジョブを 200 タスク、Bayesian サーチで実施し、最良 AUC 0.91 を達成しました。
今月は特徴量を追加したため学習用 CSV が 40% 増えましたが、コストを抑えつつ前回の知見を活用して AUC 0.92 以上を早期に目指したいと考えています。
アルゴリズムは変更しません。
運用チームが取るべき設定として最適なのはどれですか。
新しい CSV は列が増えた時点で前回と同じ入力ではありません。SageMaker の HyperParameterTuningJob には WarmStartType という設定があり、アルゴリズムが XGBoost のままデータだけ変わるときは TRANSFER_LEARNING を選ぶと、親ジョブで得た有望パラメータを初期値にして再び Bayesian サーチを走らせられ、同じ 200 タスクでも効率良く AUC 0.92 に近づけるのでコスト抑制に役立ちます。
データ量が 40% 増えたことで学習そのものの料金は高くなるため、EarlyStopping を無効にして試行数を倍増させる方法は請求額と時間の両面で要件を外します。SageMaker HPO は Warm start を用いれば TrainingJobEarlyStoppingType を ON のままでも親の Bayesian 情報を引き継ぎ、少ない試行で収束を早められるため、精度向上とコスト削減を同時に満たしやすいです。
Warm start には IDENTICAL_DATA_AND_ALGORITHM と TRANSFER_LEARNING の 2 種類があり、前者は入力ファイルも特徴量数も全く同じ場合にしか適合しません。Processing ジョブだけで再学習すると旧パラメータ固定となり性能改善の保証がなく、探索幅だけ広げる方法は費用負担が大きいです。データ変更とコスト制約と精度目標を俯瞰し、過去の知見を効率的に継承できる選択が最も合理的です。
【MLS-101】Eコマース企業は、1,000万件・300次元のユーザー行動ベクトルをクラスタリングし、セグメントごとの施策を最適化したい。
Amazon SageMaker 組み込み K-means を使用し、クラスタ数 k を 5〜50 で自動探索し、平均二乗距離 (MSD) が最小となるモデルを採択するハイパーパラメータチューニングジョブを構成する必要がある。
最も適切な設定はどれか。
Amazon SageMaker の組み込み K-means ではクラスタ数を決めるハイパーパラメータ名が “k” であり整数しか受け付けません。Hyperparameter Tuning Job の IntegerParameterRanges に 5〜50 を設定すれば 6〜49 も含めた滑らかな探索が可能で、num_clusters や cluster_count ではジョブが意図通り動かず再実行コストが膨らむため、1,000 万件規模のデータでは初回設定の正確さが肝要です。
Amazon SageMaker K-means が自動で出力する評価指標の test:msd は平均二乗距離を表し、小さい値ほどクラスタの結束が高いことを示します。Hyperparameter Tuning Job で ObjectiveMetricName を test:msd、Type を Minimize にすれば最小 MSD のモデルが選ばれ、教師なし学習では accuracy などの最大化指標は生成されない点を理解することで評価軸の方向性を誤るリスクを防げます。
ContinuousParameterRanges は実数、CategoricalParameterRanges は離散ラベル向けのため整数スカラー k とは適合せず、avg_loss や obj_loss はアルゴリズムごとに意味や符号が異なります。ParameterType と MetricDirection の整合を取りながら探索範囲・評価指標・計算コストの複数要件を俯瞰し、一貫性ある設定を選ぶことが最適化成功の鍵となります。
この教材の改善リクエストがある場合は、お気軽にご報告ください。
カテゴリを選択のうえ、詳細をご記入いただけますと幸いです。
CloudTech(クラウドテック)は多くのユーザーの皆様から改善リクエストをご協力いただき運営できております。
あなたの視点での気づきは他の学習者の迷いを解決する手助けとなります。
運営側でもチェックをしておりますが限界があるため、誠に恐縮ではございますが細かい点でもご遠慮なくご指摘をお願いいたします。
※ 匿名での報告となり、内容は一般公開されません。
※ 技術的なご質問への回答を行うフォームではございませんのでご注意ください。
