12問中 0問が回答されています
質問:
You have already completed the テスト before. Hence you can not start it again.
問題を読み込んでいます…
You must sign in or sign up to start the テスト.
まず、次の操作を完了する必要があります:
正解数 0/問題数12
回答にかかった時間:
終了時間となりました
回答お疲れ様でした。
Earned Point(s): 0 of 0, (0)
0 Essay(s) Pending (Possible Point(s): 0)
【MLS-76】国内動画配信企業A社は、約500万件・50数値特徴のユーザープロフィールをラベルなしでセグメント化し、各ユーザーにクラスタIDを付与してレコメンデーションの入力としたい。
数十クラスタへ自動分類できる教師なし学習を希望し、学習は Amazon SageMaker 上で完結、推論はエンドポイントでリアルタイムに50 ms以内の応答を要求する。
コストを抑えつつ要件を満たす最適な手法はどれか。
ラベルなしで500万件×50特徴を十数~数十のグループにまとめたい場合、教師なしクラスタリングの代表格である k-means が最初に浮かびます。Amazon SageMaker には分散実装済みの k-means が組み込まれており、CSV や Parquet を Amazon S3 に置くだけで学習ジョブをスタートできます。PCA は連続値の主成分を返す次元削減でクラスタIDは得られず、Linear Learner は正解ラベルが要る教師あり分類という違いを思い出すと選択肢が絞りやすくなります。
推論は50 ms以内という厳しいレイテンシが求められています。Amazon SageMaker の k-means 推論はリクエストごとに特徴ベクトルとクラスタ中心とのユークリッド距離を計算するだけなので、ml.m5.large など低コストの CPU インスタンス1台でも十分達成可能です。対照的に多項ロジスティック回帰や IP Insights は行列演算や埋め込み計算を含むため時間とコストが増大しやすい点を比較してみてください。
教師なしで数十クラスタを自動生成できること、学習とホスティングが Amazon SageMaker 内で完結すること、50 ms以内のリアルタイム推論を低コストで実現できること――これら複数の要件を俯瞰して総合判断すると、分散学習と軽量推論を両立できる組み込み k-means アルゴリズムの採用が最も合理的であると整理できます。
【MLS-77】あなたは国内EC企業のMLエンジニアで、商品を5カテゴリ(ラベル0〜4)に分類するマルチクラス分類モデルを構築している。
特徴量化済み1,000万行CSVをS3に保存し、Amazon SageMakerの組み込みXGBoostで1時間以内に訓練することが可能である。
推論エンドポイントでは確率ではなく離散ラベルを50 ms未満で返す必要があり、運用負荷は最小限に抑えたい。
この要件を最も満たすモデル設定はどれか。
訓練データはS3に置き、Amazon SageMaker組み込みXGBoostでobjectiveをどう設定するかが鍵です。multi:softmaxを選べばモデルが推論時に直接クラス番号を返すため、ml.m5.4xlargeのCPUエンドポイント単体で50 ms未満を狙いやすく、追加ロジックや別サービスを置かずに済みます。num_classに5を指定することで1モデル学習となり、1000万行のCSVでも1時間以内に収まる見込みです。
multi:softprobやbinary:logisticの出力は確率値なので、最終的なラベル決定にはAWS Lambdaで最大値を取ったり、Step Functionsで複数結果を統合するなどの後処理が不可欠です。こうしたコンポーネントを挟むとネットワーク往復やコールドスタートが生じ、50 msという厳しいレイテンシ目標に影響しますし、監視・デプロイ対象が増えて運用コストが上がる点にも注意が必要です。
Amazon Linear Learnerのmultilabelモードは「複数ラベルが同時に付く」場合に適した設計で、排他的なマルチクラス分類とは要件が異なります。One-vs-Restでバイナリ分類器を5本運用する方法もありますが、推論時に5回エンドポイントを呼び集約する構成は管理負荷とレイテンシの両面で不利です。学習1時間以内・推論50 ms以内・運用負荷最小という三条件を俯瞰すると、追加サービスを介さず1モデル1エンドポイントで離散ラベルを返せる方法が総合的に合理的と判断できます。
【MLS-78】自動車部品メーカーは 500 次元の疎なセンサーデータ 1,000 万行を Amazon S3 に保持している。
現行の XGBoost+HPO では学習 3 時間・F1 0.86 で、次の新要件が提示された。
① F1≧0.90
② 学習 2 時間以内
③ 同時 1,000 要求の p95 推論レイテンシ <20 ms
④ 独自コード非使用でフルマネージド。
これらを最も効率的に満たす SageMaker 設計はどれか。
センサーデータが 500 次元もあると計算量とメモリ帯域が急増します。まず SageMaker Processing で PCA を実行し 50 次元ほどに縮約し、その結果を Feature Store に登録して疎行列のまま扱えば、CPU ベースでも I/O が約 90% 削減されます。この状態で AMT を用いた Linear Learner の HPO を回すと、探索空間が小さくなるため 2 時間以内に収束しやすく、F1 0.90 以上のターゲット達成が見込めます。
推論レイテンシを 20 ms 未満で 1,000 並列リクエストをさばく鍵は SageMaker Endpoint と Auto Scaling の組み合わせです。Linear Learner は計算が O(d) と軽く ml.m5.large 数台で数千 req/s を実現できる一方、k-NN は距離計算が D×N に比例しピーク帯で遅延が伸びがちです。GPU で高速化してもメモリ常駐が必要な巨大インデックスを抱えるため帯域律速を避けにくく、スループットとコストが釣り合いません。
要件は「フルマネージド」「学習 2 時間」「F1 0.90」「p95 20 ms」「1,000 同時」と多面的です。SageMaker Processing+Feature Store で前処理を自動化し、AMT 付き Linear Learner で軽量高精度モデルを得て、単一モデルエンドポイントに Auto Scaling を組み合わせ水平複製する構成は、学習時間・精度・レイテンシ・運用負荷を俯瞰した総合最適を取りやすい設計と判断できます。
【MLS-79】オンライン動画配信企業は、視聴ログ2億行(視聴時間・デバイス種別・再生停止位置など50特徴量)をAthenaからParquetでS3に保存している。
ラベルは無く、顧客を5〜8グループへ自動分類し行動傾向を分析したい。
SageMakerノートブックから呼び出し、単一リージョンで学習を2時間以内に完了させる必要がある。
最も適切な組み込みアルゴリズムはどれか。
ラベルがない状態で50の特徴量をもとに2億行の視聴ログを5〜8グループにまとめるには、教師なしクラスタリングが適しています。Amazon SageMaker の k-means はユークリッド距離で各レコードを重心に割り当てる代表手法で、クラスタ数をパラメータとして柔軟に試せます。Athena で抽出し S3 に Parquet で置いたデータをノートブックから読み込み、Elbow 法で解が安定するポイントを確認する流れが王道です。特徴量が多くても正規化すれば計算コストは抑えられます。
2億行を2時間以内に処理するには、MPI による分散実装が組み込まれたアルゴリズムを選ぶことが重要です。SageMaker k-means は mini-batch 処理でストリーミング学習が可能なためメモリ効率が高く、マルチノードにスケールさせても手動コーディングは不要です。一方で XGBoost や Linear Learner は教師あり学習なのでラベルが必須、Random Cut Forest は異常検知向けのスコア出力が主目的でクラスタ制御が難しく、今回のセグメンテーション要件には適合しません。
要件を整理すると「ラベルなし」「5〜8クラスタ化」「SageMaker Notebook から呼び出せる組み込み」「数億行を単一リージョンで2時間以内」「追加開発を最小化」の五つとなります。これらを同時に満たすのは、教師なしクラスタリング専用で分散学習が可能な距離ベース手法です。シンプルでスケールするアルゴリズムを選ぶことが、計算時間・コスト・運用負荷の総合バランスを最も良好に保つ判断につながります。
【MLS-80】金融スタートアップは、500 万件・300 特徴量を含む取引ログから不正取引を二値分類したい。
特徴量は数値とカテゴリが混在し欠損値も存在する。
既存のロジスティック回帰では複雑な非線形関係を捉え切れず AUC 0.80 を超えられない。
推論は 1 件 20 ms 以内、学習コストは m5.2xlarge スポットインスタンス最大 4 台までとし、SageMaker の組み込みアルゴリズムを用いて最小限のハイパーパラメータ調整で精度を向上させたい。
最も適切なアルゴリズムはどれか。
500万件で数値とカテゴリが混在し欠損もある場合、SageMaker の決定木系アルゴリズムは分岐に欠損を組み込んで自動処理し、木の深さと勾配ブースティングにより非線形な特徴間相互作用を表現できます。初期ハイパーパラメータでも高い AUC が出やすい点が、ロジスティック回帰からの乗り換えで効果を発揮しやすいポイントです。学習時に列ごとのスケーリングやワンホットを厳密に行わなくても性能が落ちにくいので、前処理コストを抑えて短時間でプロトタイプを検証できます。
SageMaker Linear Learner はシンプルで高速ですが、入力をワンホット化しても本質的には線形結合しか学習できないため、取引の時系列的・組合せ的な非線形パターンを追加特徴なしに捉えるのは難しいです。欠損値は前処理で埋める必要があり、パラメータをいくら微調整しても曲線的な境界が必要な不正検出では頭打ちとなるケースが多いことを思い出してください。ハードリミット 20ms 以内の推論速度は満たしやすいものの、既存ロジスティック回帰の延長では AUC 改善のインパクトが小さい点がネックになります。
トレーニングは m5.2xlarge スポットを最大 4 台とコスト制限が明示され、推論は 1 件 20ms 以下と低レイテンシが求められます。SageMaker の分散モードに正式対応し、軽量なバイナリモデルを生成してエンドポイントで高速にスコアリングできるアルゴリズムは限られます。さらに欠損処理の自動化、数値・カテゴリ混在への強さ、デフォルト設定での実用性という複数要件を俯瞰すると、木構造を段階的に集約しながら学習する勾配ブースティング系が総合的に最もフィットすることが見えてきます。
【MLS-81】不動産仲介会社は物件価格を予測する回帰モデルを Amazon SageMaker で内製しています。
50 個の数値特徴を含む約100万行の CSV を S3 に置き、毎日追加される新規レコードで増分学習を行う方針です。
要件は
①推論は REST API 経由で 1 秒以内、
②モデル係数を経営層へ説明可能、
③GPU を使わずコストを最小化、
④前処理は標準化のみで特徴量設計は追加しない、の 4 点です。
これらを満たす組み込みアルゴリズムとして最も適切な選択はどれか。
REST API で 1 秒以内という低レイテンシ要件を満たすには、Amazon SageMaker のリアルタイムエンドポイントを CPU インスタンスで動かしても十分なスループットが出るアルゴリズムかを見極めることが大切です。Linear Learner や XGBoost など GPU 非依存の組み込みモデルは ml.m5 系でミリ秒応答が可能で、Warm Start による増分学習もサポートされるため、毎日の追加データを効率よく取り込めます。全量再学習よりパラメータ継承型を選ぶと運用コストも抑えられる点を押さえておきましょう。
経営層へモデル係数を提示して説明責任を果たすには、特徴量ごとに重みがそのまま数値で出力される仕組みが望ましいです。Amazon SageMaker Linear Learner は L1/L2 正則化付きの線形回帰を提供し、学習後に重みベクトルを簡単に取得できるので寄与度の解釈が容易です。対照的に Factorization Machines の潜在ベクトルや K-Means のクラスタ中心は重みの解釈が直感的でないため、この要件ではシンプルな線形モデルの利点が際立ちます。
データが 50 列の数値で前処理は標準化のみ、GPU 不使用でコスト最小化という条件では、内部でスケーリング機能を持ちつつ CPU で高速に回帰できる Amazon SageMaker Linear Learner が適合します。S3 から Pipe モードでストリーミング学習を行えば 100 万行規模でも訓練時間を短縮でき、リアルタイム推論・説明可能性・増分学習・コスト効率という複数の要件を総合的に満たせる点が判断の決め手になります。
【MLS-82】動画分析 SaaS 企業は 7 TB の JPEG 画像を用いて ResNet を Amazon SageMaker で再学習する。
採用予定の ml.p3.8xlarge にはローカル NVMe 100 GB しかなく、ジョブ起動時間とストレージコストを極力抑えたい。
データはすでに S3 バケットに階層化されており、学習コード (MXNet) は 80:20 で訓練/検証をストリーミングしたい。
インスタンス内へ全量コピーせず、最新のベストプラクティスで最も簡潔に要件を満たすデータ取り込み方法はどれか。
Amazon SageMaker で ml.p3.8xlarge を使う場合、インスタンスの NVMe キャッシュは 100 GB しかなく 7 TB の JPEG を置く余裕がありません。Amazon S3 に RecordIO 形式で保管し、トレーニングチャネルで InputMode=Pipe を指定すると、MXNet は必要なシャードのみをネットワーク経由で逐次取得します。この仕組みにより大量データの全量コピーを省き、ジョブは転送待ちなく即時に立ち上げられます。
File 入力モードを選ぶと SageMaker はジョブ開始時にデータをローカルへ展開するため、Elastic Block Store や Amazon FSx for Lustre など高価な追加ストレージが不可欠となり、7 TB の転送だけで数時間かかります。Pipe 方式は S3 のオブジェクトを直接ストリームするため GPU のアイドル時間を無くし、学習終了後に不要なボリュームを片付ける運用負荷も発生しません。
起動時間短縮、インスタンス内ストレージ制限の回避、S3 だけで完結するコスト最適化、MXNet での 80:20 ストリーミング分割という複数要件を俯瞰すると、トレーニングチャネルで InputMode=Pipe と RecordIO を組み合わせて S3 から直接データを供給する方法が最もシンプルで推奨される選択肢となります。
【MLS-83】ECサイトを運営する企業が Amazon SageMaker のビルトイン TensorFlow コンテナを用い、224×224 画像 100 万枚を分類する ResNet を ml.p3.8xlarge 単一ノードで学習している。
5 エポック目以降で訓練正確度 99%、検証正確度 82% と乖離し、推論レイテンシは 50 ms 以下を維持したい。
運用負荷を抑えつつ過学習を軽減するために最も適切な対応はどれか。
訓練 99% と検証 82% の開きは画像分類で典型的な過学習です。Amazon SageMaker の Built-in TensorFlow コンテナでは dropout と weight_decay(L2) を設定するだけで畳み込み層の正則化が簡単に有効化できます。ドロップアウトは推論時に無効化されるためエンドポイントのレイテンシ 50 ms には影響しません。追加でエポックを増やしたりモデルを置き換えたりする前に、まずこれらの正則化強度を適切に調整して検証精度を高める方が GPU を有効活用しつつ運用負荷を抑えられます。
weight_decay や dropout_rate は適切な値がデータセット依存で変わるため、Amazon SageMaker Hyperparameter Tuning Job を使い BayesianOptimization や RandomSearch を自動実行すると、人手で試行錯誤せず最適化できます。ml.p3.8xlarge 単一ノードでも並列ジョブを活かせば総学習時間を抑えつつ汎化性能を改善でき、運用面でも定型化が容易です。
バッチサイズの極端な変更やエポック数の増加は学習の安定性や計算コストに影響する一方で過学習を根本的に抑える保証はなく、線形モデルでは画像特徴の表現力が不足しがちです。Amazon SageMaker で既存の ResNet を維持し、ドロップアウトと L2 正則化を軸に HPO で自動探索する構成が、精度向上・レイテンシ維持・運用簡素化という複数要件を総合的に満たすアプローチと判断できます。
【MLS-84】国内EC企業が約50万件の日本語レビューを用いポジ/ネガ2値分類モデルを構築する。
多言語BERTを転移学習し、全層をファインチューニングしつつ最終層のみ2クラス用に置換する必要がある。
運用負荷を抑えるためマネージドな仕組みを希望し、学習は単一GPUの ml.p3.2xlarge 上で2時間以内に完了させたい。
最適な Amazon SageMaker の実装方法はどれか。
転移学習で多言語ないし日本語の BERT を丸ごとファインチューニングする場合、Amazon SageMaker の HuggingFace DLC が最もシンプルです。from_pretrained でモデルと tokenizer を取得し、Trainer API で num_labels=2 と freeze_base_model=False を指定、S3 に置いた reviews.csv を datasets.load_dataset で読み込み、ml.p3.2xlarge の V100 16 GB なら 50 万文を約 2 時間で処理できます。
組込アルゴリズム BlazingText や TensorFlow Script Mode を使う手もありますが、fastText 系は Transformer の事前学習重みを流用できず、古い TF1 系イメージでは transformers のビルドが追加で発生します。GPU 世代が K80 の ml.p2.xlarge や CPU の ml.c5.2xlarge を選ぶと計算時間が延び、全層ファインチューニングと 2 時間以内という制約を同時に満たすか慎重な検討が必要です。
要件は①日本語レビュー 50 万件の 2 値分類、②多言語 BERT の全層ファインチューニング、③マネージドサービスで運用負荷を抑制、④単一 GPU ml.p3.2xlarge で 2 時間以内完了、の 4 点です。SageMaker の HuggingFaceEstimator、BlazingText、Script Mode、Neo など各選択肢がこれら条件をどこまでカバーするかを俯瞰しつつ最適な手段を判断してください。
【MLS-85】金融SaaS企業は独自C++実装のXGBoost派生アルゴリズムをAmazon SageMakerで学習させたい。
ECRにBYOA用Dockerイメージを登録し、ml.m5.4xlargeで4時間以内にトレーニングを完了し、500 MBのモデルを自動でS3へ保存する必要がある。
ジョブ起動時に–hyperparameters max_depth=6を受け取り、学習後は同一イメージを推論エンドポイントにも流用したい。
コンテナ実装の要件を満たすアプローチはどれか。
独自アルゴリズムをBring-Your-Own-Algorithm方式でAmazon SageMaker Training Jobに載せる場合、DockerfileでENTRYPOINTを明示し、コンテナ起動後にpythonなどで/opt/ml/code配下のtrain.pyを呼び出す設計が基本です。ECRに登録したイメージは–hyperparametersで渡された値をargparse等で受け取れるようCLI引数を拾う実装にしておくと運用が楽になります。またSM_CHANNEL_TRAIN環境変数が入力データのパスを示すので、コード側でos.environから取得すれば大量データも問題なく処理できます。
学習した重みや成果物を/opt/ml/modelに書き出すと、SageMakerはジョブ終了時に自動でS3の指定バケットへアップロードしてくれます。500 MB程度のサイズであればml.m5.4xlargeでも転送に支障はなく追加設定も不要です。/opt/ml/outputは主にログ用ディレクトリなので混同しないよう注意してください。
同じDockerイメージを推論エンドポイントでも使うなら、学習用スクリプトに加えてserve.pyやinference.pyを用意し、SageMaker Hostingが呼び出すpredict関数を実装しておくとデプロイが一手間で済みます。Framework ModeやScript Modeは公式コンテナ向けの機能なので、BYOAでは決められたフォルダ規約とENTRYPOINT設定を守るアプローチが総合的に適していると判断できます。
【MLS-86】小売企業A社は、10種類の商品画像を分類するディープラーニングモデルを Amazon SageMaker で迅速に開発している。
自前データは5,000枚と少なく、学習時間を p3.2xlarge 1台で2時間以内に制限する必要がある。
転移学習のベストプラクティスに従い、ResNet-50 の学習済み重みで全層を初期化した上で出力数に合わせて最終全結合層だけを置換し、その後に全層をファインチューニングして高い汎化性能を得たい。
最も要件を満たす SageMaker の学習ジョブ構成はどれか。
Amazon SageMaker のイメージ分類組み込みアルゴリズムでは pretrained_model チャネルに ResNet-50 の学習済みアーティファクトを置き、transfer_learning_type を fine_tuning、num_layers_to_freeze=0 とすると全層が学習可能な状態でウォームスタートできるため、p3.2xlarge 1 台・2 時間という制約下でもエポック数を抑えて高い汎化性能を獲得しやすく、学習後はモデルが S3 に保存されそのままエンドポイントへデプロイ可能です。
同じ Amazon SageMaker 設定でも feature_extraction を選ぶと畳み込み層が凍結され計算量は軽いものの、5,000 枚の画像から新しい特徴を引き出す柔軟性が下がり、fine_tuning のように層をアンフリーズして調整する方がドメインシフトへの頑健性や精度向上を狙えるため、転移学習で高精度を目指す場面では層を解放して学習する構成が望ましいと整理できます。
データ数・GPU 時間・汎化性能という複数制約を同時に満たすには、S3 上の ResNet-50 重みで Amazon SageMaker 学習ジョブをウォームスタートし出力層だけ置換後に全層を調整する手法が、ゼロからの学習や SageMaker Neo による推論最適化のみのアプローチより計算資源の効率とモデル品質の両面で総合的に優れています。
【MLS-87】医療画像解析 SaaS 企業は、CSV 形式で gzip 圧縮された 5 TB の学習データを Amazon S3 に保存し、週次で Amazon SageMaker 組み込み XGBoost を単一の ml.p3.8xlarge インスタンスで再学習しています。
現在 File モードを使用しており、ジョブ開始前に S3 からローカル EBS へ全データをダウンロードするため 2 時間の待ち時間と高い EBS ストレージ費用が発生しています。
各エポックで順次読み込みが可能であることから、モデル精度を維持しつつレイテンシーとストレージコストを大幅に削減する最適な構成はどれですか?
Amazon SageMaker には File と Pipe という入力モードがあり、File はトレーニング開始前に Amazon S3 から全データをインスタンスの EBS にコピーします。そのため 5 TB の gzip CSV を扱うとコピーだけで数時間と高額な gp2 料金がかかりますが、Pipe モードは S3 からストリーミングでバッチ単位に読み込むため待ち時間とローカル容量を大幅に削減できます。さらに XGBoost は逐次読み込みに対応しているので精度への影響もありません。
同じ課題に対し Spot トレーニングを選ぶと課金の対象は ml.p3.8xlarge の計算コスト中心で I/O 量と EBS サイズは変わりませんし、Amazon FSx for Lustre をリンクすると高速な並列 I/O は得られるものの初回 Import とファイルシステム料金が発生します。順次処理する単一ノード学習では帯域よりも前処理待ち時間とストレージ費用がボトルネックなので、S3 から直接パイプ供給できる構成に注目すると道筋が見つかります。また Amazon ECR に巨大データを含むイメージを保存する方法は 5 TB のサイズ制約や pull 時間が非現実的で、データとコード分離の原則にも沿いません。
コストとレイテンシーという複数要件を俯瞰すると、SageMaker がネイティブにサポートする Pipe モードで Amazon S3 と学習プロセスをストリーミング接続し、ml.p3.8xlarge の GPU を休ませずにデータを供給する構成が、EBS を最低限に抑えつつ週次ジョブを迅速に完了させる最もバランスの取れた選択肢と判断できます。チャンネル設定を変えるだけで実装負荷も小さく、暗号化やバージョニングなど S3 既存ポリシーを継続利用できる点も運用メリットです。
教材の改善ご提案やご指摘を承るフォームです。
この教材の改善リクエストがある場合は、お気軽にご報告ください。
カテゴリを選択のうえ、詳細をご記入いただけますと幸いです。
CloudTech(クラウドテック)は多くのユーザーの皆様から改善リクエストをご協力いただき運営できております。
あなたの視点での気づきは他の学習者の迷いを解決する手助けとなります。
運営側でもチェックをしておりますが限界があるため、誠に恐縮ではございますが細かい点でもご遠慮なくご指摘をお願いいたします。
※ 匿名での報告となり、内容は一般公開されません。
※ 技術的なご質問への回答を行うフォームではございませんのでご注意ください。
