MLS-2.1モデリングのためのデータのサニタイズと準備。

カテゴリ: MLS-2.1モデリングのためのデータのサニタイズと準備。

1
2
3

【MLS-32】国内EC事業者は、50,000SKU×10店舗の販売数を1時間粒度で3年間収集し、S3に保存している。
販売休止時は0件、障害時は欠損となる。
次の要件で需要予測基盤を設計する必要がある。
・Amazon Forecast で各SKU×店舗の日次需要を90日先まで予測する
・MAPE を最小化しつつ学習ジョブの実行時間を30%削減する
・価格改定履歴と在庫水準を説明変数として活用する
最適な前処理パイプラインはどれか。

AWS Glue で欠損を0埋めし1時間データを日次に集約、価格と在庫をアイテムメタデータに、店舗IDごとに関連時系列を作成して AutoPredictor で学習する
欠損行を削除し時系列を1時間のまま DeepAR+ で学習し、推論後に日次に平均化して需要を算出する
集約せず元の1時間データと価格・在庫を縦結合した単一 CSV を作り、ARIMA アルゴリズムを選択して Forecast に投入する
欠損を線形補間し、アイテムメタデータは Glue Data Catalog に登録するのみで Forecast に渡さず、AutoML を無効化した単一 Prophet モデルで学習する

カテゴリ: MLS-2.1モデリングのためのデータのサニタイズと準備。

1
2
3

【MLS-33】フィンテック企業A社は、Amazon SageMaker Pipelines で毎晩 500 万行の取引 CSV を読み込み、XGBoost モデルを学習している。
顧客属性 4 列に平均 3% の欠損があり、外部データの利用は禁止。
要件は
①母集団分布を保つ多重代入で欠損補完、
②乱数シード固定で再現性を確保、
③コードは Git で管理、
④ml.m5.xlarge 1 台で前処理を 30 分以内に完了することである。
運用負荷を最小化しつつ要件を満たす実装はどれか。

Data Wrangler の GUI で平均値補完ステップを追加し、Processing ジョブとしてスケジュールし、Parquet で S3 に保存する
SageMaker Processing で scikit-learn IterativeImputer を使う Python スクリプトを Git 管理し、固定シードで 5 データセットを生成後平均化し Parquet 出力する
AWS Glue DataBrew のレシピで「NULL を中央値に置換」ステップを適用し、Job ブックマークで S3 出力を差分更新する
Amazon Athena CTAS で COALESCE 関数を用いて欠損をデフォルト値に置換し、そのビューを直接 XGBoost トレーニングに指定する

カテゴリ: MLS-2.1モデリングのためのデータのサニタイズと準備。

1
2
3

【MLS-34】ある金融 SaaS 企業は不正検知モデルを開発している。
S3 に格納された 200 GB の取引データは陽性クラスが 1 % と極端に不均衡である。
要件は次のとおり。
①欠損値を除去しワンホットエンコード後、陽性クラスを 10 倍にオーバーサンプリングする。
②列順を保持したまま Parquet 形式で S3 に書き出す。
③データサイエンティストが GUI で変換内容を確認でき、同一処理を本番パイプラインで再実行できる。
④運用負荷とコード保守を最小化する。
最も適切な方法はどれか。

SageMaker Data Wrangler で Flow を作成し「オーバーサンプリング（少数クラス）」トランスフォームを適用、Flow を SageMaker Pipelines の Processing ステップとしてエクスポートして Parquet を S3 に出力する
AWS Glue PySpark ETL ジョブで陽性レコードを 10 回複製して Parquet に書き出し、Glue Crawler でメタデータ登録後に SageMaker Training に渡す
元データを変更せず SageMaker XGBoost の scale_pos_weight を 10 に設定して学習し、推論時も同設定でクラス不均衡を補正する
SageMaker Processing で独自コンテナを起動し imbalanced-learn の RandomOverSampler で CSV を生成し、スクリプトを EMRFS 経由で S3 に配置・手動で再実行する

カテゴリ: MLS-2.1モデリングのためのデータのサニタイズと準備。

1
2
3

【MLS-36】金融SaaS企業は1分粒度で収集した株価時系列（約5年、260万行）を用い、Amazon SageMaker上でLSTMモデルを構築する。
週次バッチで直近7日先までの予測精度を評価するため、将来データの情報漏えいを防ぐ学習／検証データ分割手法として最も適切なのはどれか。

SageMaker Processingジョブでデータをランダムシャッフルし、80%をトレーニング、20%を検証に割り当てる
タイムスタンプ順に昇順ソート後、直近30日間を検証用にホールドアウトし、残りをトレーニング用にSageMakerのInputChannelへ分離する
時系列性を排除するためタイムスタンプ列を削除し、scikit-learnのShuffleSplitで等分割してSageMaker Estimatorに入力する
データを1行おきに交互割り付けし、奇数行をトレーニング、偶数行を検証としてSageMaker Training Jobを実行する

カテゴリ: MLS-2.1モデリングのためのデータのサニタイズと準備。

1
2
3

【MLS-37】動画配信企業S社は、ユーザ視聴ログ（3 TB、1 秒粒度のtimestamp列を含む）を用いAmazon SageMakerで次視聴予測モデルを開発中である。
追加ETL基盤は設けず、パイプラインから再利用可能な形でデータリークを防ぎつつ過去90日を学習、直近7日を評価に用いなければならない。
時系列順を保持したまま学習用と評価用に分割・登録するため、最も適切な方法はどれか。

SageMaker Data Wranglerの「時系列分割」トランスフォームでtimestampを昇順ソート後、ホールドアウトウィンドウを7日に設定し、学習・評価チャネル別にS3へ出力する
AWS GlueのDynamicFrameでユーザIDをハッシュし8:2でランダムサンプリングし、結果を同一S3プレフィックスに保存してパイプラインから参照する
SageMaker Clarifyのバイアス検知ジョブ出力をTrainingChannelとして再利用し、残りデータをValidationChannelに割り当てる
Kinesis Data Firehoseでログを取り込み、AthenaのCTAS文でWHERE rand()＜0.2を用いて評価データを抽出し、学習・評価を同時にパイプライン実行する

カテゴリ: MLS-2.1モデリングのためのデータのサニタイズと準備。

1
2
3

【MLS-38】フィンテック企業は不正検知モデル用に取り込んだ 3 年分の取引ログ（総レコード数 5 億、陽性クラス比 1%）を Amazon S3 に保存している。
GUI ベースでコードを最小化しつつ SMOTE によりクラス不均衡を解消し、前処理結果を SageMaker Pipelines に組み込みデータ系統を追跡したい。
運用保守を抑えながら要件を満たすアプローチはどれか。

SageMaker Data Wrangler フローで「Balance classes (SMOTE)」変換を追加し、フローを SageMaker Pipelines の ProcessingStep としてエクスポートして実行する
SageMaker Autopilot を起動し、Data Wrangler でエクスポートした CSV を入力しておけば自動的にクラスバランスが調整される
AWS Glue Spark ジョブで DynamicFrame を BalancedBatchSampler に渡して SMOTE を実装し、その出力を S3 から直接 Estimator に読み込ませる
トレーニングスクリプト内で imbalanced-learn を pip install して SMOTE を適用し、CodeBuild でビルドしたカスタム Docker イメージを ECR から使う

カテゴリ: MLS-2.1モデリングのためのデータのサニタイズと準備。

1
2
3

【MLS-39】大手小売企業は、S3 に週次で 3 TB ずつ追加される POS データを用いて SageMaker XGBoost モデルを訓練している。
前処理はデータアナリストがノーコードで実行でき、次の要件を満たす必要がある。
1. 数値列は中央値、カテゴリ列は最頻値で欠損補完する
2. 手順をリポジトリでバージョン管理し、EventBridge で毎週自動再実行する
3. 出力は SageMaker Feature Store に直接登録し、後続の Pipeline で再利用する
また、前処理は 1 時間以内に完了し、常時稼働クラスタは予算上許可されない。
データは 5000 列あり、SQL だけでの保守は困難である。
最も運用負荷が低く、要件を満たすアーキテクチャはどれか。

AWS Glue DataBrew で欠損補完ジョブを実行し S3 に保存、AWS Lambda で Feature Store にバッチ登録し、EventBridge で週次起動する
SageMaker Data Wrangler で欠損補完フローを作成し Feature Store へ直接書き込む SageMaker Pipelines にエクスポートし、EventBridge で週次実行する
Amazon Athena の CTAS クエリで COALESCE により欠損補完し Glue ワークフローで週次実行、S3 出力を SageMaker Processing ジョブで Feature Store にロードする
常時稼働の Amazon EMR クラスタで PySpark による欠損補完を行い S3 に保存後、cron ジョブで Feature Store へ転送する