MLS-2.2特徴エンジニアリングの実施。

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-40】フィンテック企業はオンライン決済 2,000 TPS を処理しており、過去 1,000 万件・500 次元の取引ログを Amazon SageMaker で学習させて不正検知モデルを構築したい。
要件は
①AUC 0.95 以上で推論 50 ms 以内
②特徴数を 100 以下に削減し SHAP で解釈を提示
③L1 正則化で過学習を抑えつつマネージド Spot でコスト最適化し、単一 ml.m5.large エンドポイントで本番稼働することである。
最も適切な設計はどれか。

Linear Learner＋L1 正則化を有効化し、Clarify の SHAP レポートで寄与度上位 100 変数を抽出後に再学習、Spot トレーニング経由で単一 ml.m5.large エンドポイントへデプロイし、QuickSight に結果を公開する
XGBoost をデフォルト設定のまま学習し、Gain ベース重要度を QuickSight に連携、全 500 特徴を保持したままオートスケーリング付 3 台の ml.c5.4xlarge エンドポイントで推論する
AutoPilot で自動生成されたスタッキングモデルを採用し、Early Stopping と正則化を無効化、全特徴を保持したままマルチモデル ml.m5.4xlarge エンドポイントへデプロイし、解釈は行わない
EMR Spark で PCA により次元を 20 に圧縮後、SageMaker k-NN で学習し、距離計算用に ml.r5.8xlarge エンドポイントを確保、特徴寄与は PCA 成分で説明し過学習対策は取らない

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-41】全国300店舗を展開する食品スーパーは、各店舗・商品カテゴリの日次需要を６か月先まで予測し、廃棄を20％削減したい。
学習データは過去５年分で、明確な週次季節性と年末年始・GW前の急増がある。
各店舗は隔週月曜が休業。
精度はRMSE 5％以内、再学習はフルマネージドで２時間以内とする。
Amazon Forecast（DeepAR+）を用いて季節要因と休業日影響を最小運用コストで組み込む設定として最も適切なのはどれか。

Target time series のみをインポートし、自動季節性検出を有効化して予測頻度を「D」に設定し、追加データセットは用いない
Target time series に加え休業日フラグを含む Related time series を投入し、FeaturizationConfig で日本祝日カレンダーを有効化し、予測頻度を「D」に設定する
需要を週次に集計し予測頻度を「W」に変更、アルゴリズムを Prophet に切り替え、holiday オプションは無効化する
休業日と祝日情報を item metadata の静的属性として付与し、アルゴリズムに AutoARIMA を選択して予測頻度を「D」に設定する

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-42】ある小売企業は直近3年分の取引データ1.2億行･500 GBをS3/Parquetに保存している。
売上金額の分布が右に大きく歪んでおり、XGBoost回帰モデル学習前に自然対数変換した特徴量を追加したい。
MLエンジニアはSageMaker Studio上でData WranglerとProcessingを利用し、
①コードを極力書かずGUI中心、
②処理をSageMaker Pipelineへ組込み再現性を確保、
③将来のバッチ推論にも同一処理を自動適用、
④コストを最小化、という要件を提示された。
最適な実装はどれか。

Data Wranglerで計算列ステップにlog1p関数を設定しフローを保存後、Create processing jobからPipeline用テンプレートを生成し、スポット対応ml.m5.xlargeを指定して新規データごとに自動実行させる
AthenaのCTASでLOG関数を使うビューを作成しGlueカタログへ登録し、StudioからSQLを手書きするProcessingジョブで取得する。Pipelineには外部Lambdaを挟んでデータ更新を管理する
EMRクラスタでPySparkスクリプトを走らせS3を上書きし、Data Wranglerはサンプリング確認のみに使う。モデル学習や推論はデータ更新のたびに手動でクラスタを再起動する
Data Wranglerフローで変換後データをCSV出力しS3に格納し、キーを手動入力してProcessingジョブの入力に指定する。新規データが届くたびにGUIでエクスポート操作を繰り返す

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-43】あるEC事業者は Amazon SageMaker Data Wrangler で構築した日次パイプラインにより予測用データを生成している。
購買履歴の customer_lifetime_value 列は中央値 100 に対し最大値 50,000、尖度 10 と極端に右に歪んでいる。
XGBoost の学習を安定させ、外れ値の影響を抑えつつ単調な数値特徴として保持するため、パイプライン内で採用すべき前処理はどれか。

カスタム PySpark スクリプトで Z スコアを算出し |z|>3 のレコードを除外する
Data Wrangler の Min-Max スケーラーで 0〜1 に線形正規化する
Data Wrangler の「対数(1+x)」変換で値域を圧縮し連続量として保持する
0-25-50-75-100 の分位数でビニング後にワンホットエンコードする

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-44】FinTech企業は1日約1,000万行の日本語チャットログを分析し、テキスト分類モデルを更新したい。
要件は
①5分以内でサンプル抽出と可視化ができること、
②毎日02:00に全量でステミングと TF-IDF を再計算し Parquet 形式で S3 に版管理して出力すること、
③変換ロジックをコードレビューや CI/CD に載せて再現可能にすること、
④運用工数とコストを最小化することである。
最適な構成はどれか。

Data Wrangler でフローを作成し TF-IDF/ステミングを定義、Export 先を SageMaker Pipelines の Spark Processing ジョブにして毎晩実行し、成果物をバージョン付け S3 バケットへ Parquet で保存する。
Glue Studio で PySpark ジョブを作成し TF-IDF を自前実装、ステミングは行わず CSV を S3 に毎晩上書き保存する。
Kinesis Data Streams にストリームし Lambda で janome によるステミング後 DynamoDB に格納し、日次バッチは実施しない。
SageMaker ノートブックインスタンスで手動実行した sklearn で TF-IDF を計算し、生成ファイルをローカルに保持後に手動で S3 へアップロードする。

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-45】インターネット広告企業では１日あたり５００ GBのクリックストリームを取り込み、scikit-learn で実装した特徴量生成を反復してモデル性能を比較したい。
要件は、１）入力データ・ハイパーパラメータ・生成特徴量・評価指標を体系的に追跡し SDK から即座に検索できる、２）前処理スクリプトのみを変更して最大１０ジョブを並列起動できる、３）追加で管理すべきノードを持たず運用負荷を最小とする。
最適なアーキテクチャはどれか。

SageMaker Pipelines に Processing ステップを組み込み、実行時パラメータを SageMaker Experiments の TrialComponent に自動記録させて特徴量とメトリクスを S3 と Experiments に保存する
AWS Glue ワークフローで前処理を個別ジョブとして登録し、ジョブタグでパラメータを記録し、Athena に手動でメトリクスをロードして比較する
常時稼働の EMR クラスター上の Spark スクリプトで前処理を行い、パラメータとメトリクスを CloudWatch Logs に出力して Athena で検索する
SageMaker Batch Transform ジョブで特徴量生成を行い、S3 キー名にパラメータを埋め込み、メトリクスを CloudWatch メトリクスのみで保管して比較する

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-46】FinTech 企業 X 社は、Amazon SageMaker Feature Store に蓄積された 1 日 1 億件の取引データから XGBoost を用いたリアルタイム不正検知モデルを構築している。
merchant_id 列は 5 万種以上の高カードinality を持ち、エンドポイントの P95 レイテンシーは 10 ms 未満に抑える必要がある。
One-Hot Encoding はメモリとネットワーク帯域を圧迫するため不採用となった。
Data Wrangler における前処理として、最も要件を満たす手法はどれか。

カテゴリカルターゲットエンコーディングを実施し、各 merchant_id の平均不正率を数値化して特徴量として登録する
頻度エンコーディングを適用し、merchant_id の出現比率を 1 列の数値特徴量に変換して Feature Store に保存する
Label Encoding を行い、merchant_id を 0 からの連番整数で置換してモデルに学習させる
Glue ジョブで pandas.get_dummies によりワンホット化した後、生成された数万列をそのまま Feature Store に書き込む

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-47】大手 EC 企業は 2,000 万件の日本語レビューを用い、SageMaker 上で TensorFlow 2.12 Script モードによる Bi-LSTM 感情分類モデルを開発している。
学習を高速化するため、過去に BlazingText Skip-gram で学習済みの 300 次元 word2vec 形式ファイル (vectors.txt, 550 MB) を S3 に保存済みで、これを埋め込みレイヤの初期重みとして読み込み、推論時には更新しない方針である。
追加の運用コストを最小化しつつ要件を満たす実装として、最も適切なアプローチはどれか。

埋め込みファイルを TensorFlow Estimator の独立した input_channel として指定し、SM_CHANNEL_embeddings に配置された vectors.txt を学習スクリプトで np.loadtxt し、tf.keras.layers.Embedding(weights=[…], trainable=False) として読み込む
BlazingText の supervised モードに切り替え、init_vectors ハイパーパラメータに S3 パスを渡して事前学習済みベクトルを自動的に固定重みとして利用する
AWS Glue Data Catalog に vectors.txt をテーブル登録し、SageMaker Processing Job でレビューと結合した後、Pipe モードで Training Job にストリーミングする
SageMaker Feature Store オフラインストアに単語ごとの 300 次元ベクトルを保存し、Training Job から Retrieve API を呼び出してミニバッチごとに重みをフェッチする

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-48】大手動画配信企業は Amazon SageMaker Pipelines でレコメンデーションモデルを自動再学習している。
S3 には日次で約5,000万行の視聴履歴 CSV が追加され、カテゴリ列8列（各列のユニーク値は最大200）をワンホットエンコードして XGBoost ビルトインアルゴリズムに入力したい。
処理時のメモリ使用量を抑え、Notebook を常駐させずコードの再利用性も確保する必要がある。
最も適切な実装はどれか。

Amazon SageMaker Data Wrangler フローを手動で実行し、ワンホットエンコード後のデータセットを Studio からエクスポートして S3 に保存し、Pipeline では学習ジョブのみを呼び出す。
SageMaker Processing ステップで scikit-learn の OneHotEncoder(sparse=True) を実行し、出力を LibSVM 形式で S3 に保存してから、次の XGBoost トレーニングステップへ直接渡す。
AWS Glue ETL ジョブでダイナミックフレームを Parquet に変換し Athena 外部テーブルを作成した後、XGBoost トレーニングジョブ内で SQL 参照してワンホットエンコードを行う。
XGBoost トレーニングステップに “enable_on_hot_encoding=true” ハイパーパラメータを設定し、カテゴリ列をそのまま CSV で渡して学習時に自動エンコードさせる。

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-49】医療画像解析スタートアップのMedSight社は、S3に保存した512×512ピクセルの胸部X線画像1万枚で異常検知モデルを作成したい。
ml.p3.2xlargeでSageMaker組込みImage Classificationアルゴリズムによる転移学習を計画しているが、データ不足による過学習が懸念される。
追加のストレージや前処理ジョブを増やさず、学習時にランダム回転・左右反転・拡大を実施して特徴量を強化し、S3上のオブジェクト数を増やさず精度を高める最適な方法はどれか。

PyTorch Estimatorを用い、トレーニングスクリプト内でtorchvision.transformsを実装した独自コンテナをECRに登録して学習する
組込みImage Classificationアルゴリズムのハイパーパラメータ augmentation_type を「crop,flip,rotation」に設定して学習ジョブを実行する
SageMaker ProcessingでAWS Glue DynamicFrameを使い拡張画像を別バケットへ書き出し、その後学習チャンネルに追加する
Amazon Rekognition Custom Labelsにデータセットをインポートし自動Augmentを有効にして再エクスポート後、SageMakerで学習する

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-50】医療画像診断スタートアップは、1 クラスあたり 500〜5,000 枚と大きく不均衡な 10 クラス画像（計 1 TB）を S3 に保存している。
224×224 正規化テンソルへの変換とランダム回転・左右反転を学習時に実施し、GPU 使用率 90% 以上を維持したい。
前処理コードは Git で管理し、月 2 回の再学習を最小コストかつ低運用で行う必要がある。
最も要件を満たすアーキテクチャはどれか。

SageMaker Processing で全画像を TFRecord に前変換し S3 に保存、Pipe モードで学習。拡張は前変換スクリプトに固定する方式を採用する。
SageMaker Training を Pipe モード入力で起動し、DataLoader 内で Albumentations によるオンザフライ拡張と正規化、WeightedRandomSampler でクラス調整を行う。ECR のカスタムイメージを CodePipeline で自動更新する。
S3 Select で JPEG を 224×224 にリサイズしつつストリーミングし、SageMaker Script Mode TensorFlow Estimator で学習し、クラス不均衡は学習後のメトリクス補正で対応する。
AWS Glue ETL で Parquet へ変換し Athena から SageMaker Training へ渡す。Data Wrangler Notebook でリサイズ・正規化後、静的 RecordIO を生成し毎回手動で再構築する。

ヒントボタン

大量画像を毎回ローカルにコピーすると転送待ちやディスク容量がボトルネックになるため、Amazon SageMaker の Pipe モードで S3 からストリーミング読み込みを行えば 1 TB 規模でもスタートアップが求める最小コストを維持でき、インスタンス起動直後からバッチ読み込みが走ることで GPU 使用率 90% 以上というパフォーマンス要件を継続的に満たしやすくなり、キャッシュが残らないので再学習時のストレージ課金も抑えられ、さらに File モードと比べてジョブ開始待機時間が短縮されるため実行料金の削減にもつながります。
画像を事前に全て変換して保存すると S3 コストが二重になり拡張パターンも固定されますが、PyTorch DataLoader で Albumentations を使い CPU 並列で 224×224 正規化やランダム回転・左右反転をオンザフライで行えば Amazon SageMaker Training の GPU パイプラインは常に新しいミニバッチを受け取れるため使用率低下を防げ、WeightedRandomSampler により 500 枚しかないクラスも 5,000 枚クラスと同等の頻度で学習されることで精度と汎化性能を両立でき、さらにエポックごとに変化するデータが過学習を抑制し Git 管理下で拡張ロジックの改善も簡単に反映できます。
月 2 回の再学習を手離れ良く回すには、GitHub や CodeCommit へのプッシュをトリガに AWS CodePipeline が Dockerfile 付きのリポジトリをビルドし Amazon ECR にプッシュ、そのイメージタグを指定して SageMaker Training ジョブを起動する CI/CD 流れを組むことで、ライブラリバージョンの差異や手動ビルドのミスを排除しながらビリングは学習時間分だけに限定でき、Pipe モード入力とオンザフライ前処理を組み合わせる構成がストレージ・運用・性能の複数要件をバランス良く満たす最適解になります。

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-51】金融系スタートアップは Amazon SageMaker で 1 TB の取引履歴を毎日学習し、XGBoost のリアルタイム推論エンドポイント (p99 < 50 ms) を提供しています。
数値特徴量を平均0・分散1に標準化し、学習・検証・バッチ・オンライン推論のすべてで同一スケーリングを再現する必要があります。
データ分布が変化した際は CI/CD (CodePipeline + SageMaker Pipelines) を 1 回走らせるだけでエンドポイントを無停止で Blue/Green 置換したいと考えています。
運用負荷とコード量を最小化し、最新の AWS ベストプラクティスに最も合致する実装はどれですか。

SageMaker Pipelines の ProcessingStep で scikit-learn StandardScaler を学習・保存し、SKLearn コンテナと XGBoost コンテナを連結した PipelineModel を作成して Blue/Green デプロイする
SageMaker Data Wrangler で StandardScaler を適用した特徴を Amazon Feature Store のオンラインストアに書き込み、推論時はスケーリング済みレコードを直接取得する
AWS Glue ETL で平均・分散を日次計算し、Athena CTAS で正規化済み Parquet を生成、推論時はマテリアライズドビューを経由してデータを取得する
API Gateway 前段の Lambda で平均・分散を環境変数に保持して入力を標準化し、変換後ペイロードを既存の XGBoost エンドポイントへリレーする

ヒントボタン

ヒント 1
Amazon SageMaker の ProcessingStep で scikit-learn StandardScaler を学習して直ちに S3 へ保存し、そのまま公式 SKLearn コンテナと XGBoost コンテナを組み合わせた PipelineModel を生成すれば、学習・検証・バッチ・オンライン推論で完全に同じ平均と分散を再利用できます。マルチコンテナエンドポイントに載せることで前処理と推論を 1 ホップで連続実行でき、training-serving skew を防ぎつつコードはパイプライン定義だけに集約されます。さらに公式イメージを使うため独自 Docker の保守も不要で、1 TB を超えるデータでも分散前処理ジョブが自動スケールし運用負荷を大幅に削減できます。

ヒント 2
p99 50 ms を守るためにはネットワーク往復を極小化する構成が不可欠です。Amazon Feature Store でスケール済み特徴を取得したり、AWS Glue や Athena のマテリアライズドビューを挟んだり、API Gateway＋Lambda で前処理してから呼び出す方式は、いずれも二段リクエストやコールドスタートが加わり遅延が増えやすくなります。SageMaker のマルチコンテナなら CPU キャッシュ内で前処理と推論が完了しオーバーヘッドが最小化されます。また平均・分散を環境変数や日次 ETL で別管理にすると、データ分布が変わった際に CI/CD が二系統に割れて整合性リスクが高まるため、単一パイプラインで一貫管理できる構成が望ましいです。

ヒント 3
求められているのは ①学習・評価・バッチ・リアルタイム推論すべてで同一スケーリングを保証し、②CodePipeline からワンボタンで SageMaker Blue/Green デプロイを実行し無停止でエンドポイントを置換し、③p99 レイテンシ 50 ms をクリアし、④独自コンテナ開発や二重管理を避けて運用とコード量を最小化することです。これら複数要件を総合的に満たす設計として、ProcessingStep でスケーラーを学習し PipelineModel に前処理と XGBoost を束ねてデプロイするワークフローがベストプラクティスと言えるでしょう。

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-52】金融SaaS企業はAthenaに格納した1 TBの与信データを用い、Pearson相関ヒートマップで高い共線性を持つ特徴を除外したうえで、SHAP値に基づく特徴重要度を算出し20個以内に絞り込んだ後、XGBoostモデルを再学習したい。
処理はSageMaker Pipelinesで毎日自動実行し、可視化レポートはS3に保存、パイプライン全体の実行時間は30分未満、追加の運用コードを最小限に抑えることが求められる。
要件を最も効率的に満たすアーキテクチャはどれか。

Data WranglerをAthenaに接続し、組み込みの相関ヒートマップとClarifyベースのSHAPワークフローをGUIで生成、そのフローをSageMaker PipelinesへエクスポートしてS3へ自動出力する。
Glue DataBrewでプロファイリング後、QuickSight分析からLambdaでSHAP指標を手計算し、CSVをS3へ置いてからPipelinesで読み込む。
EMR on EC2にZeppelinノートブックを立ち上げ、Spark MLlibで相関係数とGini重要度を計算、結果をDynamoDBに保存しStep Functionsで連携する。
SageMaker ProcessingでカスタムPythonを実装し、Matplotlibと自前SHAPライブラリで図を出力し、BashでPipelinesに結合する。

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-53】国内フィンテック企業は Amazon SageMaker で信用リスク判定モデルを構築している。
S3 には 1 億行 × 500 列の取引履歴が保管されており、学習は XGBoost を用いる予定である。
しかし相関の高い説明変数が多く、インスタンスメモリ不足と 2 倍以上の学習時間を招いている。
学習前に組み込み PCA で 300 次元以下へ圧縮し、推論時も同じ変換を適用したうえで P99 レイテンシ 30 ms 未満、同時 600 TPS を維持しつつ追加計算コストを極小化する必要がある。
最も適切なアーキテクチャはどれか。

SageMaker Processing で PCA を学習し、PCA の結果のみを Feature Store に保存する。エンドポイントには単独の XGBoost モデルをデプロイし、推論入力として 500 列の生データを送信する。
SageMaker Pipeline で (1) Processing ジョブにより PCA を学習してモデルアーティファクトを登録し、(2) 変換後データを Feature Store に書き込み、(3) PCA コンテナと XGBoost コンテナを連結した推論パイプラインモデルを単一エンドポイントにデプロイする。
AWS Glue ETL で日次バッチ処理により PCA を再計算し、次元削減済み CSV を S3 に書き出す。モデル学習・推論は毎回 Batch Transform で XGBoost を起動する。
多重共線性対策として XGBoost の max_depth と列サブサンプリングを小さく設定するだけで特徴量は変更しない。推論は XGBoost 単独のエンドポイントで処理する。

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-54】広告配信会社B社は、1レコード当たり10,000個の数値特徴量を持つクリックストリームを毎日2億件 Amazon S3 に保管している。
クラスタリング前に主成分数50へ次元削減したい。
要件は (1) 学習は月1回のみでコスト最小化が最優先、(2) 推論はエンドポイント不要で1日1回のバッチ処理、(3) 変換後データは Parquet 形式で S3 に保存し他の SageMaker ジョブから再利用する、である。
この要件を最も満たす構成はどれか。

Amazon SageMaker 組み込み PCA を randomized モードで月1回学習し、Batch Transform で日次 50 次元化を行い、Parquet 形式で S3 に保存する構成とする
AWS Glue ETL で Spark ML の PCA を毎日学習・推論し、データを Glue テーブルとして保管する構成とする
学習済み PCA モデルをリアルタイムエンドポイントにデプロイし、Kinesis Data Firehose から逐次推論して S3 に送る構成とする
SageMaker Autopilot で月1回モデル生成後、生成エンドポイントを InvokeEndpoint API で日次バッチ推論する構成とする

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-55】オンライン広告企業はクリック率予測パイプラインを Amazon SageMaker で構築している。
行数 5 万、列数 5,000 の数値特徴を XGBoost に入力したところ、ml.m5.2xlarge でメモリ不足により学習が失敗した。
総学習時間は 30 分以内、メモリ使用量は 16 GiB 以内とし、推論後には SHAP により各「元特徴」の寄与を可視化する必要がある。
コスト最適化方針により既存の ml.m5.large エンドポイントを変更せず、高スペック学習インスタンスも新規導入しない。
また変換ロジックはフルマネージドサービス上に実装し、運用負荷を最小とすることが求められる。
最も適切な前処理手法はどれか。

SageMaker Processing で組み込み PCA を用い主成分を 50 個に圧縮し、ロード行列をモデルアーティファクトに同梱して XGBoost に入力し、推論時はエンドポイント内で SHAP が元特徴寄与を復元できるように構成する。
Data Wrangler で Z スコア正規化のみを実施し特徴数を維持したまま ml.m5.4xlarge にスケールアップして学習し、推論後に SHAP を直接計算する構成とする。
EMR 上の Spark MLlib で Chi-SqSelector により上位 500 特徴を選択して S3 に保存し、その後オンプレミスで学習・推論を行う構成とする。
SageMaker Clarify のバイアス検出ジョブのみを実行して得られたデータセットを XGBoost に投入し、SHAP 分析を行わない構成とする。

カテゴリ: MLS-2.2特徴エンジニアリングの実施。

1
2
3

【MLS-56】大手アパレル EC 企業は、2 TB の商品画像（平均 2 MB、1024×1024）を Amazon S3 に保存している。
欠陥検知 CNN を学習するにあたり、1 エポックあたり 2,000 枚/秒で取り込みつつ、水平方向反転・ランダムクロップなどのデータ増強を重複保存せず低コストで行いたい。
実験の再現性を確保し、学習後は容易に推論エンドポイントへデプロイできる構成が求められる。
AWS ベストプラクティスに最も合致するアプローチを選べ。

SageMaker Processing ジョブで Python/OpenCV により全画像を回転・切り抜きし、生成された 6 TB の増強画像を別 S3 バケットへ保存後、File mode で学習を行う。
AWS Glue ETL ジョブで画像を Parquet 形式へ変換し、Athena でクエリしたデータを SageMaker Batch Transform に渡して推論を実施する。
SageMaker トレーニングジョブで Pipe mode を用い、組み込み Image Classification アルゴリズムの augmentation ハイパーパラメータ（horizontal_flip など）を有効化し、オンラインで増強しながら学習を行う。
EC2 P3 インスタンス上で独自 TensorFlow スクリプトを実行し、増強後テンソルを EBS にキャッシュしつつ学習を行い、完了後モデルだけを SageMaker へ登録して学習を行う。

MLS-2.2特徴エンジニアリングの実施。

採点する

インフォメーション

結果

結果

カテゴリー

1. 質問

ヒントボタン

2. 質問

ヒントボタン

3. 質問

ヒントボタン

4. 質問

ヒントボタン

5. 質問

ヒントボタン

6. 質問

ヒントボタン

7. 質問

ヒントボタン

8. 質問

ヒントボタン

9. 質問

ヒントボタン

10. 質問

ヒントボタン

11. 質問

ヒントボタン

12. 質問

ヒントボタン

13. 質問

ヒントボタン

14. 質問

ヒントボタン

15. 質問

ヒントボタン

16. 質問

ヒントボタン

17. 質問

ヒントボタン

改善リクエスト