AIF-3.1基盤モデルを使用するアプリケーションの設計上の考慮事項を説明する。

カテゴリ: AIF-3.1基盤モデルを使用するアプリケーションの設計上の考慮事項を説明する。

1
2
3

【AIF-53】あるファッション EC 企業は、約 50 万点の画像付き商品カタログで「画像またはテキストいずれか」を入力とする高速類似検索機能を 1 か月以内に実装したい。
要件は
①平均レイテンシ 50 ms 未満
②同時検索 200 rps
③運用負荷を最小化
④将来的な多言語対応である。
最も適切なアプローチを選びなさい。

Amazon Bedrock Titan Multimodal Embeddings を用いて画像とテキストを共通ベクトル化し、Amazon OpenSearch Service の KNN ベクトルインデックスに格納して検索する構成を採用する。
Amazon Rekognition DetectLabels で取得したラベルを AWS Glue カタログに登録し、Amazon Athena の SQL で類似度を後計算して検索する構成を採用する。
Amazon SageMaker マネージドエンドポイントに独自 CLIP モデルをデプロイし画像ベクトルのみを Amazon DynamoDB に保存、テキストは Amazon Comprehend のキーフレーズ検索と組み合わせる構成を採用する。
Amazon Lex で自然言語クエリを音声化し Amazon Polly でテキストに戻した後、Amazon Aurora MySQL の全文検索機能で商品説明を検索する構成を採用する。

カテゴリ: AIF-3.1基盤モデルを使用するアプリケーションの設計上の考慮事項を説明する。

1
2
3

【AIF-54】出版社は社内技術記事の校正ツールを計画している。
本文中の専門用語を “[MASK]” に置換し、最適語を推測して返すマスク言語モデリング機能が必要である。
1 日 100 万文をバッチ処理できれば良く、レイテンシーは数秒以内で可。
日本語対応、最小運用、かつ推論コストを抑えたい。
この要件を最も満たすソリューションはどれか。

Amazon SageMaker JumpStart の日本語 BERT マスク言語モデルをバッチ変換ジョブで実行する
Amazon Bedrock の Claude Instant モデルをリアルタイムエンドポイントで呼び出し生成させる
Amazon Comprehend のカスタム分類モデルを学習し語句を推定する
Amazon EMR 上に自己管理の BERT コンテナをデプロイし Spot インスタンスで推論する

ヒントボタン

マスク言語モデリングは BERT 系 Transformer が標準で備えるタスクで、入力の [MASK] を最適語で埋める仕組みです。SageMaker JumpStart には日本語の事前学習済み BERT が公開されており、学習済みモデルをそのまま呼び出して Batch Transform を実行できます。S3 に格納した記事ファイルを一括で推論し、ジョブ終了後にインスタンスが自動解放されるためランニングコストを抑制しながら専門用語の穴埋めを高精度で行えます。

1 日 100 万文を数秒以内で返せれば良いという条件は単文レイテンシーより総スループットが重要です。SageMaker バッチ変換は ml.p4d など GPU インスタンス台数を指定し並列推論することで短時間のジョブ完了が可能で、従量課金は実行時間のみです。Bedrock や SageMaker リアルタイムエンドポイントは常時稼働分の料金やトークン課金がかさみやすいので、バッチワークロードでは Batch Transform の方がコスト最適化に寄与します。S3 入出力と IAM ロール設定だけでパイプラインを構成でき運用も簡潔です。

Amazon EMR や Amazon ECS で自己管理コンテナを動かす方法は、AMI パッチ適用、Spot 中断ハンドリング、スケール設定などの管理タスクが残ります。SageMaker JumpStart ならモデルアーティファクトと推論コンテナのライフサイクルを AWS が管理し、コンソールや SDK でジョブを起動するだけで済むため「最小運用」という非機能要件を満たしやすいです。Comprehend カスタム分類はあくまでクラス分け用で単語生成機能がない点も判断材料になります。

要件を総合的に眺めると、日本語対応した MLM の即時利用、100 万文を安価にバッチ処理できる課金形態、そして運用負荷を最小化できるマネージドサービスという三つの観点を同時に充足する選択肢が最適です。

カテゴリ: AIF-3.1基盤モデルを使用するアプリケーションの設計上の考慮事項を説明する。

1
2
3

【AIF-55】モバイルゲーム会社は、1分あたり最大2万件の日本語・英語混在チャットを即時審査する機能をAmazon Bedrockで構築する。
各判定は入力50トークン以内・応答20トークン以内、レイテンシー150 ms以下、コスト上限1 USD/100万トークン。
ファインチューニングは行わず、ポリシー全文をシステムプロンプトに埋め込む方法を採用する。
最適なモデル選択と推論パラメータの組み合わせはどれか。

Anthropic Claude 3 Haikuを用い、systemプロンプトにポリシーを記述し、temperature 0、top_p 0.2、max_tokens 20で推論する
Mistral Largeを使用し、temperature 1.0、top_p 1、stopシーケンス未設定、max_tokens 100で推論する
Amazon Titan Text Expressを利用し、systemプロンプトを最小化、temperature 0.7、top_p 0.9、stream無効、max_tokens 64で推論する
Meta Llama 3 70Bを採用し、temperature 0.9、top_p 1、stop未設定、max_tokens 200で推論する

カテゴリ: AIF-3.1基盤モデルを使用するアプリケーションの設計上の考慮事項を説明する。

1
2
3

【AIF-56】国内EC事業者はFAQ10万件(計500 GB)を活用した多言語チャットボットを構築したい。
月間推論50万回を2 秒以内で返却し、FAQは週1回追加される。
完全な再学習は不要で、初期および月次コストを最小化する構成を選びなさい。

Amazon Bedrock の Claude 3 をプロンプト内で RAG させ、FAQ を Amazon OpenSearch Serverless のベクトルインデックスへ保存し、週次バッチで再埋め込みする
Amazon Bedrock で Claude 3 を FAQ 全件でファインチューニングし、プロビジョンド同時実行 10 でリアルタイム推論する
Amazon SageMaker でオープンソース LLM を Spot インスタンスで事前学習し、ml.g5.2xlarge エンドポイントで推論する
Amazon Kendra Enterprise Edition のみで FAQ インデックスを構築し、検索結果をそのままフロントエンドへ返却する

カテゴリ: AIF-3.1基盤モデルを使用するアプリケーションの設計上の考慮事項を説明する。

1
2
3

【AIF-57】医療機器メーカーは Amazon Bedrock ナレッジベースで RAG チャットボットを開発中である。
月に 100 万件の PDF を S3 から取り込み、KMS で暗号化した埋め込みをフルマネージドで保存したい。
運用負荷を最小化できるベクトルストアはどれか。

Amazon OpenSearch Service の Serverless オプションでベクトル検索エンジンを有効化する
Amazon RDS for PostgreSQL に pgvector 拡張を追加しマネージドキーで暗号化する
Amazon DynamoDB に埋め込みを Base64 で格納し PartiQL で検索する
EC2 上の自己管理 OpenSearch クラスターを構築し SSE-KMS を設定する

ヒントボタン

Bedrock ナレッジベースは OpenSearch Serverless のベクトル検索エンジンとネイティブ統合しており、コンソールで S3 パスを指定するだけで取り込み・インデックス作成・RAG 検索が一気通貫に自動化されます。pgvector や DynamoDB を採用すると Lambda 連携や独自 API 実装を新規に用意する必要が生じ、月 100 万件の更新試験や監視が急増します。さらに両サービスのバージョン互換も自己検証しなければならないため、公式サポートの有無を早期に確認することが運用負荷削減の近道です。

医療データでは暗号化と監査が必須ですが、Amazon OpenSearch Serverless は標準で AWS KMS を使い透過的暗号化を行い、カスタマーマネージドキーに切り替えればローテーションも CloudTrail で追跡できます。RDS for PostgreSQL に pgvector を入れたり、EC2 で OpenSearch を自己管理する構成でも SSE-KMS は設定できますが、OS パッチやノード故障時のフェイルオーバーが利用者責任となりセキュリティ運用が広がります。鍵管理だけでなくパッチ適用までマネージドに委ねられるかを比較すると、監査対応工数の差が大きく表れます。

月 100 万 PDF から生まれる数億ベクトルを追加しつつ低レイテンシを維持するには自動スケールが不可欠です。OpenSearch Serverless はワークロードに応じてキャパシティユニットを動的に増減し、シャード数やノード台数を意識せずに済みます。pgvector では VACUUM やパーティショニング設計、EC2 上のクラスターではシャーディング計画とパッチ適用が利用者の責任になり、DynamoDB は近傍検索アルゴリズム自体を持ちません。取り込み自動化・KMS 暗号化・スケールアウト・保守作業を総合的に俯瞰すると、フルマネージドで Bedrock と公式連携するサービスを選ぶ判断が最も合理的であると導けるはずです。

カテゴリ: AIF-3.1基盤モデルを使用するアプリケーションの設計上の考慮事項を説明する。

1
2
3

【AIF-58】金融SaaS企業はBedrockで契約書（PDF換算500頁、約15万トークン）をワンショットで要約するAPIを開発している。
チャンク分割を避け、10秒以内に1リクエスト完結させたい。
過去検証から呼び出しは1日100回程度でコスト増は許容範囲と判断している。
レイテンシよりも一度に全コンテキストを与えることを重視する。
どの基盤モデルを選択すればコンテキストウィンドウ制約を満たせるか。

AI21 Labs Jurassic-2 Ultra を採用し、最大 8k トークンのプロンプトで要約を実現する
Amazon Titan Text Express を採用し、最大 8k トークンの制限内に文書を分割して要約を実現する
Anthropic Claude 3 Opus を採用し、最大 200k トークンのプロンプトに全文を投入して要約を実現する
Cohere Command Light を採用し、最大 4k トークンへ重要部分のみ抽出して要約を実現する

カテゴリ: AIF-3.1基盤モデルを使用するアプリケーションの設計上の考慮事項を説明する。

1
2
3

【AIF-59】小売企業は店内1,000台のエッジカメラで棚在庫をリアルタイム判定したい。
各デバイスは CPU2コア・RAM1 GB・断続的回線のみで、推論レイテンシー50 ms以下が必須。
事前学習済み画像モデルを微調整後、クラウド接続時にのみ更新し、運用負荷とメモリを最小化したい。
最適な実装はどれか。

SageMaker Neo でモデルを最適化し、AWS IoT Greengrass V2 コンポーネントで配布し、SageMaker Edge Manager でライフサイクルを管理する
Amazon Bedrock の画像分類モデルを選択し、Direct Connect 経由で各デバイスから直接呼び出す
SageMaker Studio に推論エンドポイントをマルチ AZ で構築し、WebSocket で全デバイスから推論要求を送る
Lambda@Edge にコンテナ化した PyTorch モデルを配置し、CloudFront オリジンとしてデバイスに結果を返す