ブックマークページはこちら
正解番号の相違等のご報告はコメントでいただけますと幸いです。技術質問は会員制コミュニティで対応しております。
9/1 「カテゴリ別問題」をリリースしました。内容は「10問単位」と同様です。
19問中 0問が回答されています
質問:
You have already completed the テスト before. Hence you can not start it again.
問題を読み込んでいます…
You must sign in or sign up to start the テスト.
まず、次の操作を完了する必要があります:
正解数 0/問題数19
回答にかかった時間:
終了時間となりました
回答お疲れ様でした。
Earned Point(s): 0 of 0, (0)
0 Essay(s) Pending (Possible Point(s): 0)
1. 1 秒あたり 5 万件という高スループットのクリックデータを継続的に取り込むには、シャードを増減するだけでスループットを水平拡張できる Amazon Kinesis Data Streams が代表的です。フルマネージドで EC2 を立てずに済み、レイテンシは数百ミリ秒と短く、AWS Lambda などへのファンアウトも標準機能で行えるため運用負荷を低く抑えられます。
2. 取り込んだストリームを数秒以内にダッシュボードへ反映させる場合、インメモリキャッシュ SPICE を備え SaaS 形式で利用できる Amazon QuickSight が便利です。Kinesis から直接リアルタイムクエリが可能なため、データベースやクラスターを別途用意せずに即時可視化ができ、BI サーバや ETL ジョブの管理から利用者を解放してくれます。
3. Apache Spark on Amazon EMR や 自己管理 Kafka on Amazon EC2 は柔軟性が高い一方でノード管理・パッチ適用などクラスター運用が必要となり、SageMaker Ground Truth はデータラベリング目的でストリーム分析とは性質が異なります。クリックログを数秒以内に可視化しサーバレスで保守コストを抑えるという複数要件を俯瞰すると、取り込みから可視化までフルマネージドで連携できるサービスの組み合わせが最も適切だと結論づけられます。
自然言語検索を高レイテンシーで安定提供するには、ユーザーの問い合わせフレーズを意味的に解釈し、文書スコアリングを高速に行う仕組みが求められます。Amazon Kendra は PDF や Word といった非構造データをコネクタ経由で直接取り込み、OCR や NLP を自動実行しながらマネージドなインデックスを構築します。FAQ エンドポイント API はマイクロ秒オーダーで回答候補を返し、裏側のノード数は自動的に調整されるため運用負荷をほとんど意識せずに済みます。
Amazon Athena と AWS Glue Data Catalog を使えば S3 上のオブジェクトを SQL で解析できますが、PDF のフルテキストを列として展開する前処理や CTAS によるキーワード索引が必要となり、50 QPS を 100 ms 未満で捌くにはクエリごとにスキャンが発生して遅延が大きく、しかもワーカー台数の調整やパーティション管理の運用が欠かせません。対してフルマネージド検索用に調整済みのエンジンを選べば、インジェストと問い合わせの規模が増えても自動的にスケールし SLA を守りやすくなります。
チャットボットを構築する Amazon Lex や手動プロビジョニングが必要な Amazon Elasticsearch Service もユースケースとしてはあり得ますが、意図認識やクラスタ管理など追加作業が多く、本質であるドキュメント検索の応答速度保証に直結しません。今回は20万件という中規模コーパスと毎秒50リクエストというスループットを最小運用で捌く要件を俯瞰し、自然言語最適化済み・フルマネージド・レイテンシー検証済みのサービスを中心に選定するのが総合的に妥当と言えます。
1分以内に毎時50万件のクリックを可視化するにはバッチではなくストリーム処理が前提です。Amazon Kinesis Data Streams は取り込みスループットを自在にスケールでき、シャード数で約1000TPSまで伸ばせるため1秒あたり140件程度のログなら余裕があり、かつマネージドなのでサーバ管理が不要です。さらにデータファイアホースを介さず直接メモリ内で集約すれば遅延は数秒に抑えられ、料金も使用したシャード数とPUTレコード数だけで済むため低コスト要件にも適合します。クラスタ型の処理基盤と比べ起動時間がなく、プロビジョニングやパッチ適用といった運用労力が大幅に削減できる点も検討の決め手になります。
Apache Spark Streaming を動かす Amazon EMR や AWS Glue の ETL は強力ですが、ジョブ開始までのウォームアップやクラスター課金が発生しがちです。可視化対象がリアルタイムに近く、常時流入するログを遅延なく扱う場合は、スケールイン・アウトが秒単位で行える Kinesis 系サービスのほうが単価とオペレーションコストを抑えやすい特徴があります。Glue から Athena に落として QuickSight に接続すると最短でも数分単位の更新となり、クリック精度の高いマーケティング分析には向きません。Lambda と S3 のバケツを挟むパターンもファイルローテーションの時間がボトルネックになります。
ダッシュボード側の Amazon QuickSight は SPICE を用いて定期フェッチもできますが、リアルタイムグラフを作るなら Kinesis Data Streams や Kinesis Data Analytics から直接統合し Ingestion API で秒単位に反映させる構成が推奨です。ストリーム→可視化の最短経路を取ることで1分以内という SLA を守りつつ費用はシャードと QuickSight セッションの従量課金だけに収まり、総合的にサーバ管理不要・低コスト・リアルタイム表示という要件をバランス良く満たせます。
【CLF-345】EC企業は1時間1TBで増えるクリックログをS3に保存している。
BIチーム50名が同時に即席SQLを実行し、60秒以内に結果を得たい。
管理作業を最小化し従量課金を優先する分析基盤はどれか。
生データがすでに Amazon S3 にあり、取り込みやフォーマット変換を待たずに即座に SQL を発行したい場合は、AWS Glue Data Catalog でテーブルを定義し、サーバレスかつクエリ課金のみで動作する Amazon Athena を利用すると、ログが1時間1TBのペースで増えてもストレージとコンピュートを分離したまま即時分析が可能になり、クラスター管理やパッチ適用といった運用負荷を抑えられます。
同時に50名が60秒以内の応答を求めるケースでは、Athena のワークグループとエンジンバージョン3が持つコンカレンシー拡張によって裏側で自動的に実行環境がスケールし、スキャンデータ量に応じた従量課金だけが発生します。常時起動が前提の Amazon EMR やプロビジョンドの Amazon Redshift をピークに合わせて大きくすると、アイドル時間にもノードコストが発生する点を思い出しましょう。
複数案を俯瞰すると、Kinesis Firehose での取り込みや AWS Glue ETL の変換、HDFS や Redshift ノードの容量確保、Lambda の同時実行管理などは1TB/時のスループットと同時50接続を両立させるうえで追加運用が増えがちです。一方、Athena と S3 と Glue Data Catalog の組み合わせはロード不要・フルマネージド・クエリ従量課金という特性により、低コストで60秒以内の応答と最小管理を同時に満たせるという総合判断に至ります。
毎時100万レコードを30秒以内に集計するには、ファイル完成を待つバッチよりストリーミング処理が適しています。Amazon Kinesis Data Streams と Kinesis Data Analytics は受信しながら SQL で解析でき、シャード追加のみで水平拡張が可能です。クラスタ管理が必要な Amazon EMR やポーリング前提の Amazon SQS ではノード監視やレイテンシ調整など運用負荷が増えやすい点を思い出してください。
6か月分の視聴ログから継続率を推定する機械学習では、前処理からハイパーパラメータ探索まで自動で行えるサービスが運用を軽くします。SageMaker Autopilot は S3 に置くだけで多数モデルを生成・比較し、API エンドポイントまで用意できます。Amazon Forecast は時系列専用、Redshift ML はクラスター容量計画が必要、自前 TensorFlow on EC2 はパッチ適用やライブラリ更新の手間が残ることを整理しましょう。
可視化面では Amazon Athena と QuickSight を使えば S3 上のストリーミング出力をサーバレスで即時クエリしダッシュボードを自動更新できます。Lambda で CloudWatch カスタムメトリクスを吐き続ける方法や Zeppelin 用 EC2 を維持する方法に比べ、インフラ管理対象がなくコスト最適化もしやすいです。取り込み・解析・保管・機械学習・BI を一貫してフルマネージドで構成できる案が総合的に最小運用となるかを俯瞰して判断してください。
Amazon S3 に置いた Parquet フォーマットのデータをスキーマオンリードでそのまま SQL できるマネージドかつサーバーレスの分析基盤としては Amazon Athena が代表的です。Glue Data Catalog でテーブル定義だけ行えば ETL や COPY は不要、Presto エンジンが列指向圧縮の利点を活かして高速に実行し、課金はスキャン量ベース、クラスターのプロビジョニングやスケーリングといった運用作業もなく、パーティションプルーニングを組み合わせれば 1 TB 規模でも 30 秒程度の応答が見込めます。
Amazon Redshift RA3 ノードは AQUA や Redshift Spectrum により外部データ連携も可能ですが、S3 に毎日追加されるファイルを即時に分析するには COPY や AUTO COPY のスケジュール、VACUUM・ANALYZE のメンテナンス、クラスタサイズ調整などの運用が必要です。常時クラスタ料金が発生するため、数十秒クエリを時折実行する程度のワークロードではコストとオペレーションの両面で過剰になりやすい点を念頭に置いてください。
Parquet の列指向圧縮と Amazon S3 をそのまま活用し、1 TB/日の追記スループット・30 秒以内のレイテンシ・運用負荷最小化という複数条件を同時に満たすには、Amazon Athena などサーバレスでスキーマオンリードのサービスを採用し、パーティション設計と Glue データカタログ管理に注力する構成が総合的に最も合理的と判断できます。
S3に置かれた50TBのログを毎日追記しつつ数秒で集計するには、データを移動せず直接スキャンできるサーバーレス分析基盤が有利です。Amazon AthenaはPrestoベースで自動スケールし、クエリ時間分だけ課金されるため運用負荷を抑えられます。ETLやインデックス管理が不要で、CTASやパーティション投影を活用すれば日次3億行の追加でも高いパフォーマンスを維持できます。
経営陣100名が自然言語でKPIを質問できる仕組みを考えると、BIツール側に自然言語理解を持つ機能が必要です。Amazon QuickSight Qは英語や日本語で「昨日の視聴完了率」などを尋ねればSPICEキャッシュで即座に可視化し、サーバー管理も不要です。Athenaと組み合わせればS3データを直接可視化でき、ライセンス管理や専用インフラの構築を省けます。
Amazon Redshift RA3やAmazon EMR on EC2は高性能ですがノードサイズ選定やパッチ適用などの運用が残ります。AWS GlueでAurora MySQLへロードする案はストレージや同時接続数がボトルネックとなり、Tableau ServerやGrafanaは別途サーバー・ライセンス管理が必要です。可用性、コスト、運用工数、自然言語分析という複数要件を俯瞰すると、完全サーバーレスでQuickSight Qを利用できる構成が総合的に最適と言えるでしょう。
【CLF-349】製造業者は IoT センサ 1,000 台から毎秒 10 MB を取込み 1 秒以内に異常検知し、S3 に保管する過去 2 TB の Parquet へ随時 SQL 解析を行う。
運用負荷を最小化しスケールを自動化するため、採用すべき AWS サービスを 2 つ選びなさい。
1,000 台の IoT センサーが毎秒 10 MB を吐き出すストリームを 1 秒以内に評価するには、Amazon Kinesis Data Streams で取り込み、Amazon Kinesis Data Analytics で Flink アプリや SQL を書いて異常値を抽出する方式がサーバーレスかつオートスケールで管理が楽です。スループットはシャード増減だけで調整でき、可用性はマネージドで確保されるため、運用者がノード障害やパッチを気にする必要がありません。秒間レイテンシーが小さく、データは直接 Amazon S3 や AWS Lambda に流し込めるので後段の分析基盤とも連携が容易です。
過去の 2 TB の Parquet に加え、今後 S3 に継続的に増える履歴も同じ SQL で調べるなら、Amazon Athena が最もシンプルです。クラスターを立てずに S3 上にある列指向ファイルを直接スキャンし、クエリ実行分だけ課金されるためコストが予測しやすいです。AWS Glue Data Catalog でテーブル定義を登録しておけば、新しいパーティションも自動検出され、ユーザは Presto 互換のクエリを発行するだけで済み、スキーマ変更にも柔軟に追随できます。
リアルタイム検知、過去データ分析、自動スケール、低運用負荷という複数の要件を並べて比較すると、ストリーミング領域を Kinesis Data Analytics で処理し、長期保存は Amazon S3 に置いたまま Athena で問い合せる構成が、Spark クラスターや Amazon Redshift のようなノード管理やロード手順を省略でき、可用性と拡張性の両立という総合的な観点で最適解に近づきます。
【CLF-350】動画配信会社は10万件/分のSNS投稿を3秒以内に感情分析し、日次ダッシュボードで可視化する必要がある。
コスト最適化とフルマネージド運用を重視する。
同社が採用すべきAWSサービスを2つ選べ。
毎分10万件という大規模ストリームを3秒以内に処理するには、Amazon Kinesis Data Streams や Amazon Kinesis Data Firehose で取り込んだテキストを、そのまま学習済みモデルを備えた Amazon Comprehend のリアルタイムエンドポイントに流す運用が効率的です。サーバー管理は不要で自動スケールし、プロビジョンドスループットも設定できるためピーク時でもレイテンシとコストのバランスを保ちやすいです。
日次で可視化するダッシュボードは、Athena や S3 に置いた集計結果を SPICE インメモリエンジンに取り込んで高速描画できる Amazon QuickSight が向いています。サーバーレスでアップグレード作業がなく、閲覧者やセッション数に応じた柔軟な従量課金モデルなので、固定クラスター型のデータウェアハウスよりもコスト最適化を図りやすく、メール配信や自動リフレッシュといった運用機能も標準装備です。
要求を整理すると「3秒以内のリアルタイム感情分析」「日次での可視化」「フルマネージド」「コスト最適化」を同時に満たす必要があります。分析エンジンとしてはコードやインフラを持たずに短時間推論ができる Amazon Comprehend が最もシンプルで、可視化層にはノード管理が不要な Amazon QuickSight が適合します。EMR や Redshift Spectrum などの自前クラスターは運用負荷やスケール調整のコストが増えやすいため、これら二つのサーバーレスサービスを組み合わせるのが総合的に理にかなっています。
秒間十万という高スループットを受け止めつつオペレーションを最小化したい場合、フルマネージドでシャード数を動的に伸縮できる Kinesis Data Streams が取り込みに向いています。常時稼働が必要な EMR や Glue のジョブはクラスター/ジョブの運用が発生するため管理負荷の観点で比較すると優位性が下がります。また、メッセージの順序保持やリプレイもサービスが吸収するため、Kafka の運用を気にせずコスト計算もシンプルです。
可視化まで 1 分以内という要件では、取り込んだデータを数秒単位でウィンドウ集計しながら S3 へ吐き出す必要があります。SQL で設定できる Kinesis Data Analytics なら自動スケールで遅延を抑えられ、Spark Streaming のチェックポイント管理や Lambda の同時実行調整のような細かい保守が不要です。さらに Firehose 連携で Parquet 形式を選べば後段クエリのパフォーマンスも確保できます。
過去 1 年分を対話的に掘り下げる場面では、S3 に保存したパーティション付きデータを QuickSight で SPICE もしくは Athena 経由で読み込み、利用者がその場で SQL を発行できると運用が楽です。Redshift を常時起動したり Elasticsearch ノードを監視したりする構成と比べランニングコストを抑えられ、可用性もサービス側で担保されます。取り込み、集計、保存、BI の各要素をフルマネージドでつなぎ、スケールと低運用の双方を満たす流れを選ぶのが総合的に最も妥当と判断できます。
【CLF-352】動画配信企業は S3 に日次 2 TB のログを保存している。
インフラ管理を最小化し、平均 10 秒以内で臨時 SQL 解析を行う必要がある。
最適なサービスはどれか。
インフラ管理をほぼゼロにしたい場合、EC2 台数の調整やクラスターのプロビジョニング、パッチ適用といった運用作業が発生するソリューションは工数が大きくなります。Amazon S3 に 2 TB/日 で追加されるログをそのまま動かさず ANSI SQL で即座に解析でき、サーバレスで自動スケールし、スキャン量にだけ課金されるサービスを思い浮かべてみてください。
平均 10 秒以内でクエリを開始するには、データをロードしてから実行する Amazon Redshift や Amazon RDS のような方式では取り込み時間がボトルネックになりがちです。AWS Glue Data Catalog を登録しておけば、Amazon Athena はファイル到着直後でも読み込みなしで実行でき、スキャン量課金でコストも抑えられるため「すぐに問い合わせたい」という要件と相性が良いです。
要件を整理すると「S3 に既に保管」「インフラ運用を最小化」「アドホック SQL 解析」「開始まで数秒」の四つです。Athena、Redshift、EMR、RDS などの特徴を並べ、データ移動の有無やクラスター起動時間、管理作業量を比較すると、サーバレスで準備時間ゼロかつデータコピー不要という特性を同時に満たせるサービスが自然に浮かび上がるはずです。
【CLF-353】小売企業はS3に1日200万行のCSVを蓄積し、SQLで即時分析しダッシュボードに表示したい。
サーバー管理を最小化し、クエリ毎課金を求めている。
最適なサービスはどれか。
Amazon Athena は S3 上の CSV ファイルに対してクエリを投げた瞬間に実行基盤が自動確保され、CREATE EXTERNAL TABLE でスキーマを定義するだけでロード不要の SQL 分析が可能です。前払いのノードやクラスター管理は不要で、読み取ったデータ量に対するクエリ毎課金なので、1 日 200 万行の追加にも自動的に対応し、QuickSight と組み合わせればダッシュボードを即時更新できます。オブジェクトはデータレイクとして保管され続け、Presto ベースのエンジンで高速に処理されます。
Amazon Redshift や Amazon EMR も S3 データを読み込めますが、ノード数の計画、Auto Scaling 設定、パッチ適用、障害監視などインフラ管理タスクが必須です。Redshift Spectrum は外部テーブルを扱えるものの、背後で動く Redshift クラスターが常時稼働するため非稼働時間でも課金が発生します。Glue DataBrew は GUI で変換を支援するサービスで本格的な SQL 分析や大量データのリアルタイム可視化が主目的ではありません。運用を抑えつつ利用時だけ支払いたい場合は、完全サーバーレスな仕組みが最有力となります。
要件は「S3 に蓄積した膨大な CSV をロードレスで即座に SQL 分析しダッシュボードへ出力」「サーバー管理を最小化」「実行量ベース課金」の三点です。Amazon Athena は Serverless、Pay-Per-Query、Schema-on-Read、QuickSight 連携というキーワードがすべて当てはまります。複数のサービス特徴を横断的に照合し、最もシンプルに全条件を達成する選択肢を見極める総合判断の視点で考えてみてください。
秒間五万件という高スループットをサーバーレスで受け取り自動スケールしつつバッファリング後ほぼ即時に永続化したい場合、Kinesis Data Firehose を使って Amazon S3 に直接書き込む構成ならエージェント管理やシャーディング調整が不要で、圧縮・暗号化・パーティション分割もマネージドで行われるため運用工数とコストを同時に抑えられます。
投入後 1 分以内に SQL で問い合わせたい場合、S3 に置かれたオブジェクトを Glue Data Catalog でテーブルとして定義し、フルマネージドで即時実行できる Amazon Athena によりクエリを投げれば、プロビジョニング不要で秒単位課金となるため固定費がなく、QuickSight から直接データセットとして接続すれば可視化までの遅延を最小限にできます。
Flume を走らせる EMR クラスターや MySQL、Redshift などの常時稼働型リソースはピークトラフィックに合わせたキャパシティ確保やパッチ適用が必要になる一方、Kinesis Data Firehose+S3+Athena の完全サーバーレスパイプラインはスループットに応じた従量課金でスキーマオンリードも可能となり、設問の運用最小化とコスト最適化という複数要件を総合的に満たしています。
医薬系ドキュメントのように専門用語が多彩でも、利用者は「○○の手順は?」と自然文で尋ねたいはずです。Amazon Kendra はフルマネージドで高度な NLP が標準装備され、S3 や SharePoint などを数クリックでクロールし自動インデックスを構築します。透過的にスケーリングし、数十万件規模でも平均応答は 200ms 程度を維持できるため、検索ポータルの即時性と可用性を両立できます。
1日あたり1万件もの版更新がある場合、差分取り込みの自動化が運用負担を左右します。Amazon Kendra には継続的クローラとインクリメンタル更新が備わり、ドキュメントが S3 に置かれた時点で自動反映されます。Glue や Lambda でのバッチ実装、OpenSearch Service のシャード調整、SageMaker でのモデル再訓練といった作業が不要となり、最小限の運用で高精度検索を維持できます。
OpenSearch Service では関連度の手動調整やノード管理、SageMaker ではトレーニングとパイプライン保守、Athena ではフルスキャンによるレイテンシが課題となります。50万件規模・1万件/日の更新・200ms 以内・自然言語対応・運用最小化という複数条件を総合的に満たすフルマネージド検索サービスを選ぶのが最も合理的です。
1TBものAmazon S3ログを毎日追加しながら秒単位で50名が同時にSQLを投げる状況では、Amazon Athenaのサーバレスかつ分散実行が真価を発揮し、S3に置いただけのデータへスキーマ定義するだけで即時クエリが可能、クラスター管理やETLも不要でスキャン量課金のため突発的な高並列アクセスでも運用負荷とコストを最小化でき、ダッシュボード連携も容易です。
機械学習モデルを素早く試作し継続的に改良するには、Amazon SageMakerが提供するマネージドノートブック、組み込みアルゴリズム、学習ジョブの自動リソースプロビジョニング、ハイパーパラメータ自動調整、パイプライン統合を活用することでGPUやTensorFlow環境構築を気にせず開発から本番展開までを低運用で行えます。
サーバレス分析基盤のAthenaとデータレイクのS3に直接アクセスしてログを捌き、その結果をマネージドML基盤SageMakerへ流すワークフローは、即時性・スケーラビリティ・学習インフラ自動化・費用効率という複数の必須要件を俯瞰したときに最もバランスが良い組み合わせと言えます。
Amazon AthenaはAmazon S3に置いただけのログファイルをAWS Glue Data Catalogで定義すれば即座に標準SQLを実行できる完全サーバレス分析サービスです。サーバー運用やパッチ管理は不要、課金はクエリで読み取ったデータ量のみで済み、列指向フォーマットParquetやパーティションを併用すれば1日200GB規模でも低コストかつ高速に処理でき、QuickSightへはネイティブ接続で数クリックです。
Amazon RedshiftのRA3ノードは高性能ですがクラスタを常時稼働させる前提のため、バッチアクセス中心でアイドル時間が長いとノード料金が固定費になりがちです。Redshift SpectrumでS3外部テーブルを参照できても、スナップショット取得やメンテナンスウィンドウ、ノードサイズ計画などの運用タスクが残る点が「運用負荷を最小化」という要求とややズレることを意識して比較してください。
Amazon EMRでApache Hiveをオートスケール運用する方法は柔軟性が高いものの、マスターノードのライフサイクル管理、AMI更新、セキュリティパッチ適用、ジョブフロー設定などの作業が利用者側に残ります。またKinesis Data Analyticsはストリーミング向けで、既にS3に蓄積されたバッチログをAd-hocに分析するユースケースとは対象が異なるため、要件を整理するとオーバースペックになりやすいです。
保存済みログにサーバレスで直接SQLを投げ、必要時だけ課金されQuickSightへシームレスに可視化できるかという複数要件を俯瞰すると、S3へのネイティブ接続と運用レスを実現するサービスが総合的に最も適していると判断できます。
【CLF-358】多国籍企業はS3に保管する1万件のPDFからFAQを検索できる社内ポータルを構築したい。
毎日100件の新規PDFが追加される。
機械学習運用を最小化し、コストを抑えつつ日本語と英語で自然言語検索を提供する最適なサービスはどれか。
ドキュメントが保存されている Amazon S3 から PDF を自動クロールし、日本語と英語を問わず意味検索できるインデックスをフルマネージドで構築し、利用者は自然文の質問を入力するだけで FAQ を抽出できるようにするなら、追加のモデル訓練やサーバ管理を要さず従量課金で済む Amazon Kendra の S3 コネクタが運用負荷とコストの両方を大幅に下げ、毎日 100 件の増分も標準スケジューラで容易に取り込めます。
Amazon Lex と AWS Lambda を組み合わせれば対話型 UI は作れ、Amazon Comprehend でエンティティ解析も行えますが、FAQ 検索では PDF のテキスト抽出、全文インデックス、マルチランゲージ照合、日次差分更新、ランキング調整など多層のパイプラインを自前で維持する必要が生じるため、これらを一括で肩代わりするフルマネージド検索サービスを選ぶことで実装工数と運用コストを最小化できます。
マネージド度、自然言語検索の精度、増分同期の容易さ、多言語対応、初期構築と継続運用コストという複数の軸で比較すると、データソースを指定するだけで質問応答を即座に公開できる Amazon Kendra が、独自トレーニングが前提の Amazon SageMaker やクラスタ管理が必要な Amazon OpenSearch Service を使う案より総合的に要件に合致していると判断できます。
1行目
1日1億件という高スループットを秒単位で捌くにはストリーミング処理が不可欠です。Amazon Kinesis Data Streams が取り込みを担い、Kinesis Data Analytics の SQL で即時集計、結果を SPICE キャッシュ付きの Amazon QuickSight に流せばリアルタイムダッシュボードが構築できます。全てサーバレスで、プロビジョンやパッチ適用の手間がなく初期コストも従量課金に抑えられます。
2行目
FAQ 用チャットボットを短期間で公開するなら対話管理と音声認識・自然言語理解をマネージドで提供する Amazon Lex が最小工数です。GUI でインテントを定義し Lambda で動的回答を返せば数日で MVP が完成します。Polly は音声合成、Connect Wisdom はオペレータ支援、DeepRacer は学習用ロボットと用途が異なるため、FAQ チャットという要件にダイレクトに合うのは Lex です。
3行目
初期費用と運用負荷を最小化する観点では、スケール自動化された Amazon Kinesis、Kinesis Data Analytics、QuickSight、Lex の連携が有力です。Amazon EMR やプロビジョン型 Redshift はクラスタ管理や容量計画が必要で費用が先行しがちです。リアルタイム可視化と早期チャットボット公開という複数要件を総合的にみると、完全マネージドかつストリーミング志向のサーバレス構成が最適と言えるでしょう。
毎時50万件は毎秒約140件のストリームです。この規模を3秒以内に受け取るには、シャードを増減して自動的にスループットを確保できる Amazon Kinesis Data Streams が最適です。プロデューサは PutRecord するだけでバッファされ、コンシューマは同一ストリームから即時読取り可能、Firehose や Lambda 連携で追加加工もノーオペレーションで実現できます。
日本語レビューの極性抽出には日本語対応 NLU が必要です。Amazon Comprehend のリアルタイムエンドポイントは数十ミリ秒で感情スコアを返し、同時実行数の設定で水平スケールするため高スループットでも遅延を抑えられます。画像を扱う Amazon Rekognition や翻訳に特化した Amazon Translate を経由すると余分な変換工程が増え、3秒以内という制約が厳しくなります。
取得したスコアをすぐ可視化するにはサーバレス BI の Amazon QuickSight が便利で、DirectQuery で Kinesis Data Streams や Athena に接続すれば数秒レベルでダッシュボードを更新できます。EMR や自前 Grafana はクラスター運用やパッチ適用が伴いコストも増大しがちです。ストリーミング取り込み、低遅延感情分析、即時可視化の三条件をすべてフルマネージドかつ従量課金で満たせる組み合わせこそ最終的に最も適切な選択になります。