10問中 0問が回答されています
質問:
You have already completed the テスト before. Hence you can not start it again.
問題を読み込んでいます…
You must sign in or sign up to start the テスト.
まず、次の操作を完了する必要があります:
正解数 0/問題数10
回答にかかった時間:
終了時間となりました
回答お疲れ様でした。
Earned Point(s): 0 of 0, (0)
0 Essay(s) Pending (Possible Point(s): 0)
おめでとう!ポイントが1追加されました!
【MLS-141】あるデータサイエンティストはストリーミングWebトラフィックデータを取り込むためのパイプラインを開発しています。
パイプラインの一部として、異常なWebトラフィックのパターンを識別するプロセスを実装する必要があります。
このパターンは、下流でアラートとインシデント対応に使用される予定です。
データサイエンティストは、必要に応じてラベル付けされていない履歴データにアクセスすることができます。
ソリューションでは、次のことを行う必要があります。
・各ウェブトラフィックエントリの異常スコアを計算する。
・異常イベントの識別を時間と共に変化するウェブパターンに合わせる。
これらの要件を満たすためにデータサイエンティストが実装すべきアプローチはどれでしょうか?
あるデータ分析会社は、主要な顧客のためにRedshiftデータウェアハウスを運用しています。
顧客の事業継続プログラムに準拠し、24時間のRPO(Recovery Point Objective)と1時間のRTO(Recovery Time Objective)を提供する必要があります。
AWSリージョン全体がダウンした場合でもデータウェアハウスは利用可能でなければなりません。
設問に最も適した構成は次のうちどれでしょうか。
【MLS-143】ある企業が、自動音声認識(ASR)を使って、ボイスメール形式のアプリケーションから60秒未満のメッセージを書き起こそうとしています。この企業は、200のユニークな製品名を正確に識別する必要があり、その中にはユニークな綴りや発音があります。この企業は、選択したASRモデルをカスタマイズするために使用できる4,000語のAmazon SageMaker Ground Truthボイスメールのトランスクリプトを保有しています。この会社は、全員が毎時何回もカスタマイズを更新できるようにする必要があります。開発段階で転写の精度を最大限に高めるには、どのようなアプローチを取るべきでしょうか?
【MLS-144】あるデータサイエンティストが、患者の治療情報に基づき、年齢とともに悪化することが知られている特定の疾患を持つ65歳以上の人々の将来の転帰を予測する機械学習モデルを開発しています。
学習に用いるデータには、4,000人の患者の転帰が含まれており、予測結果は連続値として出力する必要があります。
開発初期段階のモデルでは、転帰予測の精度は期待を下回りました。
データを確認すると、450人の患者の年齢が0となっていましたが、他のデータは正常でした。
モデルの転帰予測の精度を向上するために、データサイエンティストが取るべき手法はどれですか?
【MLS-145】ある小売企業が、グローバルなオンラインマーケットプレイスを通じて商品を販売しています。この会社は、機械学習(ML)を使用して、顧客からのフィードバックを分析し、改善のための特定の領域を特定したいと考えています。ある開発者は、オンラインマーケットプレイスから顧客レビューを収集し、Amazon S3バケットに保存するツールを構築しました。このプロセスにより、40件のレビューのデータセットが生成されます。MLモデルを構築するデータサイエンティストは、データセットのサイズを増やすために追加のデータソースを特定する必要があります。(3つを選んでください)。
あなたは現在いくつかのCloudFormationテンプレートを使用しており、VPCサブネット、Elastic Load Balancers、Auto Scalingグループなどのリソースを含むスタックを作成するために使用されています。
すべてのリソースを一度に構成してスタックをデプロイするように改修を予定しています。
一方、情報の共有はこのスタックグループ内に限定する必要があります。
つまり、スタックグループ外の他のスタックは、そのリソースをインポートできません。
例えば、あるスタックがVPCサブネットのリソースを作成し、このサブネットはスタックのグループからのみ参照できるようにしたいと考えています。
これを実装する最良の方法は何ですか?
【MLS-147】ある企業は、大量かつ様々な形式の紙の領収書を画像に変換しています。同社は自然言語処理(NLP)に基づくモデルを作成し、日付、場所、メモなどの関連するエンティティ、および領収書番号などのいくつかのカスタムエンティティを見つけたいと考えています。しかし、文書の構造や形式はさまざまであり、文書の種類ごとに手動でワークフローを設定することが課題となっていました。さらに、同社はカスタムエンティティを検出するために、少ないサンプル数で固有表現抽出(NER)モデルを学習させました。このモデルは信頼度が非常に低く、大規模なデータセットで再トレーニングが必要です。
テキスト抽出と固有表現検出を行うため方法として、どのソリューションが最も少ない労力で実現可能でしょうか?
【MLS-148】ある企業は、マーケティングキャンペーンのための機械学習モデルを訓練し、ホストするためにAmazon SageMakerを使用する予定です。データは静止状態で暗号化されている必要があります。データのほとんどは、機密性の高い顧客データです。同社は、AWSが暗号化キーの信頼ルートを維持し、キーの使用状況を記録することを望んでいる。どのソリューションが、最小限の運用オーバーヘッドでこれらの要件を満たしますか?
【MLS-149】ある金融会社がある商品の価格を予測する必要があります。
この会社は過去の日次価格のデータセットを蓄積しています。
データサイエンティストは80%のデータセットで様々な予測モデルを訓練し、残りの20%のデータセットでそれらのモデルの有効性を検証しなければなりません。
データサイエンティストは、モデルの性能を比較するために、データセットをどのようにトレーニングデータセットと検証データセットに分けるべきでしょうか?
【MLS-150】あるオンライン再販業者は、大規模な複数列のデータセットを持っており、その中の1つの列はデータの30%が欠落しています。機械学習のスペシャリストは、データセット内の特定の列を使用して欠損データを再構築することができると考えています。スペシャリストは、データセットの整合性を保つためにどの再構築アプローチを使用するべきでしょうか?