米Microsoftは12月5日(現地時間)、「Copilot Vision」のプレビュー提供を開始した。Edgeブラウザのユーザーが開いているWebページを、Copilotがリアルタイムでスキャンして分析し、さまざまなアシスタントを提供する。米国においてCopilot Labsを通じて一部のCopilot Pro加入者に向けた提供を開始し、フィードバックを収集しながら段階的に展開を進めていく方針である。

Copilot Visionを利用することで、Copilotとチャットしながら効率的にWebから情報を収集できる。例えば、旅行の計画を立てる際に、「ニューヨークに行こうと計画しているんだけど、何から始めるべき?」と質問し、「(Airbnbのページを見ながら)スーパーホストって表示は何を意味するの?」と尋ねるなど、Webページを行き来することなく即座に回答を得られる。Copilotは質問に答えるだけでなく、ページの内容を要約したり、アイディアにコメントするなど、多様な支援を提供する。また、「GeoGuessr」(ランダムに選ばれたGoogleストリートビューの画像から、その場所を推測するゲーム)で、ユーザーと共に考え、答えを見つけるためのアイディアを提供するなど、ゲームアシスタントとしても機能する。

Copilot Visionは、AI活用の今後の大きな可能性として注目を集める「AIエージェント」の一例といえる。

AIエージェントは、特定の目的を達成するために動作するAIシステムである。単なるチャットボットや音声アシスタントとは異なり、環境からの情報を受け取り、分析し、適切な行動を選択して実行する。情報収集の支援、業務の効率化、パーソナライズしたエンターテインメントの提供、教育・学習支援など、日常生活からビジネスまで幅広い分野での活用が期待されている。

その一方で、タスクを遂行するために画面スキャンを必要とするAIエージェントに対し、プライバシーやセキュリティの懸念が多く指摘されている。そのため、MicrosoftはCopilot Visionを提供する上で、信頼と安全性を重視した設計を強調しており、慎重に展開を進める姿勢を示している。

Copilot Visionは常時オンではなく、ユーザーがセッションを開始した際にのみアクティブになる。セッション中は、ブラウザのフレームにインジケータが表示され、Visionがアクティブであることを明示する。

セッションデータとして記録されるのはAIモデルの応答ログのみであり、ユーザー入力、画像、コンテキストが記録・保存されることはない。Copilot VisionのセッションでアクセスしたWebサイトのデータをモデルのトレーニングに使用することもない。

有害なサイトや違法なトピックで、Copilot Visionを利用することはできない。ユーザーの安全確保および著作権侵害の防止の観点から、初期段階では利用可能なWebサイトを厳選し、対象サイトのリストを慎重に拡大していく計画である。