Computer Use 〜OpenAI と Anthropic の比較と将来の展望〜レポート

Insight

2025 年 5 月 1 日に開催されたオンラインイベント「Computer Use 〜OpenAI と Anthropic の比較と将来の展望〜」では、LLM（大規模言語モデル）がコンピューターやブラウザを操作するための新領域「Computer Use（あるいは Browser/Computer Use）」が注目を集めている背景と、現在公開されている OpenAI・Anthropic 両社のアプローチや技術的な論点が紹介されました。登壇者は PharmaX 株式会社取締役・CTO である上野彰大氏。スクリーンショットを活用しながら GUI を自動操作するデモや、技術・安全性の課題などを通して、今後の展望が議論されました。

はじめに

冒頭の運営案内では、Zoom ウェビナーの質疑方法やチャット利用の注意点が説明され、続けて上野氏が登壇。自社での AI エージェント関連事業を含め、LLM まわりの技術に興味を持つエンジニア向けの内容であることが紹介されました。

Computer Use が注目を集める理由

API 連携の限界 既存のサービス連携は API を介するケースが多い一方、システムが分散していて API が存在しない状況も多々あります。そこで、画面をスクリーンショットベースで読み取り、マウスやキーボード操作を LLM に指示する Computer Use が期待されています。
実演事例 たとえば「Chrome 上で食べログやシートを開き、必要情報をコピーして別フォームに入力する」「ゲーム画面を見て LLM がボタン入力を選ぶ」など、従来は RPA に近い形で組んでいた処理を、AI エージェントの指示だけで行う試みが進んでいます。

Anthropic と OpenAI 両社のアプローチ

OpenAI: Computer Use Preview

OpenAI は、コンピューターやブラウザを操作できるモデルとして「computer-use-preview」を発表しました。チャット形式の応答がアクション（例：クリック、テキスト入力）を提案し、ユーザがプレイライト等の実行エンジンを通じて実際に操作する仕組みです。

スクリーンショットの活用 LLM は画面を画像として受け取り、次にどこをクリック・入力すべきかをテキストで指示する形になっています。
学習の一部に強化学習が含まれる タスク達成までのステップを繰り返し試行し、成功パターンをフィードバックすることで操作精度を高める戦略が取られています。

Anthropic: クロードによる Computer Use

Anthropic も「クロード」による Computer Use のデモを披露しています。基本的な仕組みは OpenAI と似ており、レスポンス API を通じてスクリーンショット＋操作アクションを繰り返す構造です。実演のなかでは、フォーム入力やスプレッドシート情報の転記などがスムーズに行われ、総じて OpenAI と大きく差があるわけではない様子が示されました。

実演デモ

上野氏はローカル環境やブラウザ上で、Anthropic（クロード）と OpenAI の両方にフォーム入力・システム操作をさせてみるデモを行いました。

スラックへのメッセージ送信

キーボード入力やショートカット、送信ボタンのクリックなどを LLM が自動で指示し、人間の代わりに発言を投稿。
途中で送信がうまくいかない場合でも、モデルが自律的に別の手段（送信ボタンを押す等）を試す例が紹介されました。

フォームへのデータ転記

スプレッドシートから必要情報（製品名・日時など）を読み取り、別の Web フォームに入力して送信。
カレンダー入力を正しくクリックして日付を選ぶ様子や、最後に「送信していいか？」などの確認を行うところは実用性を感じさせる部分でした。

ゲーム操作（リバーシ・ポケモン）

AI がゲーム画面を見て動きを指示する例も紹介。フォーム入力に比べ操作手順が複雑で、予期しない挙動や合法手が選べないなど、精度の限界がある印象を受けました。

全体を踏まえた感想〜次の UI パラダイムへ向けて〜

「Computer Use」という新たな操作スタイルは、画面遷移やクリックまでも LLM に指示させる点で従来の API 連携とは異質のインパクトを持っています。セキュリティや動作速度、コストなど課題は残るものの、次のような可能性を感じさせる内容でした。

連携コストの削減 API を持たない古いシステムや、統合が難しい分野での運用効率化に期待できる
共通 UI の概念変化 マウスやキーボードを介さず、テキスト指示や会話で PC を操作する UX が広まる素地がある
進化のスピード 強化学習で“画面操作の成功パターン”を大量に学習すれば、意外と早期に人間レベルに迫るかもしれない

単なる技術デモに留まらず、今後の仕事の在り方、システム設計の常識まで変え得るコンピューター操作の自動化。まるで SF 的な未来が一歩ずつ現実に近づいているような、このワクワク感を味わえるイベントでした。実用には安全対策や成熟した UI 設計が不可欠とはいえ、 「本当にどこまで AI が触れるようになるのか」 という大きな問いに向けて、今後も OpenAI と Anthropic 両社が目を離せない存在となりそうです。

Yardでは、AI・テック領域に特化したスポットコンサルサービスを提供しています。

興味がある方は、初回の無料スポットコンサルをお申し込みください。

また、資料請求やお問い合わせもお待ちしております。テック領域の知見を獲得し、事業成長を一緒に実現していきましょう。

Yardについてもっと知りたい方へ

詳細なご説明やご相談をご希望の場合は、以下フォームよりお気軽にお問い合わせください

Yard 編集部

Yardの編集部が、テック業界の最新トレンドや知見について発信します。

フォロー

Computer Use 〜OpenAI と Anthropic の比較と将来の展望〜 レポート