昨年からAIによるコンピュータ操作が現実のものとなってきています。AnthropicのComputer UseやOpenAIのOperatorなど、AIが直接ブラウザやアプリケーションを操作する機能が登場し、注目を集めています。このような背景から、AIのOS操作能力を客観的に評価する方法として「OSWorld」がベンチマークの一つとなってきています。
OSWorldとは
OSWorldは、画像認識と言語理解を組み合わせたマルチモーダルAIの能力を測定するためのベンチマーク環境です。実際のパソコン環境でのファイル整理、アプリケーションの使用、データ入力といった基本的な作業をAIがどの程度自然に処理できるかを評価します。
詳細情報は公式サイトから確認できます。論文の情報はこちらで参照でき、概要を分かりやすく説明したスライドドキュメントはこちらで閲覧できます。スライドドキュメントは英語にはなりますが分かりやすい内容になっています。
特徴と仕組み
OSWorldでは、仮想マシン(VMware/VirtualBox, Docker) を活用して実際のOS環境でタスクを実行できるようになっています。Ubuntu、Windows、macOSといった主要OSに対応しており、実環境に近い状態での操作を確認することができます。
評価方法については、コードや出力結果に基づいて客観的な判定を行います。部分観測可能マルコフ決定過程(POMDP)という手法を採用しており、PCの画面状態、UI情報の観測、マウスやキーボードの入力操作、そしてタスクの達成度に応じたスコア評価を体系的に行えるような設計になっています。
ベンチマークとして実行できるタスクの数は、369種類あり、その内訳は次のようになっています。
-
マルチアプリワークフロー:101タスク(27.4%)
例:「Thunderbirdの連絡先をCSVにエクスポートし、LibreOffice Calcでxlsx形式に変換」 -
シングルアプリタスク:268タスク(72.6%)
例:「GIMPでの画像の透過処理」 -
統合タスク:84タスク(22.8%)
例:「システムリソースの監視データを収集し、30秒間の計測結果をレポートとして出力」 -
チャレンジングなタスク:30タスク(8.1%)
例:「Pythonで作成したゲームのバグ修正とコードの最適化」
出典: OSWorld公式サイト (https://os-world.github.io/) より引用
※補足:2025年2月20日時点のGitHub上での評価タスクは、上記の数とは異なるようです。参考情報となりますが、私が抽出したタスクの一覧は下記資料に記載しています。(資料内の日本語訳は、Google翻訳で自動翻訳したものです。)
・タスク詳細データ: 評価タスク一覧
https://docs.google.com/spreadsheets/d/19WUApBfivaZRIksuObvzNcQY-Vb2mL82WZVXFqY8uq8/edit?gid=0#gid=0&fvid=564790684
タスクの分類と内容
OSWorldのタスクは、実務や日常生活に即した形で分類されています。オフィス関連のタスクでは、表計算ソフトでのデータ処理、プレゼンテーション資料の作成、文書作成など、ビジネスでよく使う作業が含まれています。特にLibreOffice CalcやImpress、Writerを使用したタスクが多くを占めています。
日常的なタスクには、Chromeを使用したウェブブラウジング、Thunderbirdでのメールのやり取り、ファイル管理など、普段の生活でよく行う操作が含まれています。
専門的なタスクでは、VSCodeを使用したプログラミング、GIMPでの画像編集、VLCでの動画編集など、より高度な技術を要する作業を評価します。
基本的なOS操作としては、システムコマンドの実行、環境設定の変更、基本的なアプリケーションのセットアップなど、コンピュータの基本的な管理作業が含まれています。
ワークフロー関連のタスクでは、複数のアプリを連携させたデータのやり取りや、ネットワーク環境のテスト、システムリソースの監視といった、より実践的な作業を扱っています。
タスクの具体例
OSWorldの各タスクは、GitHubリポジトリの「evaluation_examples/examples」フォルダに格納されており、Chrome、Office、システム設定など、操作対象となるアプリケーションごとにフォルダ分けされています。それぞれのタスクは、JSONファイルとして定義されており、タスクの内容や評価方法が詳細に記述されています。
具体例として、Chromeブラウザの検索エンジン設定タスクを見てみると、このタスクでは、「インターネットで検索するときに、Bingをメインの検索エンジンに設定してもらえますか?」という指示 (instructionフィールド) に対して、AIがどのように対応するかを評価します。
タスクの定義ファイルは次の内容になっています。
{
"id": "bb5e4c0d-f964-439c-97b6-bdb9747de3f4",
"snapshot": "chrome",
"instruction": "Can you make Bing the main search thingy when I look stuff up on the internet?",
"source": "https://support.google.com/chrome/answer/95426?sjid=16867045591165135686-AP",
"config": [
{
"type": "launch",
"parameters": {
"command": [
"google-chrome",
"--remote-debugging-port=1337"
]
}
},
{
"type": "launch",
"parameters": {
"command": [
"socat",
"tcp-listen:9222,fork",
"tcp:localhost:1337"
]
}
}
],
"trajectory": "trajectories/",
"related_apps": [
"chrome"
],
"evaluator": {
"func": "exact_match",
"result": {
"type": "default_search_engine"
},
"expected": {
"type": "rule",
"rules": {
"expected": "Bing"
}
}
}
}
このJSONファイルの重要なポイントは次のとおりです。
- タスクの基本情報
instruction
:ユーザーからの指示内容
- 環境設定(
config
)- Chromeブラウザの起動設定
- 評価基準(
evaluator
)- 評価方法:
exact_match
を使用 - 評価対象:デフォルト検索エンジンの設定
- 期待される結果:"Bing"への設定が完了していること
- 評価方法:
OSWorldでは各タスクを定義し、AIの操作が期待通りの結果をもたらすかを評価します。このタスクの実行には、私のMacBook Proの環境では約4分かかり、AIは11回の処理試行してブラウザの検索エンジン設定の変更という目標を達成しました。
実際にVMWare Fusionで動作してる動画はこちらになります。(何度もAIが試行しているので、動画は全然進まないのですが。)
最新のベンチマーク結果
出典: OSWorld公式サイト (https://os-world.github.io/) より引用
2025年1月の評価結果を見ると、各モデルがそれぞれ特徴があるようです。OpenAI CUAは200ステップ版で38.1というスコアを達成し、多くの試行回数を実行した結果、高い成功率を出しているようです。
ByteDanceと清華大学が共同開発したUI-TARS-72B-DPOは、50ステップ版で24.6、15ステップ版で22.7というスコアです。比較的少ない試行回数でも安定したパフォーマンスを出せるようです。
また、AnthropicのClaude 3.5 Sonnetも22.0というスコアでした。OpenAI CUAの15ステップ版も19.7というスコアを記録し、限られた試行回数でも一定の成功率を維持できているようです。
これらを見ると、試行回数を増やすことで成功率が上がる傾向にあり、同じモデルでも試行回数によって性能が変わってくるようです。実用面では適切な試行回数の設定が重要になるかもしれません。
これからの可能性
OSWorldは継続的に更新が行われていて、新しいAIモデルや評価手法が追加されています。AIのコンピュータ操作の実用化に向けた期待も高まってきているように感じます。日常的なPC業務の自動化だけでなく、スマートフォンやタブレットなど様々な端末での活用、複数のAIが協力して作業を行うといった新しい可能性も少しずつ見えてきました。
OSWorldを通じてAIの操作能力を評価することで、技術の進歩状況や実用化への道のりがより明確に見えてくるのではないでしょうか。今後、モデルが改良されていくにつれて、AIによるコンピュータ操作がより自然で精度の高いものになっていくことが期待されます。