
生成AIスタートアップ企業AnthropicのClaude 3.5 Sonnetは、火曜日に大幅なパフォーマンス向上を達成しました。同社は、軽量版のClaude 3.5 Haikuと合わせて、モデルの強化・アップデート版をリリースしました。Sonnetのアップデートには、AIが実行中のコンピューターを基本制御できるようにするパブリックベータ機能が含まれています。
Claude 3.5 Sonnetはコーディングタスクにおいて既にパフォーマンスリーダーでしたが、新バージョンは前モデルと比べて全般的に大幅な改善を示し、様々な業界ベンチマークにおいてGemini 1.5とGPT-4oの両方を着実に上回っています。Gemini 1.5 Proは、あらゆるテストにおいて新しい3.5 Sonnetを上回った唯一のモデルであり、特にMATHベンチマークでその性能を発揮しました。
おすすめ動画
新しい3.5 Haikuも、小型ながらも決して劣っていません。今月後半に発売予定の3.5 Haikuは、同社の前世代機の中で最大モデルであるClaude 3.0 Opusを上回るパフォーマンスを発揮します。大型版と同様に、新しいHaikuはコーディングタスクにおいて非常に優れた性能を発揮し、SWE-bench Verifiedで40.6%というスコアを記録しました。これはGPT-40とオリジナルの3.5 Sonnetの両方を上回っています。

さらに素晴らしいのは、新しいClaude 3.5 Sonnetが「Computer Use」APIを介してデスクトップアプリと連携できるようになったことです。AIは、人間のユーザーを模倣するために必要なキーストローク、マウスクリック、そして動作を生成できます。同社は、このシステムはまだ実験段階であり、エラーが発生しやすいことを指摘しています。パブリックベータ版の根本的な目的は、開発者からのフィードバックを集め、APIのパフォーマンスを迅速に向上させることです。
「私たちはクロードに、画面上で何が起こっているかを理解し、利用可能なソフトウェアツールを使ってタスクを実行できるように訓練しました」とアンスロピックはブログ記事に記しています。「開発者がクロードにコンピュータソフトウェアの使用を指示し、必要なアクセス権を与えると、クロードはユーザーが見ているもののスクリーンショットを確認し、正しい場所をクリックするためにカーソルを縦または横に何ピクセル動かす必要があるかを数えます。」
クロード | 業務自動化のためのコンピュータの活用
本質的にはAIエージェントです。つまり、マーケティングリードの生成と選別、医療データのパターンや傾向の発見、あるいは特定のウェブサイトにアクセスして必要なフォームに入力するといった、他のソフトウェアプロセスを自動化できるAIです。既存のロボティック・プロセス・オートメーション(RPA)システムの進化版と考えてください。
同社は、この新機能の早期導入企業として、Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyを挙げています。例えばReplitは、Computer Controlを利用して「Replit Agent製品向けに開発中のアプリを評価する主要機能を開発中」だと発表しています。
Anthropicの説明によると、AIが(今のところ)Skynetのように私たちに襲いかかることを心配する必要はありません。Anthropicの広報担当者はTechCrunchにこう語っています。「人間は、Claudeの行動を指示する具体的なプロンプト(例えば、『このフォームに入力するには、自分のコンピューターとオンラインのデータを使用してください』など)を提供することで、制御を維持します。人間は必要に応じてアクセスを許可したり制限したりできます。Claudeは、ユーザーのプロンプトをコンピューターコマンド(例:カーソルの移動、クリック、入力)に分解し、特定のタスクを実行します。」
アントロピック社は、Computer Controlがスパムの生成、誤情報の拡散、詐欺行為に悪用される可能性もあることを認めています。これに対し、同社はAPIがいつ使用されているか、そしてその使用が「害を及ぼしている」かどうかを判別する新たな分類器を開発しました。