OpenAIが「画期的な」次世代O3推論モデルを発表

家
コンピューティング

ニュース

12 Days of OpenAI ライブストリームイベントのフィナーレで、CEO の Sam Altman 氏は、次期基礎モデルと、最近発表された o1 ファミリーの推論 AI の後継となる o3 および 03-mini を公開しました。

おすすめ動画

新しい o3 モデルはまだ一般には公開されておらず、ChatGPT にいつ組み込まれるかについても発表されていませんが、安全性とセキュリティの研究者によるテストに利用できるようになりました。

当社の最新推論モデルである o3 は画期的なものであり、最も厳しいベンチマークにおいてステップ関数的な改善が見られました。現在、安全性テストとレッドチーム演習を開始しています。https://t.co/4XlK1iHxFK

— グレッグ・ブロックマン (@gdb) 2024年12月20日

o3ファミリーは、それ以前のo1ファミリーと同様に、従来の生成モデルとは異なり、ユーザーに提示する前に内部で事実確認を行います。この手法により、モデルの応答時間は数秒から数分程度遅くなりますが、複雑な科学、数学、コーディングに関するクエリに対する回答は、GPT-4よりも正確で信頼性の高いものになる傾向があります。さらに、このモデルは、結果に至った理由を透明性を持って説明することができます。

ユーザーは、モデルが問題を検討する時間を、低、中、高の計算レベルから選択することで手動で調整することもできます。最高設定で最も完全な回答が得られます。ただし、このパフォーマンスは安価ではありません。ARC-AGIの共同開発者であるフランソワ・ショレ氏は、金曜日のXへの投稿で、高計算レベルでの処理にはタスクごとに数千ドルかかると報じられています。

OpenAIは本日、次世代推論モデル「o3」を発表しました。私たちはOpenAIと協力し、ARC-AGI上でo3をテストしてきました。これはAIを新しいタスクに適応させる上で大きな進歩となると考えています。

低コンピューティングモードのセミプライベート評価では 75.7% のスコアを獲得しました (タスクあたり 20 ドル)… pic.twitter.com/ESQ9CNVCEA

—フランソワ・ショレ (@fchollet) 2024 年 12 月 20 日

新しい推論モデルファミリーは、業界で最も難しいベンチマークテストにおいて、9月にデビューしたo1よりも大幅に向上したパフォーマンスを提供すると報告されています。同社によると、o3はSWE-Bench Verifiedコーディングテストで前身モデルを23パーセントポイント近く上回り、Codeforceのベンチマークではo1よりも60ポイント以上高いスコアを獲得しています。新しいモデルはまた、AIME 2024数学テストで1問しか間違えずに96.7%という素晴らしいスコアを獲得し、GPQA Diamondでは人間の専門家を上回り、87.7%のスコアを記録しました。さらに印象的なのは、O3がEpochAI Frontier Mathベンチマークに出題された問題の4分の1以上を解いたと報告されていることです。他のモデルでは、この問題の2%以上を正しく解くのに苦労していました。

OpenAIは、金曜日にプレビューしたモデルはまだ初期バージョンであり、「最終結果は学習後の学習で進化する可能性がある」と指摘している。同社はさらに、o3の学習手法に新たな「熟慮に基づくアライメント」安全対策を組み込んだ。o1推論モデルは、GPT-4o、Gemini、Claudeといった従来のAIよりも高い確率で人間の評価者を欺こうとする、問題のある習性を示している。OpenAIは、新たなガードレールがo3におけるこうした傾向を最小限に抑えるのに役立つと考えている。

o3-mini を自分で試してみたい研究コミュニティのメンバーは、OpenAI の順番待ちリストに登録してアクセスすることができます。

アンドリュー・タラントーラは、ロボット工学や機械工学から自動車工学まで、さまざまな新興技術について 10 年以上取材しているジャーナリストです。

コンピューティング

ChatGPTとGeminiのメーカー、子供へのAIチャットボットの危険性で調査中

FTCはOpenAI、Googleなどに対し、AIチャットボットの安全性をどのようにテストしているかを明らかにするよう求めた。

ラップトップ上の ChatGPT。

AIチャットボットの真価が問われる時が来たようだ。子供や10代の若者とAIチャットボットのやり取りにおける問題行動や死亡事故に関する多数の報告を受け、米国政府がついに介入する。連邦取引委員会（FTC）は本日、人気のAIチャットボットのメーカーに対し、これらの「子供向けAIコンパニオン」の適合性をどのようにテストし評価しているのか、具体的な内容を説明するよう求めた。

何が起こっていますか？

コンピューティング

クロードの素晴らしいファイルツールはChatGPTとGeminiを嫉妬させるだろう

変更点を言うだけで、ファイルを開かなくても Claude がそれに応じて編集します。

iPhone 上の Claude AI。

Claudeは、ChatGPT、Gemini、Copilotといった大手に次ぐ、市場で最も注目されているAIエージェントの一つです。その技術スタックは非常に強力で、AppleはAnthropicとの提携を検討していると報じられています。Claudeは次世代SiriのエクスペリエンスにClaudeを活用する予定です。まだ実現には至っていませんが、Claudeはドキュメントからスプレッドシート、PDFまで、幅広いファイル形式の作成と編集を可能にする新しいツールをリリースしました。

クールなトリックは何ですか?