2024年をAIにとって画期的な年にした10の発表

AIブームが始まってから2周年を迎えましたが、勢いは衰えていません。むしろその逆です。生成型AIは圧倒的なスピードで成長を続け、新しいプラットフォーム、メディア、そしてデバイスへと容赦なく拡大しています。

2024 年を AI の世界で記念碑的な年にした 10 件の発表を紹介します。

おすすめ動画

OpenAIがGPT-4oをリリース

ChatGPT（GPT-3.5を実行）が2022年11月に初めて登場した当時は、基本的にはコンピューター制御の凝ったマッドリブスゲームでした。誤解しないでください。この機能自体が当時としては革命的でしたが、生成AIシステムが真に独自の地位を確立したのは、2024年5月にGPT-4oがリリースされてからでした。

GPT-4oは、テキストと画像の両方を分析・生成する前身の能力を基に、GPT-4単独の場合と比較して、より包括的な文脈理解を提供します。これにより、画像のキャプション作成や視覚分析から、グラフ、チャート、画像といったクリエイティブコンテンツと分析コンテンツの両方の生成まで、あらゆる分野で優れたパフォーマンスを発揮します。

高度な音声モードは、コンピューターが人間のように話すことを可能にします

9月、OpenAIはChatGPT加入者向けに「Advanced Voice Mode」をリリースし、同社がなぜAI業界のリーディングカンパニーであるかを改めて証明しました。この機能により、ユーザーはプロンプトウィンドウに質問を入力する必要がなくなり、まるで人間と会話するかのようにAIと会話できるようになりました。

GPT-4o の人間と同等の応答時間を活用した高度な音声モードは、人間が機械知能と対話する方法を根本的に変え、ユーザーが AI の創造力を最大限に発揮できるようにしました。

生成AIがエッジに到来

Visual Intelligence を使用して iPhone 16 Pro で ChatGPT の回答を表示しています。 — iPhoneのビジュアルインテリジェンスは、周囲の世界を理解するためにカメラに依存しています。クリスティン・ロメロ・チャン/デジタルトレンド

ChatGPTが2022年にデビューした当時、それは唯一のAIであり、ChatGPT.comというたった一つの場所でしか利用できませんでした。2年で状況は大きく変わりました。今では、スマートフォンやスマートホームデバイスから、自動運転車や健康モニタリング機器まで、あらゆるものに生成AIが搭載されています。例えばChatGPTは、デスクトップアプリ、API、モバイルアプリ、さらにはフリーダイヤルでも利用できます。Microsoftは、Copilot+ラップトップシリーズにAIを直接統合しています。

おそらく最も重要な例は、もちろんApple Intelligenceでしょう。Apple Intelligenceは、最も成功したリリースとは言えなかったかもしれません（多くの機能はまだ待たれています）。しかし、生成AIの力を可能な限り利用しやすくするという点では、Apple Intelligenceほど重要なものはありませんでした。

今のところ、Copilot+ PC も Apple Intelligence も、関係する企業 (特に Microsoft) が望んでいた通りにはなっていませんが、周知のとおり、これはまだ始まりに過ぎません。

原子力発電の復活

今年以前、アメリカでは原子力発電は破綻寸前と見られていました。1979年のスリーマイル島原発事故で原子炉の一部が溶融し、有毒な放射性物質が大気中に放出されたことなどから、信頼性が低く安全ではないとされていました。しかし、現代の大規模言語モデルに必要な電力が急速に増加し、地域の電力網に多大な負担をかけていることから、多くの大手AI企業が原子力を利用したデータセンターの運用を真剣に検討し始めています。

例えば、Amazonは3月にTalenから原子力発電AIデータセンターを購入し、10月にはEnergy Northwestから小型の自己完結型小型モジュール炉（SMR）を取得する契約を締結しました。Microsoftも負けじと、スリーマイル島原子力発電所の生産能力を自ら購入し、現在、1号炉の再稼働と発電に取り組んでいます。

エージェントは生成AIの次の大きなものになるだろう

大規模言語モデルを成長させるには、学習データ、電力、そして水資源を投入しても限界があり、収穫逓減の問題に直面することになります。AI業界は2024年にこれを直接経験し、それを受けて、生成AI体験を当初定義していた大規模なLLM（学習モデルモデル）から、ユーザーが求めるあらゆることを実行するのではなく、特定のタスクを実行するように設計された、より小規模で応答性の高いエージェントへと方向転換し始めました。

Anthropicは10月に「Computer Use」と呼ばれるエージェントを発表しました。Microsoftは11月に「Copilot Actions」をリリースし、OpenAIも1月にエージェント機能をリリースする予定と報じられています。

推論モデルの台頭

今日の大規模言語モデルの多くは、可能な限り迅速に応答を生成することに重点を置いており、多くの場合、正確性や正しさを犠牲にしています。OpenAIのo1推論モデルは、同社が9月にプレビューとして、12月に完全版としてリリースしましたが、これとは正反対のアプローチを採用しています。つまり、応答速度を犠牲にして、与えられた回答の根拠を内部的に検証し、可能な限り正確で完全な回答を提供することを目指しています。

この技術はまだ一般の人々に完全には受け入れられていませんが（o1は現在PlusおよびProプランの加入者のみが利用可能です）、大手AI企業は独自のバージョンの開発を進めています。Googleは12月19日、o1への回答として「Gemini 2.0 Flash Thinking Experimental」を発表しました。一方、OpenAIは12月20日に開催された「12 Days of OpenAI」ライブストリームイベントで、o1の後継となる「o3」の開発に既に取り組んでいることを明らかにしました。

AIを活用した検索がインターネット全体に広がる

iPhone 14 Pro で実行されている Perplexity AI アプリ。 — ジョー・マリング / デジタルトレンド

ジェネレーティブAIは昨今、どこにでも見られるようになっていますが、インターネットの最も基本的な機能の一つに統合されない理由はありません。Googleは過去2年間、この技術に取り組んできました。まず2023年5月に「Search Generative Experience」をリリースし、今年5月にはAIオーバービュー機能を展開しました。AIオーバービューは、ユーザーが検索結果ページの上部に要求した情報の要約を生成します。

Perplexity AIはこの技術をさらに一歩進めています。同社の「回答エンジン」は、ユーザーが求める情報をインターネット上で探し出し、そのデータを統合して、一貫性のある会話形式の（引用付きの）回答を生成します。これにより、リンクリストをクリックする必要が実質的になくなります。常にイノベーターであるOpenAIは、10月に発表したChatGPT Searchというチャットボット向けに、ほぼ同様のシステムを開発しました。

アントロピックのアーティファクトがコラボレーション革命のきっかけを作った

長編の創作エッセイやコンピュータコードスニペットなど、大きなファイルをチャットストリーム内で直接生成、分析、編集しようとすると、ドキュメント全体を表示するために何度も前後にスクロールしなければならず、大変な作業になる可能性があります。

6月にデビューしたAnthropicのArtifacts機能は、メインの会話とは別にAIが生成したテキストをプレビューできる別のウィンドウを提供することで、この問題を軽減します。この機能は大好評を博し、OpenAIもすぐに独自のバージョンをリリースしました。

最新のモデルと機能により、Anthropic は今年 OpenAI や Google にとって手強いライバルに成長しており、それだけでも意義深いと感じられます。

画像と動画のジェネレーターがついに指を認識

カメラコントロールを使用して、すべてのショットを意図的に監督します。

今日のランウェイアカデミーでその方法を学びましょう。pic.twitter.com/vCGMkkhKds

— ランウェイ（@runwayml）2024年11月2日

かつては、AIが生成した画像や動画を見分けるのは、被写体に写っている付属肢の数を数えるほど簡単でした。6月にStable Diffusion 3がクローネンバーグ風の画像で実証したように、腕が2本、脚が2本、指が10本以上あれば、明らかにAIが生成した画像や動画だと判断できました。しかし、2024年が終わりに近づくにつれ、画像や動画のジェネレーターが出力の品質と生理学的精度を急速に向上させているため、人間が作成したコンテンツと機械が作成したコンテンツを区別することは著しく困難になっています。

Kling、Gen 3 Alpha、Movie Gen などの AI ビデオシステムは、歪みを最小限に抑え、きめ細かなカメラ制御でフォトリアリスティックなクリップを生成できるようになりました。一方、Midjourney、Dall-E 3、Imagen 3 などのシステムは、驚くほどリアルな静止画像 (幻覚的なアーティファクトは最小限) をさまざまな芸術的スタイルで作成できます。

そうそう、OpenAIのSoraが12月の発表でついにデビューしました。AI生成動画モデルをめぐる争いは激化しており、2024年には驚くほど素晴らしい成果を上げました。

イーロン・マスクが世界最大のAIトレーニングクラスター構築に100億ドルを投じる

xAIは今年、Xに組み込まれた最新モデル「Grok 2.0」をリリースした。しかし、イーロン・マスクのAIベンチャーにおける最大のニュースは、この未来がどうなるかという点だ。2024年、イーロン・マスクはテネシー州メンフィス郊外に「世界最大のスーパーコンピュータ」の構築に着手し、7月22日午前4時20分に稼働を開始した。10万基のNVIDIA H100 GPUを搭載したこのスーパークラスターは、xAIのGrok生成AIモデルの新バージョンを学習する役割を担っており、マスクはこれが「世界最強のAI」になると主張している。

マスク氏は2024年だけで資本と推論コストに約100億ドルを費やすと予想されているが、報道によると、新年にはスーパーコンピューターを動かすGPUの数を2倍に増やす取り組みを進めているという。