
熱狂的な人工知能(AI)をめぐる争いの最新トレンドは、マルチモーダルAI、つまり話す、見る、聞くことができるAIです。このAIは、Rabbit R1やHumane AI Pinといった、未来志向の熱狂を背景にしたAIガジェットを生み出しました。
5月のわずか2日間で、OpenAIはChatGPTの世界を感知する会話型アバターのデモを行い、GoogleもProject AstraでGemini Assistant向けに同様のデモを行いました。その目的は明確です。AIは、人間の入力ポイントでも機械の出力端末でも、テキストや静止画に限定されなくなります。
おすすめ動画
ロンドンを拠点とする新興企業Nothingは、どうやら市場の変化を先見していたようだ。4月、同社はNothing Earシリーズの新しいワイヤレスイヤホンを発表した。音質は素晴らしく、見た目もすっきりしていて、財布に優しい。しかし、彼らの最大の賭けは未来への挑戦だ。ピンチジェスチャーでChatGPTが耳元でささやきかける機能だ。
ChatGPTのDMに滑り込む

ChatGPTの巧妙な統合は、Nothing Xアプリによって実現されています。Nothing Phone 2aを皮切りに、この機能はNothingがこれまでに製造したすべてのイヤホンや、古いスマートフォンでも利用できるようになりました。ブランドが、より古くて手頃な価格のハードウェアに優れた機能を提供するのは素晴らしいことですが、Nothingはまさにそれを実現しました。
Nothingの意図は素晴らしく、実行も完璧です。面倒な手動設定は一切ありません。アプリ経由でスマートフォンとイヤホンのファームウェアに最新のソフトウェアアップデートをインストールするだけで、すぐに使用できます。
イヤホンをNothing Phoneとペアリングするだけで、Nothing Xアプリが、左イヤホンをつまんで長押しするとChatGPT音声モードが起動することを教えてくれます。ChatGPTアプリやその他のアプリを起動する必要はありません。軸をつまむだけで、スマートフォンの画面がオフのときでも、人間と機械の会話を始めることができます。

さて、このChatGPTイヤホンとの相性がどれほど良いものになるかは、日常生活でChatGPTの機能をどれだけ必要としているかによって大きく左右されます。毎月20ドルのプレミアム会員費を支払うほど、ChatGPTが必要なのでしょうか?
すぐにその壁にぶつかることになるから、そう尋ねるんです。ChatGPTは、まあ、ChatGPTですからね。ChatGPT自身の言葉で制限を説明しましょう。「2022年1月の最終更新時点では…」あるいは「2022年1月以降のリアルタイムの更新や情報は提供できません」。ChatGPTの無料版では最新の情報を検索できません。その代わりに、その知識は2022年1月以前に発生したものに限定されています。
(ほとんど)魔法のようなAI体験

まあ、それはすべての人にとって問題ではないかもしれません。ChatGPTは依然として素晴らしい知識バンクであり、あらゆる情報をまとめた優れた要約ツールです。ただ、OpenAIの購読料を支払わないと、2022年1月から休職中のおしゃべりな哲学者が利用することになります。最新情報にアクセスしたい場合は、ChatGPT Plusに加入する必要があります。
仕事場に向かう途中、Nothingイヤホンのステムをつまんで、自動運転車の観点から畳み込みニューラルネットワーク(CNN)を説明してもらいました。素晴らしい説明でした。ただ、スカーレット・ヨハンソンの声で最先端の自動車AIについて教えてくれたら良かったのですが、残念ながら残念です。
「たとえコンピューターと会話しているとしても、私たちにとってはそれが自然にできるのです。」
パーソナルAI音声の不具合はさておき、私にとっては素晴らしい準備となりました。iPad Proを机の上に置き、とびきり濃いエスプレッソを片手に持った頃には、この技術について、そしてコンピューター科学者のヤン・ルカンがXにおけるCNNの役割についてイーロン・マスクに徹底的に教え込んだことについて、数百語もの文章を猛烈に書き連ねる準備ができていました。

世界中の知識(人類文明が2022年1月に終焉を迎えたと仮定した場合)が、Nothingイヤホンを通してあなたの耳元で朗読されるというのは、実に素晴らしいことです。イヤホンの内蔵マイクに現在地を話しかけると、ChatGPTが近くのピザ屋を3軒教えてくれました。
携帯電話に触れることなく、耳元ですべての情報を音声で聞けるという利便性は、実際に体験してみる価値があります。また、ラダックの極寒の砂漠で必ず訪れるべき場所の簡単な概要や、コロンボの高評価ホステルの概要を知るのにも役立ちました。
高価なフラストレーション

しかし、AIとの蜜月は、今この瞬間を生きようとした途端に終わります。「最近のWWEキング・オブ・リングの優勝者は誰?」「街の天気はどう?」「プレミアリーグの次のアーセナルの試合はいつ?」といった質問をしても、返ってくるのはイライラさせられるような答えのない回答ばかりです。
これはすべて、2022年の初めに迫った悪名高い情報制限のせいです。ChatGPTを使えば、ウェブサーフィンをしたり、インターネット上に現れる最新情報を見つけたりできます。しかし、MicrosoftのBing検索エンジンを利用するこのトリックは無料ではありません。
ChatGPTの強力な機能「Bingでブラウズ」を利用するには、ChatGPT Plusのサブスクリプションに月額20ドル以上支払う必要があります。無料でリアルタイムの情報を提供し、ウェブを要約してくれるAIがもっとあればいいのにと思います。
幸運なことに、Perplexityというものがあります。Digital Trendsのセクションエディター、ジョー・マリングはPerplexityのファンで、私もそうです。しかし、Nothingイヤホンでウェブ要約の回答を聞こうと音声アイコンをタップした瞬間、月額20ドルから始まるサブスクリプションページが目の前に現れます。
AIへのアクセスをより便利にしようというNothingの意図は称賛に値し、私はこの側面に焦点を当てた技術を全面的に支持します。しかし、専門家たちは生成AIを耳の穴に埋め込むことにあまり乗り気ではありません。彼らはそれに驚嘆するわけではありませんが、デジタルコミュニケーションのベテランたちは、これは避けられない変化だと考えています。
専門家は楽観的

楽観的な人物の中には、Google DuoとWebRTC標準の開発者であり、Googleのゲームアプリ「Stadia」の元エンジニアリングリーダー、そしてパンデミック時代に大ヒットした「Clubhouse」のストリーミング技術責任者でもあるジャスティン・ウベルティがいる。一言で言えば、彼はデジタルコミュニケーションの知識に精通している。
「今後2、3年のうちに、音声によるインタラクションがAIとのコミュニケーションの主な手段になると思います。それは単純に、音声によるインタラクションの方が便利で、より豊かで快適な体験を提供できるからです」とウベルティ氏はDigital Trendsに語った。
ウベルティ氏は自己修復についても言及し、AIが陥りがちな失敗や、人間が自然な会話の中で苦労する様子と関連付けています。「話し言葉には、書き言葉にはないある種の権威があります。良くも悪くも、人は声に出して確信を持って話された情報をより信頼する傾向があります」と彼は付け加えます。

ここで、よく報道されている幻覚の問題が浮上します。Google検索におけるAI概要の誤りは、GoogleのようなAIのパイオニアでさえ、信頼できる仲間としてのAIへの信頼を確立するには、まだ長い道のりがあることを証明しています。
しかし、スマートフォンに触れることなくAIとチャットできるのは便利そうに聞こえますが、事実確認が必要であり、そのためにはスマートフォンを最終的に発売する必要があります。専用のAIハードウェアにも同じことが言えますが、今では過大評価されたベイパーウェアと同程度にしか思えません。
ウベルティ氏はまた、ChatGPTが熱心に知識を次々と耳元で流し込むことで、気が散ってしまうという問題にも触れた。「AIと話すことで手と目は自由になります。ですから、その点では、公共の場でテキストで話すよりもはるかに安全です」とウベルティ氏は言う。
「タイピングの仕方を学ぶよりずっと前に、タイピングの仕方を学びます。」
しかし、彼は固有のリスクを痛感しており、そのため彼の会社である Fixie.ai は、会話が本格的な生産性よりも楽しさに重点を置いた「音声ベースの AI 向けの楽しくリスクの少ないアプリケーション」の構築に注力しています。
サウスフロリダ大学の助教授(コンピュータサイエンスおよびエンジニアリング)であるジョン・リカト氏は、ChatGPT を耳に届けようとする Nothing の動きは正しい方向への一歩であると考えているが、エラーが発生しやすいこれらの製品が幻覚を引き起こすことへの懸念を表明した。

「これは視覚障害のある人だけでなく、運転中や手がふさがっているときにシステムを操作できるようになるため、視覚障害のない人にも役立つでしょう」と彼は付け加えた。
現在、大学の先進的機械・人間推論(AMHR)ラボに所属するリカト氏は、「純利益」に焦点を当てていると述べ、AIとの音声会話は現時点で利用可能な他のどのオプションよりも間違いなく気が散りにくいと付け加えた。
教育用AIリソースハブの創設者であるブライアン・プリンス氏も、アクセシビリティの側面とそれが民主化の要因としてどのように機能するかを強調しています。「音声制御は、視覚障碍のあるユーザー、何らかの理由で入力できないユーザー、あるいは読解力に問題のあるユーザーにとって、アクセシビリティをさらに高めます」とプリンス氏はDigital Trendsに語っています。
誇大宣伝の霧の中の警告

Nothingが売り込んでいるようなイノベーションは、遠隔医療分野にも影響を与える可能性があります。「英語が母国語ではない、十分な医療サービスを受けられない人々への医療において、生成AIによる音声認識は画期的なものです」と、デジタルヘルス企業HealthvanaのCEO兼創業者であるラミン・バスタニ氏はDigital Trendsに語っています。
しかし、すべての製品は、少数の人々のためだけではなく、現実世界の具体的な問題を解決する必要がある。一部の人にとってはChatGPTは救世主となるかもしれないが、大衆にとっては同じことが言えない。
「現実世界のビジネス上の問題が解決されるのを見たことがありません。その一部は、既存のテクノロジーを使ってより良い方法ですでに今日解決できるのです」と、企業向けにAI主導のソリューションを提供するABBYYのAI戦略シニアディレクター、マックス・フェルメイル氏は語る。
特に AI ラボがトレーニングと微調整のためのデータを収集する際に、合意に基づかない自由なアプローチを採用していることを考えると、際立ったリスクは安全性であるように思われます。
「会話が録音され、処理と分析のためにチャットボットのサーバーに送信されていることにユーザーが気付いていない可能性があるという事実によって、この懸念はさらに悪化します」とサンタクララ大学のコンピューターサイエンスとエンジニアリングの准教授、イー・ファン氏は言う。
専門家との交流を通して、ChatGPTのような生成AIツールはよりプラスの影響を与えているように思われますが、その真の可能性はまだ探求されていません。AIは固有の問題を解決する必要があり、ウェブブラウジングや音声インタラクションといった基本的な機能のコストは明らかに低下していくはずです。
一方、Nothing は最善を尽くしませんでした。