
「モバイルAIの新時代」。サムスンはGalaxy S24シリーズの次期スマートフォンをこのように宣伝している。今月下旬に開催されるイベント「Unpacked」では、「AIを活用した全く新しいモバイル体験」を約束している。
ChatGPTやMidjourneyといった企業が巻き起こしたAIブームに、Samsungが初めて参入するわけではないだろう。スマートフォン向けシリコン大手の二大企業、QualcommとMediaTekは最近、最新のフラッグシップおよびミッドレンジプロセッサに搭載されたデバイス内生成AI機能について、大々的に宣伝した。
おすすめ動画
変化は明らかだ。AIはスマートフォンのマーケティングのバズワードになるだろう。しかし、一体何が起こるのだろうか?これらのいわゆる「AIの進歩」がどのように意味のある価値をもたらすのかは、いまだに謎に包まれている。あるいは、既存の技術を別の名前やネイティブアプリとして再パッケージ化しようとしているだけなのかもしれない。
サムスンは成果を出すか、あるいは見事に失敗するか

まずはGalaxy S24シリーズのスマートフォンから見ていきましょう。このモデルには、QualcommのSnapdragon 8 Gen 3チップが搭載されます。Qualcommは、この新しい最上位チップセットの生成AI機能について大胆な主張を展開しています。例えば、Stable Diffusion AI技術を用いて、テキストプロンプトから1秒以内に画像を生成するとされています。
Qualcommは、Stable Diffusion技術をデバイス上での動作向けに最適化した方法について、非常に興味深い技術的説明を行いました。ライバルのMediaTekも、主力製品Dimensity 9300のデバイス内AI機能により、Stable Diffusion技術によって1秒未満でテキストから画像への変換が可能になると主張しています。
現在、Qualcommの最新フラッグシップモデルを搭載したスマートフォンが既に発売されています。問題の端末はiQoo 12ですが、興味深いことに、このスマートフォンのマーケティング資料には、特にQualcommとMediaTekが宣伝しているような、生成AI技術については一切触れられていません。
AI が生成した忍者猫の写真をどうすればいいでしょうか?
仮にサムスンがテキスト画像生成機能を提供すると仮定しましょう。最終的にサムスンは何を成し遂げるのでしょうか?現時点では、テキスト画像生成機能がサードパーティ製アプリにバンドルされるのか、それともサムスンが自社アプリに統合するのかは不明です。
真の疑問は、それが私たちの日常的なスマートフォンの利用パターンにどれほどの価値をもたらすのかということです。Galaxy S24の平均的な購入者は、たった1行のテキストプロンプトで生成された画像で何をするのでしょうか?おそらく、AIが生成した画像を使ってチャットに活気を与えたり、ソーシャルメディアで話題を呼んだりするでしょう。
しかし、ここではまだ多少の手間がかかります。テキスト1行からこれらの画像を生成し、ローカルに保存(またはクリップボードに直接コピー)し、そのAI画像を任意のチャットアプリに貼り付ける必要があります。最適な解決策は、Samsungが何らかの方法で画像からテキストを生成する機能をキーボードに統合してくれることです。

もう一度言いますが、絵文字、GIF、ステッカーで十分なのに、わざわざ苦労してまでAIで画像を作る必要があるでしょうか? また、512 x 512ピクセルの出力では、AIが生成したこれらの画像を大学の課題や仕事のプレゼンテーションに使うには解像度が足りません。
さらに、このシステムは無料ではない可能性が高い。MediaTekのデモ動画では、プレミアムオプションが検討されていると言及されている。Galaxy S24の購入者は、テキスト画像変換トークンの出力回数が一定数に達すると、制限に達する可能性がある。制限を超えると、画像生成速度の遅い層にダウングレードされるか、サブスクリプション料金の支払いを求められる。
MediaTek Dimensity 9300: 比類のない生成AIパフォーマンス | テキストから画像へ
しかし、もしそれが現実なら、そもそも論点が曖昧になります。なぜなら、OpenAIのDall-Eのようなソリューションが既に存在しているからです。Dall-Eを使えば無料で画像生成できますし、ChatGPT Plusに有料加入すれば、最新のDall-E 3モデルによるより高速で詳細な画像生成のメリットを享受できます。これは、数あるテキスト画像生成ツールの一つに過ぎません。
Qualcommによると、Snapdragon 8 Gen 3は「マルチモーダルな第3世代AIモデルをサポートする最初のプロセッサ」です。つまり、スマートフォンでネイティブに動作するチャットボット(MetaのLlamaモデルに基づく)は、音声だけでなく、テキストや画像などの形式での入力も受け付けるようになります。繰り返しになりますが、これは特別なことではありません。ChatGPT-4は既に、サブスクリプション型の機能ではあるものの、同様の機能を提供しています。
本当に必要でしょうか?

Qualcommが宣伝する最も有望な機能の一つは、AIによる画像拡張です。基本的に、画像のキャンバスを任意の方向に拡張でき、デバイス上の生成AIがテキストプロンプトに基づいてピクセルをインテリジェントに生成し、元のフレームにオブジェクトを追加します。
このトリックを目の当たりにするのは驚きです。オブジェクトが追加されるたびに画像が拡大し、まるで巨匠が作品に修正を加えるかのように地平線が広がる様子を見るのは。しかし、思い出として保存するためにスマートフォンで撮影した写真に、このようなことをするのは避けたいものです。生成AIによる画像拡大は、実際には経験したことのない偽の映像やシナリオで記憶を汚すようなものです。
要約機能は、スマートフォンにおけるオンデバイス生成AIの展開におけるもう一つの大きな賭けです。ニュースを読んだり、様々な分野の最新動向を把握したりするのに最適です。しかし、この技術が真価を発揮するには、操作の煩わしさが最小限でなければなりません。例えば、ユーザーが別のアプリを開かずに、同じブラウザページでニュース記事を要約できれば理想的です。
もし後者の場合、既にその機能を備えたアプリに乗り換えてみてはいかがでしょうか?例えば、Instagramの共同創設者ケビン・シストロムが開発した、AIを活用して記事を要約してくれる、驚くほど美しいデザインのアプリ「Artifact」があります。
Inshortsのように、要約されたニュースを提供するアプリやウェブサイトは既に存在します。受信トレイにインストールするなら、Shortwaveはメールの要約だけでなく、追加料金なしで様々な機能を提供する優れたアプリです。

デバイス上で動作する生成AIは、音声による写真編集といった機能も実現可能だ。驚くほど便利そうに聞こえるが、ワンタップフィルターや細かいスライダーが、スマートフォン上でメディア編集を迅速かつより充実したものにしてくれるようになると、私たちの生活にどれほどの利便性をもたらすのか想像するのは難しい。
次に、一般的なチャットを開始したり、インターネットを使った調査が必要となるような回答を得るためにAIを使用するという、ありきたりな状況について考えてみましょう。ここでも、質的な問題に直面することになります。
MetaのLlamaのようなスマートフォンネイティブで動作する生成AIモデルは、リソースの基本的な可用性という点から、同種のモデルの中では最先端のものではありません。Googleを例に挙げましょう。Pixel 8 Proは、Googleの大規模言語モデルの中でも最小のGemini Nanoしか実行していません。性能の劣る言語モデルに甘んじるのではなく、専用のモバイルアプリを使ってChatGPTやPiのようなモデルに移行してみてはいかがでしょうか。
生成AIが本当に必要な場所

現時点で、生成AIが最も力を発揮しているのは、スマートフォンのタスクをクラウド(そして常時オンライン状態という要件)から切り離し、さらなる安全性を提供することだと私は考えています。しかし、そのためには、これらのデバイス上のAI機能が、Googleアシスタント、Alexa、Siriのようなアシスタント機能も兼ね備える必要があります。
あるいは、もっと良いのは、彼らがアシスタントの一部になるということです。生成AIアシスタントに、ライブラリにある猫の画像をすべて拾い上げてコラージュを作り、お父さんに送るように指示しましょう。あるいは、ディズニーランドへの日帰り旅行の最適な旅程を計画し、次の週末の最安値のチケットを探し、Googleカレンダーにそれらの詳細をきちんと整理するように頼んでみましょう。
さらに、デバイス上の生成AIツールがデータをクラウドサーバーにプッシュせず、すべての操作をスマートフォン内で完結するようになれば、データプライバシーについて心配する必要はほとんどありません。少なくとも理論上はそうです。今のところ、Samsungが売り込んでいるGalaxy AIのビジョンについては確信が持てませんが、Samsungが真に意味のある生成AI体験を提供できるのか、それともほとんど実用的ではない、単なる小技の羅列に過ぎないのか、興味深いところです。