Mac

Googleの新しいAIはピクセルから音声サウンドトラックを生成

Googleの新しいAIはピクセルから音声サウンドトラックを生成
  1. コンピューティング
  2. ニュース
AIが生成したオオカミの遠吠え
Google ディープマインド

ディープマインドは火曜日、生成AIによるビデオ・トゥ・オーディオ研究の最新成果を公開した。これは、画面上の映像とユーザーの指示を組み合わせ、特定のビデオクリップに同期した音声サウンドスケープを作成するという斬新なシステムだ。

Deep Mindのジェネレーティブオーディオチームはブログ記事で、V2A AIはVeoのようなビデオ生成モデルと組み合わせることができ、画面上のアクションに合わせてサウンドトラック、効果音、さらにはセリフまで作成できると説明しています。さらにDeep Mindは、この新システムは、特定のサウンドの使用を推奨または抑制する肯定的または否定的なプロンプトでモデルを調整することで、「あらゆるビデオ入力に対して無制限の数のサウンドトラック」を生成できると主張しています。

V2Aカー

このシステムは、まずビデオ入力をエンコード・圧縮し、その後、拡散モデルを用いて、ユーザーの任意のテキストプロンプトと視覚入力に基づいて、背景ノイズから望ましい音響効果を反復的に調整します。この音響出力は最終的にデコードされ、波形としてエクスポートされ、ビデオ入力と再合成されます。

おすすめ動画

最も優れている点は、V2Aシステムが自動的に行うため、ユーザーが手動で(つまり面倒な)音声トラックと動画トラックの同期を行う必要がないことです。「動画、音声、そして追加の注釈を使ってトレーニングすることで、当社の技術は特定の音声イベントを様々な視覚シーンと関連付け、注釈やトランスクリプトで提供される情報に反応することを学習します」とDeepMindチームは記しています。

V2Aウルフ

しかし、このシステムはまだ完成していません。例えば、出力音声の品質はビデオ入力の忠実度に依存し、入力にビデオアーティファクトやその他の歪みがあるとシステムが誤作動を起こします。Deep Mindチームによると、音声トラックと会話の同期は依然として課題となっています。

V2Aクレイアニメファミリー

「V2Aは入力されたトランスクリプトから音声を生成し、登場人物の唇の動きと同期させようとします」と研究チームは説明しています。「しかし、ペアリングされたビデオ生成モデルはトランスクリプトに基づいていない可能性があります。これにより不一致が生じ、ビデオモデルがトランスクリプトと一致する口の動きを生成しないため、不自然なリップシンクが生じることがよくあります。」

このシステムは、開発チームが一般公開を検討する前に、「厳格な安全性評価とテスト」を受ける必要があります。このシステムで生成されるすべての動画とサウンドトラックには、Deep MindのSynthIDウォーターマークが付加されます。このシステムは、現在市場に出回っている唯一の音声生成AIではありません。Stability AIは先週、同様の製品をリリースしました。また、ElevenLabsは先月、独自のサウンドエフェクトツールをリリースしました。

アンドリュー・タラントラ

アンドリュー・タラントーラは、ロボット工学や機械工学から自動車工学まで、さまざまな新興技術について 10 年以上取材しているジャーナリストです。

  • コンピューティング

私はGoogle Geminiにとても興奮しているので、他のAIに乗り換えるつもりはありません

私にとって、双子座は常にトップでした。

ジェミニは私に創作を始めるように頼みます

人工知能(AI)コンパニオンアプリが数多く登場しているため、どれが自分にぴったりなのかずっと迷っていました。しかし、時間をかけて全て試してみた結果、Google Geminiが常に私にとって最高のアプリであることが分かりました。

クリエイティブな発想にも、日々のタスクの支援にも、Google Geminiは他のAIツールと比べても常に私にとって最も役立ってきました。Copilot、ChatGPT、Grokなど、様々なAIコンパニオンツールを試してきましたが、どれもG​​eminiに匹敵するものはありませんでした。

続きを読む

  • コンピューティング

私はChromeをAIブラウザに置き換えました。あなたもそうすべきです

ウェブブラウザの新時代へようこそ。

MacBook Airを手に、Cometブラウザを起動して、PerplexityのAIが実際に何ができるか見てみよう

インターネットは急速に変化しています。検索で見かけた青いリンクは姿を消し、AIチャットボットを使って教科書のように簡潔に答えを見つける人が増えています。その結果、AIエージェントはウェブブラウザに不可欠な要素になりつつあります。そして、好むと好まざるとにかかわらず、このトレンドはますます熱を帯びていくでしょう。 

ブラウザ戦争の新たな時代に入り、新興勢力が先導しているようです。DiaもそうしたAIファーストのブラウザの一つで、私はすっかり気に入ってしまいました。約1ヶ月前、ついにPerplexityの招待制ブラウザCometを使えるようになり、それ以来、他のブラウザは見ていません。もしあなたがCometを使えるようになったら、きっと同じような体験をするでしょう。それでは早速見ていきましょう。

続きを読む

  • コンピューティング

カシオの開発者は、新しいAIペット「モフリン」は死んでも「復活」できることを明らかに

モフリンは、新しい体を買い続ければ永遠に生き続けることができるかもしれません。

女性に抱かれているモフリン。

人工知能の世界は10倍にも拡大しており、AIが人々の日常生活のあらゆる要素に導入されている今、ペットにもその波が押し寄せているのは当然のことです。今週初め、カシオは同社の最新AIペット「Moflin」を英国と米国で発売すると発表しました。

Moflinは、触れ合うほど感情が変化するAIペットです。充電ベッドが付属し、10月1日の発売時には429ドルで販売されます。

続きを読む

Forbano
Forbano is a contributing author, focusing on sharing the latest news and deep content.