Mac

Nvidiaの新しいAIモデルは、テキストと音声プロンプトから音楽を作成します

Nvidiaの新しいAIモデルは、テキストと音声プロンプトから音楽を作成します
  1. コンピューティング
  2. ニュース
Nvidia のロゴ。
エヌビディア

Nvidia は、ユーザーの簡単なテキストや音声プロンプトに基づいて、無数のサウンド、音楽、さらには音声を作成できる新しい生成オーディオ AI モデルをリリースしました。

Fugatto(別名Foundational Generative Audio Transformer Opus 1)と呼ばれるこのモデルは、たとえば、テキストプロンプトのみに基づいてジングルや歌のスニペットを作成したり、既存のトラックに楽器やボーカルを追加または削除したり、声のアクセントと感情の両方を変更したり、「これまでに聞いたことのないサウンドを生成することさえできる」と月曜日の発表投稿に記載されています。

おすすめ動画

「人間のように音を理解し、生成するモデルを作りたかったのです」と、NVIDIAの応用オーディオ研究マネージャー、ラファエル・ヴァッレ氏は述べた。「Fugattoは、音声合成と変換における教師なしマルチタスク学習がデータとモデルのスケールから生まれる未来への第一歩です。」

同社によると、音楽プロデューサーはこのAIモデルを活用することで、様々な音楽スタイルやアレンジで楽曲のアイデアを迅速にプロトタイプ化し、検証したり、既存の楽曲にエフェクトやレイヤーを追加したりできるという。また、既存の広告キャンペーンの音楽やナレーションをアレンジ・ローカライズしたり、ビデオゲームの音楽をプレイヤーがレベルをプレイする中でリアルタイムに調整したりといった用途にも活用できる。

このモデルは、吠えるようなトランペットやニャーニャー鳴くようなサックスなど、これまで聞いたことのない音を生成することさえ可能です。その際、ComposableARTと呼ばれる技術を用いて、トレーニング中に学習した指示を組み合わせています。

「ユーザーがそれぞれの属性をどの程度重視するかを、主観的、あるいは芸術的に組み合わせられるようにしたかったのです」と、NVIDIAのAI研究者、ローハン・バドラニ氏は発表記事で述べています。「私のテストでは、結果に驚くことが多く、コンピューターサイエンティストであるにもかかわらず、少しアーティストになったような気分になりました。」

Fugattoモデル自体は25億のパラメータを使用し、32基のH100 GPUで学習されました。このようなオーディオAIはますます普及しつつあります。Stability AIは4月に、最大3分間のトラックを生成できる同様のシステムを発表しました。一方、GoogleのV2Aモデルは「あらゆるビデオ入力に対して無制限の数のサウンドトラック」を生成できます。

YouTubeは最近、入力された楽曲とユーザーのテキストプロンプトに基づいて30秒間のサンプルを生成するAI音楽リミキサーをリリースしました。OpenAIもこの分野で実験を行っており、4月にはわずか15秒のサンプルオーディオでユーザーの声とボーカルパターンを完全に複製できるAIツールをリリースしました。

アンドリュー・タラントラ

アンドリュー・タラントーラは、ロボット工学や機械工学から自動車工学まで、さまざまな新興技術について 10 年以上取材しているジャーナリストです。

  • コンピューティング

ソフトバンク、従業員一人ひとりを「千手観音」のようにするAIエージェントを開発

SoftBank と書かれた箱。

ソフトバンクの孫正義社長は水曜日、AIエージェントが自己複製できる初めてのシステムに同社のチームが取り組んでいると述べ、今年末までに10億のAIエージェントが社員とともに稼働するようになる可能性を示唆した。

OpenAIやGoogleといったAI大手が既に注力している分野であるAIエージェントは、最小限の人間による入力で、要求されたタスクを自律的に完了します。これは、ユーザーの指示に応じてコンテンツを生成し、自律的な意思決定能力を持たないChatGPTなどのより一般的な生成型AIツールとは対照的です。

続きを読む

  • コンピューティング

Appleは涙目になるようなオファーでAIの天才をMetaに奪われる

ホーム画面上のMeta AIウィジェット。

先月、OpenAIの責任者サム・アルトマン氏は、Metaが1億ドルもの採用ボーナスを提示してOpenAIのトップAIエンジニアを引き抜こうとしていたと主張した。

今週初め、AppleのAIモデルを監督していた著名なAIエンジニアであるRuoming Pang氏がMetaに移籍したことが明らかになり、この問題への関心が再燃した。

続きを読む

  • エンターテインメント

マウンテンヘッドの制作者は、映画を作るために「AI企業から資金を調達した」と語る

4人の男性グループが山の上で写真を撮っています。

『マウンテンヘッド』の脚本家兼監督のジェシー・アームストロングは、「AI企業が自社の大規模言語モデルを訓練するために、私の素材を他の人たちと一緒にかき集めてきたのはほぼ確実だ」と語り、映画のハイテク男子キャラクターにふさわしい声を見つけるために「私もそれらをかき集めてきた」と語った。 

今週末HBOで放映される『マウンテンヘッド』は、世界的な危機のさなか人里離れた山小屋に避難するテクノロジー業界の億万長者のグループを描いたダークな風刺劇だ。この危機は、AIが生成した非常に説得力のあるディープフェイクや、誤情報と不安定さを助長するソーシャルメディアプラットフォームなど、彼ら自身の創作物によってさらに悪化している。

続きを読む

Forbano
Forbano is a contributing author, focusing on sharing the latest news and deep content.