- 家
- コンピューティング ニュース

AIチャットボットは既に画像や動画を通して世界を「見る」能力を備えています。しかし今回、GoogleはGemini Proの最新アップデートの一環として、音声読み上げ機能を発表しました。Gemini 1.5 Proでは、チャットボットはシステムにアップロードされた音声ファイルを「聞き」、テキスト情報を抽出できるようになりました。
同社は、このLLMバージョンをVertex AI開発プラットフォーム上でパブリックプレビューとして公開しました。これにより、より多くのエンタープライズユーザーがこの機能を試用し、利用範囲を拡大できるようになります。当初は、このモデルが初めて発表された2月の非公開版の展開後、この機能はより広範なユーザー層に提供されることになります。
おすすめ動画
1. 長い動画を分解して理解する
昨夜のNBAダンクコンテスト全体をアップロードして、どのダンクが最高得点だったかを尋ねました。
ジェミニ 1.5 は、長時間のコンテキスト動画の理解だけで、完璧な 50 ダンクとその詳細を正確に特定することができました! pic.twitter.com/01iUfqfiAO
— ローワン・チャン(@rowancheung)2024年2月18日
Googleは、現在ラスベガスで開催中のCloud Nextカンファレンスで、今回のアップデートの詳細を発表しました。Googleは、Gemini Advancedチャットボットの基盤となるGemini Ultra LLMをGeminiファミリーの中で最も強力なモデルと位置付けていましたが、今回、Gemini 1.5 Proを最も高性能な生成モデルと位置付けています。同社はさらに、このバージョンではモデルに追加の調整を加えることなく学習能力が向上していると付け加えています。
Gemini 1.5 Proはマルチモーダルで、テレビ番組、映画、ラジオ放送、電話会議の録音など、様々な音声をテキストに変換できます。さらに、複数の言語の音声を処理できる多言語対応機能も備えています。LLMは動画から文字起こしもできる可能性がありますが、TechCrunchが指摘しているように、その品質は信頼できない可能性があります。
Googleは当初、Gemini 1.5 Proはトークンシステムを用いて生データを処理していると説明していました。100万トークンは約70万語、または3万行のコードに相当します。メディア形式では、1時間の動画、または約11時間の音声に相当します。
Gemini 1.5 Proのプライベートプレビューデモがいくつか公開されており、LLMが動画のトランスクリプトから特定の瞬間を見つける様子が紹介されています。例えば、AI愛好家のRowan Cheung氏は早期アクセス版を入手し、スポーツ競技の正確なアクションショットを見つけ出し、イベントを要約するデモを詳細に解説しました(上記のツイートをご覧ください)。
しかし、Google は、United Wholesale Mortgage、TBS、Replit などの他の早期導入企業は、住宅ローンの引受、メタデータのタグ付けの自動化、コードの生成、説明、更新など、よりエンタープライズに重点を置いたユースケースを選択していると指摘しました。
フィオナ・アゴムオーはDigital Trendsのコンピューティングライターです。コンピューティング分野における幅広いトピックをカバーしており、その中には…
- コンピューティング
OpenAIの新しいAIビデオジェネレーターによる驚くほどリアルなクリップをご覧ください
メジャーアップデートにより、Sora の最新バージョンではオーディオも追加されました。
OpenAI は AI を活用したテキスト動画生成器の最新バージョンを発表したが、その結果は実に印象的である。
火曜日に発表された Sora 2 は、まったく新しい Sora ソーシャル アプリとともに登場します。このアプリでは、「アイデアをビデオに変えて、アクションに参加できる」ようになりますが、これについては後ほど詳しく説明します。
続きを読む
- コンピューティング
AIチャットボットを100時間使ってみた私のお気に入りのGoogle Geminiプロンプト
AI を最大限に活用したい場合に最適なプロンプトを以下に示します。
まず最初に言っておきたいのは、Google Geminiにすっかり夢中になっているということです。このAIチャットボットを徹底的に使い込み、100時間以上も使い込んだ結果、今ではすっかり私の日常の一部になったと自信を持って言えます。Geminiが文脈を理解し、ニュアンスに富んだ返答を返し、GmailからGoogleドライブまで、私が使っている様々なツールとシームレスに連携する様子は、まさに革命的です。
いずれにせよ、誇大広告は一旦忘れましょう。これは実世界での応用についてです。CopilotやChatGPT、PerplexityやGrokなど、他のAIも試してみましたが、それぞれに長所はありますが、Geminiは私にとってまさにうってつけです。直感的でパワフル、そして常に他の選択肢を凌駕する結果をもたらしてくれます。
続きを読む
- コンピューティング
私はGoogle Geminiにとても興奮しているので、他のAIに乗り換えるつもりはありません
私にとって、双子座は常にトップでした。
人工知能(AI)コンパニオンアプリが数多く登場しているため、どれが自分にぴったりなのかずっと迷っていました。しかし、時間をかけて全て試してみた結果、Google Geminiが常に私にとって最高のアプリであることが分かりました。
クリエイティブな発想にも、日々のタスクの支援にも、Google Geminiは他のAIツールと比べても常に私にとって最も役立ってきました。Copilot、ChatGPT、Grokなど、様々なAIコンパニオンツールを試してきましたが、どれもGeminiに匹敵するものはありませんでした。
続きを読む