Watch

Grok 2.0はAI画像生成のガードレールを撤廃する

Grok 2.0はAI画像生成のガードレールを撤廃する
  1. コンピューティング
  2. ニュース

イーロン・マスク氏のxAIは、チャットボットモデル「Grok」の2つのアップデート版、「Grok-2」と「Grok-2 mini」をリリースしました。これらは前モデルよりもパフォーマンスが向上しているほか、X(旧Twitter)ユーザーがソーシャルメディアプラットフォーム上で直接AI画像を作成できる新しい画像生成機能も備えています。

「Grok-2の早期プレビューをリリースできることを大変嬉しく思います。これは、チャット、コーディング、推論において最先端の機能を備えた、前モデルGrok-1.5からの大きな進歩です。同時に、小型ながらも高性能なGrok-2の兄弟分となるGrok-2 miniも発表します。Grok-2の初期バージョンは、LMSYSリーダーボードで「sus-column-r」という名前でテストされています」とxAIは最近のブログ投稿で述べています。新しいモデルは現在ベータ版で、PremiumおよびPremium+加入者限定となっていますが、同社は今月中にEnterprise APIを通じて提供開始する予定です。

おすすめ動画

この画像生成機能は、Black Forest Labsが開発したFlux.1モデルを採用しているようです。OpenAIのDall-E、StableDiffusion、AdobeのFireflyなど、市場に出回っているほぼすべての画像生成システムには、ユーザーが悪用して人種差別的、偏見的、または暴力的なコンテンツ(特に有名人、政治家、その他の著名人が登場する場合)を生成することを防ぐためのガードレールが備わっていますが、Grok-2にはそのようなガードレールがないようです。

初期ユーザーの1人は、MetaのCEOであるマーク・ザッカーバーグ氏とxAIのCEOであるイーロン・マスク氏がボクシングをしている画像や、ターバンを巻いたドナルド・トランプ氏の画像を投稿しながら、「grok 2.0の画像生成はラマのものより優れていて、おかしなガードレールもない」と宣言した。

grok 2.0 のイメージ生成は llama よりも優れており、無駄なガードレールはありません。

ftw @elonmusk @grok pic.twitter.com/5wanVLrQyc

—シド (@siddaniagi) 2024年8月14日

「Grok 2.0は政治的なイラストや実在の人物を扱うだろうが、ChatGPTはそれを拒否する。これでGrokが一気に10倍楽しくなる……」と別のユーザーは主張した。

Grok 2.0 は政治的なイラストや実在の人物を扱いますが、ChatGPT は拒否します。

これのおかげでGrokが10倍楽しくなる…… pic.twitter.com/yDBJO0jWba

—ベンジャミン・デ・クレイカー 🏴‍☠️ (@BenjaminDEKR) 2024 年 8 月 14 日

この新機能は、間違いなくインターネット荒らしにとって恩恵となるだろう。また、11月に予定されている非常に争点の多い大統領選挙(今年、世界中で行われる50の国政選挙の1つ)を考えると、ソーシャルメディア全体での誤情報の拡散にも役立つ可能性が高い。

アンドリュー・タラントラ

アンドリュー・タラントーラは、ロボット工学や機械工学から自動車工学まで、さまざまな新興技術について 10 年以上取材しているジャーナリストです。

  • コンピューティング

遅延は終了しました。ChatGPTで無料で画像を生成できるようになりました。

OpenAI ChatGPT画像

爆発的なリリース、バイラルトレンド、そしてGPUの故障を経て、ChatGPTの新しい画像生成機能が無料ユーザーにもご利用いただけるようになりました。この機能は当初3月25日にリリースされましたが、有料会員からのギブリ画像リクエストがOpenAIに殺到したため、CEOのサム・アルトマン氏は翌日、無料ユーザーへの展開を「しばらく」延期すると発表しました。

幸いなことに、この遅延はわずか 5 日後に終了したようです。Altman 氏はすでに別の X 投稿を公開し、「image gen はすべての無料ユーザーに展開されました!」と述べています。

続きを読む

  • コンピューティング

OpenAI、スタジオジブリ作品の話題を受けてGPT-4o画像生成の無償提供を停止

OpenAI および ChatGPT のロゴには、赤い円と線の記号でマークされ、立ち入り禁止となっています。

OpenAIは、GPT-4o推論モデルを搭載したアプリ内画像ジェネレーターの無料版の提供をわずか1日で停止しました。このアップデートは、AI生成コンテキストにおける画像とテキストのリアリティを向上させることを目的としていますが、ユーザーの間で既に急激なトレンドが生まれており、OpenAIは展開戦略の見直しを迫られています。 

ChatGPTのアップデートが利用可能になって間もなく、ユーザーは日本の人気アニメスタジオ、スタジオジブリ風にアレンジした画像をソーシャルメディアプラットフォームに投稿し始めました。作品は、スタジオジブリをモチーフにした家族写真から、2024年パリオリンピックの象徴的なシーン、「ゴッドファーザー」や「スター・ウォーズ」といった映画のワンシーン、そして「気が散る彼氏」や「災難ガール」といったインターネットミームまで、実に多岐にわたりました。

続きを読む

  • コンピューティング

AI画像生成の未来をテストしてみました。驚くほど速いです。

HART によって生成された画像。

AIの根本的な問題の一つは、特にメディア生成のようなタスクにおいて、悪名高いほど高い電力と計算需要が
あることです。携帯電話でネイティブに実行するとなると、強力なシリコンを搭載した一握りの高価なデバイスだけが機能スイートを実行できます。クラウド上に大規模に実装する場合でも、高価な問題です。Nvidiaは、マサチューセッツ工科大学および清華大学の人々と提携して、この課題にひっそりと取り組んでいたのかもしれません。同チームは、基本的に最も広く使用されている2つのAI画像作成手法を組み合わせた、HART(ハイブリッド自己回帰トランスフォーマー)と呼ばれるハイブリッドAI画像生成ツールを作成しました。その結果、計算要件が劇的に低い、超高速のツールが生まれました。
どれだけ速いかを知っていただくために、ベースギターを弾いているオウムの画像を作成するように指示しました。わずか1秒ほどで次の画像が返されました。プログレスバーを追うことさえほとんどできませんでした。 Gemini の Google Imagen 3 モデルの前で同じプロンプトを押すと、200 Mbps のインターネット接続で約 9 ~ 10 秒かかりました。

大きな進歩
AI画像が初めて話題になり始めたとき、拡散技術がそのすべてを支え、OpenAIのDall-E画像ジェネレーター、GoogleのImagen、Stable Diffusionなどの製品を支えていました。この手法では、非常に高精細な画像を生成できます。ただし、AI画像を作成するには複数のステップが必要なため、時間がかかり、計算コストも高くなります。
最近人気が高まっている2つ目のアプローチは自己回帰モデルで、基本的にはチャットボットと同じように動作し、ピクセル予測技術を使用して画像を生成します。これはより高速ですが、AIを使用して画像を作成する方法としてはエラーが発生しやすいです。
HARTのオンデバイスデモ:ハイブリッド自己回帰トランスフォーマーによる効率的なビジュアル生成
MITのチームは、両方の手法をHARTと呼ばれる1つのパッケージに融合しました。これは、圧縮された画像アセットを個別のトークンとして予測するために自己回帰モデルに依存し、小さな拡散モデルが残りの部分を処理して品質の低下を補います。全体的なアプローチにより、必要なステップ数は24以上から8ステップに削減されます。
HARTの専門家は、「最先端の拡散モデルと同等かそれ以上の品質の画像を、約9倍の速度で生成できる」と主張しています。HARTは、7億のパラメータ範囲を持つ自己回帰モデルと、3,700万のパラメータを処理できる小規模な拡散モデルを組み合わせています。

続きを読む

Forbano
Forbano is a contributing author, focusing on sharing the latest news and deep content.