NO.481 現時点での限界
GPTsにプロンプトを生成してもらいました。
A vibrant jazz band performing in a lively atmosphere. The musicians are dressed in classic attire with a vintage touch—white shirts, suspenders, and bibs—playing various instruments like trumpet, saxophone, double bass, and drums. The scene is set in a cozy, dimly-lit jazz club with red velvet curtains and a wooden stage. A warm spotlight shines on the performers, creating a nostalgic, lively ambiance. The audience is engaged, tapping their feet to the rhythm. The mood is energetic yet smooth, capturing the essence of classic jazz music
このプロンプトを使って1枚画像生成したら、衝撃が走りました。
SDXL
AutismMix SDXL

心を落ち着け、全く同じ設定で同時に4枚生成します。




先ほどのは何だったのでしょうか。
設定を変えて生成します。
デフォルト
yayoi_mix

SDXL
Animagine XL V3.1

スタジオ
SeaArt Infinity

今回の例ではあまりわかりにくいかと思いますが、画像生成AIの現時点での課題は、1対1対応ができないところです。わかりやすい例でいうと、ピアニストがピアノを弾きながら、テナーサックスやトランペットを吹いているといった画像です。これは、人と楽器が1対1対応していない例です。SeaArtに限らず他の画像生成AIでもよく見られる現象です。プロンプトが長いと、含まれる要素が入り混じってしまいます。
楽器の生成については、例えば、ボディがベースでヘッドがテナーサックスという融合型が良く見られます。
Infinityの画像はかなりいいように見えますが、ギターとテナーサックスの融合、ベースを弾いている人物がいないなどおかしな部分があります。
一人の人物、一台の車など単体ではかなり良い表現ができるようになりました。手の生成もかなりよくなりました。次の課題は、複数のものをそれぞれ個別に完璧に生成できるようになることかなと思います。勿論、今回GPTsで生成したプロンプトにも問題点があります。しかし、1対1対応をかなり意識したプロンプトを使用しても現時点では似たような結果になります。
参考として、同じプロンプトを使用し、ImageFXで画像生成しました。

4枚生成したうちの1枚です。4枚とも、楽器はほぼいい感じに生成されていました。楽器の融合はありませんでした。その他の部分でもSeaArtと比較するとかなり優秀かなと思います。しかし、ベースを弾いている人がいません。Infinity画像と同じ現象が起きています。
もしかして、「double bass」というプロンプトが問題なのかなと思いますが、「double bass」は正しい言葉です。これを「bass」にすると、画像はエレキベースになってクラシックやジャズには不向きになってしまいます。「double」を「2」と解釈してはいないと思うのですが・・・。
今回のテーマの典型的な例/Flux

おまけの話
他の画像生成AIと異なり、SeaArtは良くも悪くも各種権利の存在する物体のプロンプトが通ってしまいます。例えば、「フェンダーストラトキャスター」「ギブソンレスポール」と固有名詞を続けて入力してもそれらと似たような楽器が正しく生成されます。「マーシャルのアンプ」とすれば、ご丁寧にロゴまで入ります。これを生かせば、「バイオリン」ではなく「ストラディバリ」でも使えるのかなと思います。「エレキギター」と入力するより、「フェンダーストラトキャスター」などと入力する方がより臨んだシェイプのものを創造できると思います。この方法が使えるのは、知る限りではSeaArtだけです。他の画像生成AI(※PCブラウザ版限定)では、創作ボタンを押した瞬間に警告が出ます。
コメント