NO.833 未だWhiskに遠く及ばず

前回は、東海道五十三次をテーマに54枚の画像を生成しました。今回は、わずか2枚の生成です。
全く同じプロンプトを使い、SeaArt/SeaArt Film2.0とGoogleのWhiskで生成しました。
japanese rock band, shamisen, shakuhachi, drums, electric guitar, fusion of traditional and modern, energetic stage performance, kimono-inspired outfits with modern rock style, japanese patterns, dramatic lighting, sumi-e ink background, washi texture, cherry blossoms, fire sparks, contrast of stillness and motion, digital art
SeaArt Film2.0

Whisk

違いは歴然でした。SeaArtというよりStable Diffusionは、全くWhiskにかないません。もちろん今回の例1つだけで優劣を語るわけにはいきません。
「三味線」は現時点で、ほとんどの画像生成AIがうまく生成できません。従って、何かの単体がうまく生成できないのは良しとして、他の点が気になります。Filmの画像では、三味線奏者が尺八?を持ってさらにボーカルもしているという感じになっています。また、ドラマーはスティックではなく笛(尺八?)を持っています。このようなところがまだまだかなと思います。
並列に記された単語を1つの主体にまとめようとする傾向があるので違和感のある画像が生成されやすいようです。一方、Whiskは、並列に記載された単語があってもプロンプト全体の意味と意図をくみ取って生成しています。
今回使用したプロンプトは、GPTsがStable Diffusion用に作成したものです。ところが皮肉なことに、Whiskの方がうまく生成できました。そのことを考えるともしかしてStable DiffusionではなくGPTsの方が悪かった可能性があります。しかし、そう仮定しても、生成画像からすると、なおWhiskの優位性は明らかです。
プロンプトについて
今回使用したプロンプトを見ると、初めにロックバンドと宣言したあと楽器名の羅列になっています。そのため1人の奏者に複数の楽器を持たせたのかなと思います。それなら三味線奏者はオーケーです。しかし、それでもドラマーが笛を持っているところはまずいかなと思います。
そのことを確かめるためプロンプトを少し変更して生成しました。
日本のロックバンド、三味線を弾いている人、尺八を演奏している人、和太鼓をたたいている人、エレキギターを弾いている人、伝統と現代の融合、エネルギッシュなステージパフォーマンス、着物に着想を得たモダンロックスタイルの衣装、日本の文様、ドラマティックな照明、墨絵の背景、和紙の質感、桜の花、火花、静と動の対比、デジタルアート

三味線奏者がいなくなりました。そして何よりドラマーの様子が変わっていません。
プロンプトを英訳させると以下のようになります。
Japanese rock band, shamisen player, shakuhachi player, taiko drummer, electric guitarist, fusion of tradition and modernity, energetic stage performance, kimono-inspired modern rock style costumes, Japanese patterns, dramatic lighting, sumi-e backgrounds, washi paper texture, cherry blossoms, sparks, contrast between stillness and movement, digital art
「shamisen」という楽器名だけのプロンプトと「shamisen player」という人物を表すプロンプト、どちらのプロンプトでもやはり画像内のカオスはなくなりませんでした。



コメント