NO.786 Qwen-Image

8/10にSeaArtからメールが届いていました。内容は、新しいモデルQwen-Imageの紹介です。そこには、以下のように書かれていました。
世界クラスの画像生成モデルがSeaArtに登場!
Qwen-ImageがSeaArtで今すぐ利用可能になりました — 50% off creditsの限定特典をお見逃しなく!トップクラスの画像生成モデルとして、Qwen-Imageはあなたのクリエイティブワークフローに強力なアップグレードを提供します。
今すぐ体験
✒️正確なテキストレンダリング
多言語テキストを様々なスタイルで処理し、スマートなレイアウト適応を実現。
🖼️すべてのシーンに対応
リアリズムからイラスト、ポスターから商品撮影まで、1つのモデルでカバー。
✍️シームレスな画像編集
テキストの編集、画像の交換、細部の調整が簡単にでき、視覚的一貫性を保持。
早速Qwen-Imageを使って、その実力を試したいと思います。
テキスト生成編
“no music no life” written on the paper in the black paint

1つ目クリア。
“No music no life” written on the paper in the black paint

これまでは、大文字小文字が指定通りにならなかったのですが、混在していても入力通りになりました。
“風林火山” written on the paper in the black paint

漢字もOKです。
“しんぶんし” written on the paper in the black paint

おぉぉぉ!! ついにひらがな生成時代に突入しました。「ぶ」は違っているので、濁点がまだだめなのかなと思います。
“みかん” written on the paper in the black paint

!!
“レモン” written on the paper in the black paint

カタカナはまだ生成できないのでしょうか。しかし、他のユーザーの方の作品に、猿が書道でバナナと書いているものがありました。そこで、試してみます。
“バナナ” written on the paper in the black paint

テキストは、正しく生成されませんでしたが、予想の斜め上を行く楽しい画像を提案してくれました。
更に、調べを進めます。
“音楽の無い人生なんて” written on the paper in the black paint

文字列を長くすると英訳されてしまうようです。それならばと最後のお試しをします。
“あい ラヴ you !” written on the paper in the black paint

ひらがなとカタカナは濁点が付くと駄目なようです。スペースを入れれば、混在したテキストもほぼきちんと生成してくれるようです。
まとめ
・ついに「ひらがな」「カタカナ」生成時代に入りました。
・濁点はまだ苦手なようです。
・大文字、小文字をコントロールできるようになりました。
普通生成編
最近使用したプロンプトを使って画像生成していきます。数が多いので、比較のための画像を掲載していませんのでご了承ください。
middle-aged female jazz pianist, playing black grand piano, warm spotlight illuminating her face and hands, realistic style, sharp focus on pianist, blurred bassist and drummer in background, no background, cinematic lighting, photorealistic

InfinityやFilmと明らかに違います。ピアノが艶やかです。ライティングに特徴があるようです。女性の表情やプレイスタイルはやや物足りない感じです。
月明かりの下、窓辺でワイングラスを傾ける貴婦人、高品質な肖像、繊細な表情、エレガントな姿勢、豪華な装飾品、絹の質感の服、柔らかな照明、幻想的な雰囲気、絵画のようなリアリティ、写実的な油絵、4K解像度、プロフェッショナルな仕上がり、極端な細部描写、HDR色彩、ボケ味

使い始めたばかりでわかりませんが、顔に特徴があるようです。
100人の小人がとても高い塔を建設している

このプロンプトでは、他のモデルと比べてとても良い画像になりました。
アニメ、1人の子どもが公園のブランコで遊んでいる

和服を着た女流棋士の囲碁対戦

monumental avant-garde floral installation, bold and unconventional design, multi-species and multicolored exotic flowers, dynamic sweeping shapes, flowing lines, grand spatial presence, high detail, artistic textures, centerpiece masterpiece, isolated on neutral background

この画像だけは、Filmと似ていますが、より立体的に感じられる画像になりました。
legendary NBA dunk, Michael Jordan style, free-throw line dunk, flying through the air, one-handed slam, iconic pose, intense game, packed arena, cheering crowd, dramatic lighting, spotlight on player, muscles tensed, realistic style, courtside view

プレーヤーとゴールはばっちりです。しかし、コートと観客の位置関係やコートとプレイヤーの位置関係が変になりました。
illustration, beautiful Japanese woman, long straight black hair, crimson modern kimono dress, flat color, bold outlines, Tsuruta Ichiro style, gold and black abstract Japanese background, cool and dignified, 2D art

オリジナリティーがあるので、コピーではなく完全にオマージュとして行けそうです。
female figure skater, performing on ice stage, graceful pose, elegant movement, white simple dress, flowing long hair, serene expression, spotlight on ice, magical lighting, minimal background, cinematic atmosphere, icy reflections, delicate posture, professional athlete

まとめ
・InfinityやFilmより個性的かなと思います。
・宣伝通り、リアルからアニメまで幅広いシーンに対応しているようです。
・ライティングに特徴があるようです。
・人物の顔の良し悪しは、生成する画像によってばらつきがあるようです。
・このモデルは、ユーザーによって好みが分かれるかもしれません。
ハードルが高いぞ編
これまでのモデルで困難あるいは未解決だったテーマでテストしてみます。
1人のオリンピック体操選手が床運動でアクロバティックな演技をしている

・片手がありません。
・足首、膝などの向きがおかしいです。
・脚の太さがおかしいです。
・体操選手以外の背景などはとてもいい感じに生成されています。
「床運動でアクロバティックな演技」、このテーマは、すべてのモデルでまだ未解決のテーマとして残りました。
hand in hand

こちらは他のモデルでもすでに克服されているテーマですが、定点観測の意味で生成してみました。合格です。
cool female rock guitarist, black leather jacket, electric guitar, on stage, under spotlight, confident expression, long flowing hair, dynamic pose, concert scene, blurred band members in background, silhouette, moody lighting, high contrast

こちらは、
・指の生成
・チューニングペグの数、弦の数の問題
これらの問題の検証です。1枚しか生成しませんでしたが、どちらの問題もクリアしているようです。
最後に1枚
BMX rider performing a backflip, fully upside down, bike and rider in inverted position, mid-air, cinematic low angle shot, blue sky background, motion blur, dynamic pose, realistic BMX bike, detailed frame, extreme sports photography style

これもハードルが高かったプロンプトでした。気が付いたところが1つあります。それは、前輪にだけモーションブラーがかかっているところです。動きを感じさせる画像に生かせるモデルかなと思いました。
Qwen-Image
総合評価は☆5つ、現時点では最高ランクに属するモデルかなと思います。しかし、個人的には少しだけマイナスポイントも感じるので「最強」とまでは言えません。権利関係が厳しくなっているので使用の際にはご注意ください。



コメント