
Filmが登場した頃から、1つのプロンプトで1つの画像しか作れなくなりました。それはどういうことかというと、画像の一貫性を保持することに重きを置かれるようになったため、たとえシードが変わっても似たような画像になるということです。それはそれで重要なことであり大変なメリットなのですが、反面、複数画像生成する面白みは失われつつあります。
具体例を挙げながら話を進めます。
始まりの画像
Film1.0
A cinematic, modern night scene inside a vibrant, sleek jazz bar.
Through a large, floor-to-ceiling glass window, the blurred neon lights of a bustling city are visible, appearing only as abstract glowing colors and soft bokeh light shapes, with no readable signs or symbols.
In the foreground, a stylish 30-year-old male saxophonist with sharp features is playing a tenor saxophone with intense focus, his brow slightly furrowed.
Beside him, a female pianist plays with deep emotion, her eyes closed and a soulful expression on her face.
The jazz bar has polished, reflective surfaces that catch the cool blue and pink neon reflections from the city lights.
The atmosphere is moody, sophisticated, and high-energy.
The musicians are sharply in focus, while the background city lights are softly blurred.
No text, no letters, no typography, no logos, no signage, no billboards, no written characters, no readable neon signs anywhere in the scene.

2枚目/シードを変えてもう一度生成します。

背景に多少の違いあるものの、二人の位置関係や向きはほとんど同じです。恐らくプロンプトが秀逸なほどこの傾向は強まるでしょう。
そこで、ChatGPTに問いかけます。
生成の度に構図が変化するような不確定要素を加えてください。
ChatGPT
回答とプロンプト
構図を毎回変えるには、カメラ位置・被写体配置・瞬間の動き・光の入り方などに「ランダム性」を持たせる表現を入れると効果的です。
元のプロンプトに、構図・視点・距離・瞬間が毎回変わる要素を追加して修正しました。
A cinematic, modern night scene inside a vibrant, sleek jazz bar. Through a large, floor-to-ceiling glass window, the blurred neon lights of a bustling city are visible, appearing only as abstract glowing colors and soft bokeh light shapes, with no readable signs or symbols.
In the scene, a stylish 30-year-old male saxophonist with sharp features plays a tenor saxophone with intense focus, his brow slightly furrowed. Somewhere nearby, a female pianist plays with deep emotion, her eyes closed and a soulful expression on her face.
The composition is intentionally varied and unpredictable: the camera may appear at different angles such as low angle, high angle, over-the-shoulder, side profile, behind the musicians, or from across the bar. The framing may shift between close-ups, medium shots, wide shots, or partially obscured views through objects in the bar.
Foreground elements such as cocktail glasses, bar counters, silhouettes of patrons, hanging lamps, or reflections in polished surfaces may randomly appear and partially frame the musicians. The distance between the saxophonist and pianist may vary, and their positions in the frame can change each time.
The jazz bar has polished, reflective surfaces catching cool blue and pink neon reflections from the city lights. The atmosphere is moody, sophisticated, and high-energy. The musicians remain the emotional focus, while the background city lights are softly blurred.
No text, no letters, no typography, no logos, no signage, no billboards, no written characters, no readable neon signs anywhere in the scene.
このプロンプトを使って複数生成してみます。






二人の関係や向きはそれほど変わりませんでした。それは、不確定要素の条件を明確にしなかったためです。回答にあったように、「カメラ位置・被写体配置・瞬間の動き・光の入り方」など、何を不確定要素とするかを明示すれば、それに応じた変化のある画像が得られると思います。
不確定要素
画像生成AIのプロンプト理解、モデル、その他いろいろがどんどん進化する中で、複数生成時のつまらなさは増していると個人的には思っています。以前は画像そのものの質はお粗末でしたが、何が生成されるかワクワク感がありました。
おまけ(プロンプトの理解と言えば・・・)
画像生成AIが初期段階にあったころは、意外性がありました。「アジ」「ヒラマサ」「カツオ」「イカ」など魚名プロンプトで想定外の画像が生成されたことが思い出されます。当ブログ過去編に魚名プロンプトの仰天画像があります。↓






コメント