マルチモーダルAI
2024.2.6 BardとBingAIで初めて試したことがあります。それは、Alt+PrintScreenでスクショを撮り、Ctrl+Cでチャット欄に貼り付ける方法です。以下のやり取りから生まれました。
Bardで
「Bardのチャット履歴をすべて消す方法を教えてください。」
するとBardから回答が来ます。短く言うと「歯車から行け。」ということなのですが、間違っています。すると、画像で教えてくれというので、初めてチャット欄に画像を入れてみました。再び回答が来ましたが、先ほどと同じで回答が正しくありません。
今度は、BingAIへ行きました。初めからCtrl+Cを使い。画像を貼り付けた後に、同じ質問をします。言葉を一か所間違えていましたが、回答はほぼ合っています。
思わず笑ってしまいました。Bardのことを正しく答えたのがBingAIだったからです。
さて、公式発表によると、Bard英語版ではついに画像生成機能も使えるようになったとのことです。このように、生成する方はどんどん多機能になっています。一方、input側が、今回の例のように、画像、音声、動画などを使えるマルチモーダル化が加速しているようです。
アクティブウインドウのスクショ画像を送ったら、Bard、BingAIとも解析している様子が何となくわかりました。すごいなと思います。
コメント