
「リップシンク」の機能を試したいと思います。
元画像

日本語の原稿を少し間違えてしまいましたが、とりあえず原稿無しで聞いてみてください。
リップシンク #1
抑揚やアクセントがおかしいところは許容するにしても、他の部分が少しいただけません。原稿に数字を入れると、中国語?のようになってしまいます。
原稿を修正し、翻訳ソフトで英訳した後に生成してみました。
元原稿
10月22日、お昼のニュースです。今日午前、日経平均株価は、史上初の5万円台を付けました。お昼のニュースでした。
英訳
October 22nd, noon news. This morning, the Nikkei Stock Average reached the 50,000-yen level for the first time in history. That was the noon news.
リップシンク #2
英語だとかなり自然に聞こえます。
リップシンク
コスト:80クレジット
発話時間:「リップシンク #2」の場合で10.3秒
音声:男女いろいろな選択肢から選べます。
原稿文字数:200字(最低10文字以上必要です。)
文字数については気が付いたことがあります。日本文で150字程度の文章でも、英訳すると200字を超えてしまい最後まで読ませることができません。コンピュータの世界では、アルファベット、漢字、かななどの情報量としての扱い方があると思います。しかし、SeaArtの文字数は、純粋に、文字種半角全角問わず、1文字とカウントされているようです。そうすると、単に1文字の持つ情報量という意味では、中国語>日本語>英語というようになると思います。以下に実例を示します。
SeaArt文字数カウント例
你好,我是花子。8文字
こんにちは、私は花子です。13文字
Hello, I’m Hanako.18文字
原稿を読ませることについて
音楽生成AIの一つであるSunoAI。現在のバージョンは5.0です。それが1.0だったころ、歌わせる歌詞をすべて「かな」で入力している方がたくさんいらっしゃいました。バージョンが上がるとともに漢字の読み間違いが少なくなって、現在は、普通の文でも上手に歌ってくれます。リップシンクでも全文ひらがなにしたらどうなるか試してみたいと思っています。
D-ID
SeaArtのリップシンクにかなり似た機能です。今回の例のような文章でも、リップシンクより上手に読んでくれます。
CoeFont
自分の声を登録すれば自分の声のフォントができます。完成してしまえば、オリジナル音声音源の完成です。ただし、作成には膨大な時間がかかります。プリセットされた音声に読ませることもできるので、そこで作成した音声をリップシンクで使うこともできます。声優さんの声もあるので魅力を感じる方はいかがでしょうか。
このブログの第24回にリップシンク同様の機能で作成した動画がありました。D-IDを使って作成したものです。

2023年時点でこのクオリティがあったのですね。リップシンクにはもう少し頑張ってもらわないと。



コメント