something blue :: blog ぼかりすの正式名称を公開「VocaListener」

[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2025/06/30 (Mon)

ねとらぼでも取り上げられた調教技術「ぼかりす」。
以前の記事でもちょっとだけ正体を妄想してみましたが、その詳細が
webに公開されました。
正式名称は"VocaListener"だそうです。

VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステム
http://staff.aist.go.jp/m.goto/VocaListener/index-j.html

論文と発表資料がリンク先に掲載されていますね。
ざっと読んでみました。

※　自分は研究者でも学会発表を聞いたわけでもありません。
※　以下は知識のない一般人が論文を適当に読んだ感想みたいなものですので
※　内容に誤りがあることを前提としておいてください。
※　間違っても、このページの情報をもとに↑リンク先の研究者に
※　質問や苦情など送らないように！

合成歌唱を得るための処理の流れを見てみると

(1) 合成する元となる歌唱データ（目標歌唱）と歌詞を入力として用意する。
(2) 歌詞を形態素解析でかな文字に分解。HMMぽい図が載ってます。
(3) 目標歌唱に、かな文字化した歌詞を仮割り当てする。
(4) 目標歌唱から音高・音調・付帯情報（ビブラートなど）を取り出す

ここまで前準備。
これらの要素技術をVocaListener-front-endと呼んでいるぽい。

で、ここからが本番。
VocaListener-coreと呼ばれる手法を適用する。

(5) 仮割り当てした歌詞を、目標歌唱をもとに微調整（始端と終端を結合するなど）。
　このフェーズは、ある程度は自動で行うが、最終的にはユーザによる調整となる。
(6) 歌詞のノートナンバー決定。実際の音階に割り当てる。
　音量やピッチベンドなどのパラメータも決定する。
(7) (5)(6)のパラメータをもとに実際に合成歌唱を作成し、目標歌唱との誤差を計算。
(8) 何度か(5)-(7)を繰り返して、誤差が最小となるものを最終的な合成歌唱とする。

VocaListener-coreのアルゴリズムを簡単に言えば、得点付きカラオケで何度も
歌ってみて最高点のものを出力するシステムと考えればいいかと思います。
（評価アルゴリズム自体は得点付きカラオケと同じものではないです、一応。）

あとは補助的なしくみとして、目標歌唱をいじるツールである
VocaListener-plusについても記述してあって、こちらも面白いんだけど
合成歌唱システムとは直接関係しない（たぶん）ので今回は省略します。

フィードバックにより合成歌唱を目標歌唱に近づけていくという着眼は
面白い発想だと思います。
問題点としては、
・歌詞データの始端／終端マッチングをユーザーが手伝わなければならない。
（ある程度は自動で行けるらしい）
・音量のマッチングが困難である。
・声質が近くないとフィードバックが正常に働かない可能性がある。
という点でしょうか。

論文のデータでも示されているとおり、発声データから音量を取り出すことは
実はかなり困難な作業です。
フィードバックの反復によりほぼ飽和した相対エラー量が、音高では1.7～2.4%
なのに対して音量では13.8～17.5%と、かなり多めのエラーが残っており、
このあたりは前回の記事の

(2)音量の変化が乏しい

という感想とほぼ合致します。
これは、音高はノートナンバーとピッチベンドを組み合わせることで
目標歌唱に高精度にマッチングさせることができるけれど、音量については
あまり調整の粒度が細かくないのも一因かもしれません。

そもそも歌声は正弦波ではないので、波形から計算したパワーが同じでも
声質により通りやすい音／通りにくい音が存在する点が面倒くさいところ。
ここは、元データを一定のスペクトル毎に分割して、各バンドごとに重みづけした
パワー値の合計を取ると改善するかもしれません。
「通りやすい音」の解析としてはかなり大雑把ですが。
音響心理学の分野からのアプローチが有効かもしれませんね。
（興味があれば「等ラウドネス曲線」などで検索すると面白いかも）

また声質についても、論文中で

なお、本システムで合成した歌唱を目標歌唱として与え、
パラメータの再推定を試みた結果、元のパラメータと
ほぼ同じとなることも確認した。

とあることから、目標歌唱の声質が合成歌唱の声質と同一であれば
ほぼ完璧にパラメータを復元できるようです。
逆もまた真なり、とひねくれて考えると、声質が極端に違っていれば
フィードバックによる「カイゼン」アルゴリズムが破たんする可能性も
あるのかもしれません。
中島みゆきとか入力するとどうなるんでしょうか。興味深くはあります。

いずれにせよ、ユーザの負荷をほとんどかけずに、ある程度の「人間らしい」
合成歌唱を得られるのは面白い技術だと思います。
今後も、ブレス音の再現や声質の動的変動を織り込むなど、より
人間らしい歌唱が実現できるよう研究していくということです。

最終的には「人間らしい歌唱」というものを客観的に数値評価する
モノサシをきちんと確立する必要が出てくるのかもしれません。

2008/06/03 (Tue) 技術系？ Trackback() Comment(0)