×
[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
VOCALOID「初音ミク」で、自然な発声ができる新技術「ぼかりす」。
ニコニコ動画にサンプルが投稿されたことで話題になっているようです。
初音ミクの“神調教”が自動で!? 「ぼかりす」に話題騒然 (ITmedia, 2008/5/1)
http://www.itmedia.co.jp/news/articles/0805/01/news103.html
とのこと。
動画はこちら。
【初音ミク】 PROLOGUE 【ぼかりす】
http://www.nicovideo.jp/watch/sm3128145
MSXのハンドアセンブルで、1ビットサウンドポートで入力した子音+母音情報をもとに
音声合成していた時代(おまい何歳だ)に比べれば、ものすごい技術の進歩ですね。
で、実際聞いてみました。
確かにかなり人間らしい歌唱になっています。
ただ
(1)発声の開始位置と長さが揺らいでいる
(2)音量の変化が乏しい
このへんがちょっと気になったので、どんな技術か調べてみることに。
VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステム
(Tomoyasu Nakano and Masataka Goto)
http://staff.aist.go.jp/m.goto/VocaListener/index-j.html
詳しい情報は2008年5月28日~29日の音楽情報科学研究会にて、とのことで
技術的な解説はまだ載っていないようです(2008/5/3現在)。
タイトルと(1)(2)から推測するに、どうやらオリジナルの歌唱から
音高・音長・音量を取り出してVOCALOIDの入力データを自動生成する
システムではないかと思います。
技術のキモは恐らく、従来の「耳コピソフト」で実現されている
単純な採譜機能に加えて、音高・音長・音量の微妙なゆらぎ(人間らしさ)を
データ化する部分かと。
実は、この「人間らしさ」のデータ化自体は昔から研究されていたテーマで、
それほど新しい機能ではありません。
ただし実際に適用しようとすると、人間の歌唱はものすごく複雑なデータを含み、
また人によって(あるいは曲によって)データが様々に変化するために
「人間らしさ」を抽出するためのパラメータ設定がとんでもなく複雑になってしまう。
このパラメータ設定に失敗すると(1)(2)のように、音長などが不自然に
揺らいでしまうため、使いこなすのが非常に困難でした。
今回発表される技術は、オリジナルの歌唱から「人間らしさ」を抽出するための
さまざまなパラメータを自動推定して、不自然な揺らぎを極力排除する技術
というところでしょうか。
実現すればVOCALOIDだけでなく、音声認識でターゲット話者に合わせた
音声抽出を行うなどの、いろいろな応用ができそうな技術です。
(オリジナル歌唱データを使うことによる権利がどうの、という不毛な議論は
ここでは置いておくとして)
こういう、ただのネタとして軽視されやすい研究の積み重ねから、
将来のブレイクスルーにつながる画期的な発明発見が出てくるのかも
しれません。
どんな内容の発表になるか、興味があるところです。
※ここで書いている技術の内容については、すべて自分の妄想です。
本当のところを知りたければ、28日~の学会に出るか学会誌を読むように!
ニコニコ動画にサンプルが投稿されたことで話題になっているようです。
初音ミクの“神調教”が自動で!? 「ぼかりす」に話題騒然 (ITmedia, 2008/5/1)
http://www.itmedia.co.jp/news/articles/0805/01/news103.html
ニコニコ動画に4月28日に投稿された「【初音ミク】 PROLOGUE 【ぼかりす】」
という動画で流れるミクの歌が、この技術を使って自動調整されているようだ。
聞いてみると、ミクの声がとてもなめらかにつながり、抑揚も自然。
まるで人間が歌っているかのように響く。
とのこと。
動画はこちら。
【初音ミク】 PROLOGUE 【ぼかりす】
http://www.nicovideo.jp/watch/sm3128145
MSXのハンドアセンブルで、1ビットサウンドポートで入力した子音+母音情報をもとに
音声合成していた時代(おまい何歳だ)に比べれば、ものすごい技術の進歩ですね。
で、実際聞いてみました。
確かにかなり人間らしい歌唱になっています。
ただ
(1)発声の開始位置と長さが揺らいでいる
(2)音量の変化が乏しい
このへんがちょっと気になったので、どんな技術か調べてみることに。
VocaListener: ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステム
(Tomoyasu Nakano and Masataka Goto)
http://staff.aist.go.jp/m.goto/VocaListener/index-j.html
詳しい情報は2008年5月28日~29日の音楽情報科学研究会にて、とのことで
技術的な解説はまだ載っていないようです(2008/5/3現在)。
タイトルと(1)(2)から推測するに、どうやらオリジナルの歌唱から
音高・音長・音量を取り出してVOCALOIDの入力データを自動生成する
システムではないかと思います。
技術のキモは恐らく、従来の「耳コピソフト」で実現されている
単純な採譜機能に加えて、音高・音長・音量の微妙なゆらぎ(人間らしさ)を
データ化する部分かと。
実は、この「人間らしさ」のデータ化自体は昔から研究されていたテーマで、
それほど新しい機能ではありません。
ただし実際に適用しようとすると、人間の歌唱はものすごく複雑なデータを含み、
また人によって(あるいは曲によって)データが様々に変化するために
「人間らしさ」を抽出するためのパラメータ設定がとんでもなく複雑になってしまう。
このパラメータ設定に失敗すると(1)(2)のように、音長などが不自然に
揺らいでしまうため、使いこなすのが非常に困難でした。
今回発表される技術は、オリジナルの歌唱から「人間らしさ」を抽出するための
さまざまなパラメータを自動推定して、不自然な揺らぎを極力排除する技術
というところでしょうか。
実現すればVOCALOIDだけでなく、音声認識でターゲット話者に合わせた
音声抽出を行うなどの、いろいろな応用ができそうな技術です。
(オリジナル歌唱データを使うことによる権利がどうの、という不毛な議論は
ここでは置いておくとして)
こういう、ただのネタとして軽視されやすい研究の積み重ねから、
将来のブレイクスルーにつながる画期的な発明発見が出てくるのかも
しれません。
どんな内容の発表になるか、興味があるところです。
※ここで書いている技術の内容については、すべて自分の妄想です。
本当のところを知りたければ、28日~の学会に出るか学会誌を読むように!
PR
この記事にコメントする
カレンダー
03 | 2025/04 | 05 |
S | M | T | W | T | F | S |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
ブログ内検索
最新記事
(01/31)
(01/14)
(01/13)
(01/08)
(12/24)
(12/21)
(12/18)
(11/30)
(10/25)
(10/20)
最新コメント
[08/15 Atsushi]
[08/15 ルシフェール]
[08/15 Atsushi]
[08/15 ルシフェール]
[05/15 Atsushi]
アーカイブ
カウンター
プロフィール
HN:
Atsushi
自己紹介:
MSXでハンドアセンブルしていた時代から幾星霜。
パソコンにまつわる話題を中心に、デジモノ・時事ネタを取り混ぜて気ままに更新しています。
パソコンにまつわる話題を中心に、デジモノ・時事ネタを取り混ぜて気ままに更新しています。
メールフォーム