■ - ソクラテスのチラシの裏だったもの

東大でやってる「毎回色々な技術者を呼んでお話をしてもらう」的な講義の１つとしてやっていた

剣持 秀紀
(ヤマハ株式会社サウンドテクノロジー開発センター)
VOCALOID〜『初音ミク』を支える歌声合成技術
http://www.eeis.t.u-tokyo.ac.jp/ccs/japanese/open_seminar/index.html

というのを見に行ってきました。
ニコニコとかで初音ミクはほとんど聞いたことなかった、というかVOCALOIDをクリプトンが作ってたわけではなかったことすら初めて知ったレベルなんですが、かなり面白い話でした。

最初は雑談。ヤマハの作ってるものとか。

バイクは完全に別会社化したので取扱いしていないらしい。

次に歌声(音声ではない)合成技術の歴史について。

実際に各機械で合成した歌のデモを交えてあるので進化の過程が分かって面白かった。
声色自体はそこそこそれっぽいのがわりと昔からあったよう。しかし昔のは歌詞が非常に聞き取りにくい。
ちなみに初音ミクでのデモはニコニコで拾ってきたらしい鳥の詩。

本題に入ってVOCALOIDの音声合成の基本的な仕組み。

初音ミクでは内部に「あー」みたいな母音を伸ばす部分の音素と「うえ」とか「いｓ」みたいに「母音→母音」とか「母音→子音」みたいな音の繋ぎ部分の音素を保持してあって、それをうまく繋ぎ合わせてますよ、というのが基本原理。
で、その音素を繋ぐときにピッチを合わせるだけでは当然音色が不自然になるので、そこをどうするかという問題。
VOCALOIDではそれを音素を「ピッチ」と「音色」だけでなく、その音色の部分を「スペクトルの慨形の部分」と「細かいギザギザの部分」とに分けて、繋ぎ方をそれぞれ変えることで劇的にリアルさを改善したらしい。
このあたりがすごい意外で、自然な繋ぎを実現するためにある種「職人芸」的なヒューリスティックな部分でどうにかしているものだと思っていたので（まあ実際には今回発表してないだけでそういう部分も多分にあると思いますが）、こういうある程度システマチックな工夫で自然さを向上できることが出来るのかと。

実際のVOCALOIDを使って初音ミクが出来るまでというような話。

クリプトンは「この人の声でVOCALOID作ってください」と依頼し、実際に音素とかを録音して解析するのはヤマハの仕事。
で、その歌手に頼んで音素を録音していくというのが死ぬほど単調で辛い作業らしい。
発声練習よりもっと単調な発声を５時間とかひたすら続けるそうな。歌手がキレて「ギャラいらないからもう帰る」ということもあったらしい。
で、歌手はそれで終わりでも今度は技術者の方が声を（人力で！）うまく区切りの部分とかをひたすら解析していくと。
歌声合成ソフトには自然さだけでなく「安い・早い」も必要だけどこのあたりがネックらしい。
初音ミクは「それなりに安くて」「それなりに自然」と。現状だとソフトを作る側は音素をデータ化するのが大変で、歌を合成する側もベタ打ちから調整(調教)するとなると大変。

あとニコニコとかでの発展具合について開発者から見て感じることとか。

出来がいい(よく調教された)歌を聞いてそれでも残ってる欠点とかから今後の課題を見つけたり。
とりあえずベタ打ちの精度は上げて、ゆくゆくは(他の楽器と同じく)商業用音楽の現場にも使われ得るようになったらなあ、というかそのうちなるでしょう、という夢。
でもあくまでVOCALOIDは「歌声」合成を目指していて、「文章読み上げ」みたいな音声合成はやる気はあんまりないらしい。
というわけで「初音ミクにニュースを読ませたい」というリクエストがよくあるけどそれは多分やらないと。ダミ声への対応あたりが目下の問題らしい。