« ああっ女神さまっ とか・・・ | トップページ | HDDのお引っ越し »

2009.07.28

「プロ品質の8割」に迫る音声合成技術

「プロ品質の8割」に迫る音声合成技術、富士通研が開発

ボーカロイドで最近ではちょっと身近な話題(謎)になった音声合成ですが、歌よりも会話(ナレーション)の方が難しい(違和感を感じやすい)・・・らしいので、かなりイイ感じかもしれない。

プレスリリースの方を見ると・・・
ってアレ?何かタイトルが違う(^^;

ITmedia:「プロ品質の8割」に迫る
リリース:プロのナレーションに迫る

ナレーション「そのもの」に迫るのと、ソレの8割に迫るのでは、随分違うような・・・
ってか「プロの品質の8割」って何?

音声品質の評価方法である「CMOS評価」で、プロのナレーション品質の80%に迫る業界最高クラスのスコアを達成したという。
CMOS評価というのはこういうのらしい。
要は、評価する音声と、基準となる音声を順番を変えながら交互に聞いて、どっちが良いかという評価を±3で付けて平均を取るという方法。
P.800 Annex Eは、電話等の音声品質を評価するための手法ですが、音質の良否ではなく自然に聞こえるかどうかで評価すれば、同じ評価方法が使えるって事ですかね。

で、これで80%近くのスコアだったから「プロ品質の8割に迫る」って事なのか。
だったら、ITmediaのタイトルの方が正しいっぽいですね。
(プレスリリースは誇大広告(^^;)

このCMOS評価ってどのような曲線になるんでしょうかね?
リニアであれば、あと2割頑張れば100%に近付く事になりますが、対数であれば100倍頑張らなきゃいけないって事になるんですが(^^;
なので、リニアなら「8割に迫った≒プロ品質に迫った」と言えなくもないけど、対数であれば「8割に迫った=プロ品質にはまだまだ」って感じなのカモ

とはいえ、カーナビとか、ある程度話す内容が限られているものは実用されているものも多いですが、任意の自然文を同じように話せるようになれば、色々用途も広がるでしょうね。

大規模音声波形データベースってのは、誰かが実際に話した音声の断片をデータベース化してるのかな?
ココの元データを変えると、色々な人の声に変わったりするのであれば、そのうち釘宮ROMとかが高価流通するようになるのかもしれない(^^;

|

« ああっ女神さまっ とか・・・ | トップページ | HDDのお引っ越し »

パソコン・インターネット」カテゴリの記事

コメント

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: 「プロ品質の8割」に迫る音声合成技術:

« ああっ女神さまっ とか・・・ | トップページ | HDDのお引っ越し »