富士通研究所は3月31日、高品質で多彩な声を、従来比約30分の1の短期間で作成できる音声合成技術を開発したことを発表した。 利用シーンや利用環境に合わせたトーンで情報を読み上げ、「緊急時は警告感のあるトーン」「雑音が激しいところでは通りやすい音声」など、状況に応じたリアルな感覚の音声を提供することが可能。さらに、親しみやすい声やキャラクターの特徴的な声など、サービスイメージにあった音声も提供可能とのこと。 あらかじめ大量に収録した音声波形を繋ぎあわせて合成する従来方式ではなく、声質・イントネーション・間の取り方といった、音声の複数の特徴をうまく捉えたパラメータに変換して合成する方式を採用した。パラメータに変換する技術と、機械学習を用いたアルゴリズムにより、音声の特徴を効率的に抽出できるので、元となる音声の収録が少量で済み、高品質で多彩な声を従来の約30分の1の期間で作成できる見込みだ。 今後、富士通研究所では、2014年度中の実用化を目指し、音声合成のさらなる高品質化をすすめる方針だ。