マルチメディアに関連したソフトウェアの研究開発をしている「テクノスピーチ」
テクノスピーチの研究チームが手掛けた音声合成に関する論文が、音声・音響処理分野で世界最大の国際学会である「ICASSP 2023」に採択されました。
テクノスピーチ「ICASSP 2023」採択
タイトル:EMBEDDING A DIFFERENTIABLE MEL-CEPSTRAL SYNTHESIS FILTER TO A NEURAL SPEECH SYNTHESIS SYSTEM
テクノロジーの進化により日々変化する音声関連技術のニーズに応えるべく、継続的に研究および開発に取り組んでいる「テクノスピーチ」
今回、その成果がICASSP(International Conference on Acoustics, Speech, and Signal Processing)において高く評価され、論文の採択を受けました。
論文の内容は、最新の深層学習技術と音声信号処理の統合により、音声合成タスクにおいてトレードオフの関係になりがちな「高い自然性」と「韻律のコントローラビリティ」を両立させる手法に関するものです。
論文内で、深層学習技術による合成音声の品質向上とともに、韻律制御に対する高い頑健性が示されています。
また、論文内では強調されていませんが、GPU駆動ではなくCPU駆動でのリアルタイム性を意識した設計になっているのも特徴です。
研究の成果は2023年6月6日にICASSPの開催地であるギリシャのロードス島にて発表されます。
また、実験に使用したコアモジュールは関連研究の一助となることを願い、GitHub上で公開されています。
なお、今回の研究成果は国立大学法人名古屋工業大学 国際音声言語生成技術研究所との共同研究によるものです。
韻律のコントローラビリティを維持した、高品質な音声合成の実現を目指す論文を発表。
「ICASSP 2023」にて採択された、テクノスピーチの紹介でした。