ディープラーニングで誰でも簡単に「結月ゆかり」の声になる音声変換技術が開発されている

2020年12月28日20:00動画

AH-Softwareの読み取り用の音声合成ソフトウェアボイスロイドは自分で好きな言葉をソフトウェアに声を出して読むことができますので、動画のナレーションとロボットの発話に多く使用されています。しかし、VOICEROID設定はやや複雑で時間がかかること。だからマイクで録音した音声をVOICEROIDの “結月ゆかり「氏の声で誰でも簡単に変換することができる音声変更技術をDwangoメディアビレッジエンジニアであるヒホ氏がニコニコ動画で発表した。

ディープラーニングの力で誰もゆかりさんの声になる音声変換技術を作ってみた – ニコニコ動画

今回ヒホ氏が開発した、高品質、誰の声もゆかりさんの声に変換することができる技術です。

映画の中で、実際にヒホさんの声をゆかりさんの声に変換したものを聞くことができます。

「声を変換する」ということは、入力された音声データを、他の音声データに変換するものであり、最近では、深層学習によるアルゴリズム変換されるのが主流だそうです。

しかし、従来の音声変換は、入力された音声の波形を希望する音声データにアクセスすることで変換が、そのためには、入力音声にアルゴリズムが変換を学習しなければなり、効率的ではありません。

しかしヒホ氏の技術は、まず、音声を音の高さ（音程の高低）と音素（発音単位）に分解し、ピッチだけを変換して再合成する方法を採用しています。テキストで音声を生成本来のVOICEROIDシステムでは、声の抑揚や感情を乗せるために細心の調整が必要でしたが、この場合は、この方法であれば、誰の声も膨大な教材を必要とせずに、音声を変換することができます。

実際ヒホさんが人気バトルロイヤル解決」Apex Legends」をプレイしながら解説する音声をゆかりさんの声に変換する様子を動画で確認することができます。

ヒホ氏は、この技術を自作アニメの制作とVTuberような活動は、TRPGリプレイ解説動画などにも応用できるとします。しかし、記事の作成時点では、この音変換システムを展開する予定はないということです。

本来の音声変換は「リアルタイム」と「音声品質」折衝する必要が今回の技術は、音声品質を追求していますので、音声を入力してすぐに変換するリアルタイム性が弱いこと。それでも本来VOICEROIDの声を違和感なく設定するには、ある程度の経験やアドバイスも求められることがあるので、誰でも簡単にゆかりさんの声を手に入れることができる大きな魅力です。

また、ヒホ氏は同様のシステムを応用したAIボイスチェンジャー」Seiren Voice」も開発しています。Seiren Voice入力音声から音素を抽出し、アルゴリズムで音声を合成する方法で深層学習に膨大な学習教材と学習の試みを必要としないのが特徴です。

誰100種の音声に変換することができAIボイスチェンジャーを使ってみるとこんな感じ – GIGAZINE