日本語対応の音声クローンAI「ZONOS2」が登場、トランプ大統領の声でエヴァンゲリオンについて語らせるデモもあり

2026年06月15日 13時03分 AI

AI開発企業のZyphraが音声合成AI「ZONOS2」を2026年6月12日に発表しました。ZONOS2は人物の声や録音状況を再現しつつ任意のセリフをリアルタイム合成することが可能。日本語にも対応しており、オープンモデルとして公開されています。

ZONOS2: Real-time TTS with High-Fidelity Voice Cloning

https://www.zyphra.com/our-work/zonos2

Today we're releasing ZONOS2, our next-generation real-time TTS model with high-fidelity voice cloning.

ZONOS2 is the most expressive open-source TTS model, released under Apache 2.0 and available on Zyphra Cloud on @AMD. 🧵 pic.twitter.com/WvI7PXS80M
— Zyphra (@ZyphraAI) June 12, 2026

ZONOS2は人物の音声を再現して任意の文章を読み上げさせる「音声クーロン」が可能な音声合成AIモデルです。総パラメーター数80億、アクティブパラメーター数9億のMoEモデルとして設計されており、旧世代モデルのZonos-v0.1と比べてモデルの規模を大型化しつつ、リアルタイムスループットを4倍に向上させることに成功しています。 ZONOS-v0.1 Betaは合計約60万時間の音声データセットでトレーニングされていましたが、ZONOS2のデータセットは合計200万時間以上に増加しました。これにより、幅広い「言語」「録音条件」「テキスト領域」に対応し、ノイズや非定型的な発話パターンに対する耐性も向上しています。さらに、テキスト入力をUTF-8の生データとして扱うことで日本語・中国語・韓国語といった非ヨーロッパ言語での性能が大幅に向上しています。 ZONOS2の対応言語は以下のとおり。日本語は英語や中国語と並んでティア1言語として位置付けられています。

ティア言語ティア1 英語、中国語、日本語ティア2 韓国語、ロシア語、イタリア語、ポルトガル語、フランス語、スペイン語、ベトナム語、ドイツ語、ヘブライ語、オランダ語ティア3 スウェーデン語、ヒンディー語、タミル語、テルグ語、タイ語、ノルウェー語、ベンガル語、タガログ語、アラビア語、デンマーク語、インドネシア語、ポーランド語、ウクライナ語、ルーマニア語、フィンランド語、ハンガリー語、リトアニア語、エストニア語、

スロバキア語、クロアチア語、ラトビア語

音声合成モデルのベンチマークは機械的な評価によって「音声認識モデル(文字起こしモデル)で認識しやすいクリアな音声」が高く評価されがちです。このため、ベンチマークスコアと人間の聴覚での評価が一致しないことがあります。ZONOS2はベンチマーク上のスコアよりも人間にとって自然な音声を重視して設計されています。具体的には、参考音声に含まれる「背景ノイズ」「不自然な声」「その他の歪み」などの再現を重視しているとのこと。

ZyphraはZONOS2の生成例として「ドナルド・トランプ大統領の声で碇シンジや碇ゲンドウについて語らせる」というデモ音声を公開しています。

リアルタイム音声合成AI「ZONOS2」でドナルド・トランプ大統領に碇シンジや碇ゲンドウについて語らせる例 - YouTube

「バラク・オバマ元大統領にアメリカ製ガンダム開発計画について語らせる」というデモ音声もあります。

リアルタイム音声合成AI「ZONOS2」でバラク・オバマ元大統領にガンダム開発計画について語らせる例 - YouTube

ZONOS2は以下のリンク先でオープンモデルとして公開されています。ライセンスはApache License 2.0です。また、AMDのAIチップを活用したクラウドサービス「Zyphra Cloud」でも利用可能です。

Zyphra/ZONOS2 · Hugging Face

https://huggingface.co/Zyphra/ZONOS2

Googleが即時翻訳を実現する「Gemini 3.5 Live Translate」を発表、iOSとAndroidのGoogle翻訳アプリにも実装へ - GIGAZINE

コスパ重視AIモデル「Grok 4.3」が登場＆人間の声を2分以内にクローンできる音声合成機能「Custom Voices」も登場 - GIGAZINE

Googleが日本語対応の音声合成AI「Gemini 3.1 Flash TTS」をリリースしたので使ってみた、音声タグで感情を制御可能 - GIGAZINE

高速かつ高精度な視覚言語モデル「Zamba2-VL」が登場、Transformerより高速なアーキテクチャで開発 - GIGAZINE

AMD製AIチップで開発された拡散言語モデル「ZAYA1-8B-Diffusion-Preview」が登場、自己回帰モデルを拡散モデルに変換 - GIGAZINE