Diffusion Transformer for Adaptive Text-to-Speech

Audio Samples

General TTS

LJSpeech

LJ002-0214

GT mel + HiFi-GAN WaveNet DiT

LJ002-0219

GT mel + HiFi-GAN WaveNet DiT

LJ002-0257

GT mel + HiFi-GAN WaveNet DiT

LJ002-0308

GT mel + HiFi-GAN WaveNet DiT

LJ002-0316

GT mel + HiFi-GAN WaveNet DiT

VCTK

p316_053

GT mel + HiFi-GAN WaveNet DiT

p317_155

GT mel + HiFi-GAN WaveNet DiT

p341_115

GT mel + HiFi-GAN WaveNet DiT

p364_097

GT mel + HiFi-GAN WaveNet DiT

s5_017

GT mel + HiFi-GAN WaveNet DiT

Few-shot adaptation

LibriTTS -> VCTK

p238_018

GT mel + HiFi-GAN AdaSpeech DiT

p248_017

GT mel + HiFi-GAN AdaSpeech DiT

p294_012

GT mel + HiFi-GAN AdaSpeech DiT

p302_020

GT mel + HiFi-GAN AdaSpeech DiT

p347_004

GT mel + HiFi-GAN AdaSpeech DiT

LibriTTS -> LibriTTS

121_127105_000044_000003

GT mel + HiFi-GAN AdaSpeech DiT

237_134500_000025_000004

GT mel + HiFi-GAN AdaSpeech DiT

2961_961_000004_000008

GT mel + HiFi-GAN AdaSpeech DiT

8455_210777_000024_000005

GT mel + HiFi-GAN AdaSpeech DiT

8555_284449_000038_000000

GT mel + HiFi-GAN AdaSpeech DiT

Zero-shot adaptation

Reference Encoder: GenerSpeech

p238_017

GT mel + HiFi-GAN Reference mel + HiFi-GAN GenerSpeech DiT WaveNet

p245_020

GT mel + HiFi-GAN Reference mel + HiFi-GAN GenerSpeech DiT WaveNet

p248_012

GT mel + HiFi-GAN Reference mel + HiFi-GAN GenerSpeech DiT WaveNet

p294_014

GT mel + HiFi-GAN Reference mel + HiFi-GAN GenerSpeech DiT WaveNet

p302_003

GT mel + HiFi-GAN Reference mel + HiFi-GAN GenerSpeech DiT WaveNet