Diffusion Transformer for Adaptive Text-to-Speech
Audio Samples
General TTS
LJSpeech
LJ002-0214
GT mel + HiFi-GAN | WaveNet | DiT |
---|---|---|
LJ002-0219
GT mel + HiFi-GAN | WaveNet | DiT |
---|---|---|
LJ002-0257
GT mel + HiFi-GAN | WaveNet | DiT |
---|---|---|
LJ002-0308
GT mel + HiFi-GAN | WaveNet | DiT |
---|---|---|
LJ002-0316
GT mel + HiFi-GAN | WaveNet | DiT |
---|---|---|
VCTK
p316_053
GT mel + HiFi-GAN | WaveNet | DiT |
---|---|---|
p317_155
GT mel + HiFi-GAN | WaveNet | DiT |
---|---|---|
p341_115
GT mel + HiFi-GAN | WaveNet | DiT |
---|---|---|
p364_097
GT mel + HiFi-GAN | WaveNet | DiT |
---|---|---|
s5_017
GT mel + HiFi-GAN | WaveNet | DiT |
---|---|---|
Few-shot adaptation
LibriTTS -> VCTK
p238_018
GT mel + HiFi-GAN | AdaSpeech | DiT |
---|---|---|
p248_017
GT mel + HiFi-GAN | AdaSpeech | DiT |
---|---|---|
p294_012
GT mel + HiFi-GAN | AdaSpeech | DiT |
---|---|---|
p302_020
GT mel + HiFi-GAN | AdaSpeech | DiT |
---|---|---|
p347_004
GT mel + HiFi-GAN | AdaSpeech | DiT |
---|---|---|
LibriTTS -> LibriTTS
121_127105_000044_000003
GT mel + HiFi-GAN | AdaSpeech | DiT |
---|---|---|
237_134500_000025_000004
GT mel + HiFi-GAN | AdaSpeech | DiT |
---|---|---|
2961_961_000004_000008
GT mel + HiFi-GAN | AdaSpeech | DiT |
---|---|---|
8455_210777_000024_000005
GT mel + HiFi-GAN | AdaSpeech | DiT |
---|---|---|
8555_284449_000038_000000
GT mel + HiFi-GAN | AdaSpeech | DiT |
---|---|---|
Zero-shot adaptation
Reference Encoder: GenerSpeech
p238_017
GT mel + HiFi-GAN | Reference mel + HiFi-GAN | GenerSpeech | DiT | WaveNet |
---|---|---|---|---|
p245_020
GT mel + HiFi-GAN | Reference mel + HiFi-GAN | GenerSpeech | DiT | WaveNet |
---|---|---|---|---|
p248_012
GT mel + HiFi-GAN | Reference mel + HiFi-GAN | GenerSpeech | DiT | WaveNet |
---|---|---|---|---|
p294_014
GT mel + HiFi-GAN | Reference mel + HiFi-GAN | GenerSpeech | DiT | WaveNet |
---|---|---|---|---|
p302_003
GT mel + HiFi-GAN | Reference mel + HiFi-GAN | GenerSpeech | DiT | WaveNet |
---|---|---|---|---|