Estonian Multispeaker TTS with TransformerTTS

These samples are created using single-speaker and multispeaker models on 10 Estonian speakers. The waveforms are generated with HiFiGAN. Samples from the original implementation can be found here.

Ground truth	Ground truth (mel + vocoder)	Baseline (student-teacher)	Ext. alignments (single-speaker)	Ext. alignments (multi-speaker, GST)	Ext. alignments (multi-speaker, embedding)
Albert: Teine põhjus meelemürke inimese nägemisväljast eemal hoida seostub meie lastega.

Indrek: Ma õppisin teoloogiat, aga mitte selleks, et kantslisse tõusta ja jutlusi pidada.

Kalev: Ma tahan saada terveks ja loodan peagi tööle naasta", rääkis ta toona.

Külli: See lihtsalt pidi niiviisi olema, sest kõik muu mu ümber tundus nii tõeline.

Liivika: Lamasin öösel unetult Šarlote voodis, teki olin kõrvale heitnud, kuna oli liiga soe.

Mari: "Seda lihtsam on meil võimalik lahendada see kitsaskoht, vähendades nii mõnegi ajateenija olmemuresid ning aidates neil rohkem keskenduda väljaõppele", ütles Rannaveski.

Meelis: "Oru Pearul on ometi õigus, kui ta ütleb, et kool kasvatab hobusevargaid."

Peeter: Kulunud pruuni ülikonda kandev mees toetas küünarnukid lauale, sättis käelaba lõuale toeks ja hakkas teda jõllitama.

Tambet: Nii sidus eesliajaja looma esijalad kokku, võttis koorma endale selga ja läks tagasi oma üüritud kohta värava juures.

Vesta: Juba homme läheb Tallinna Lauluväljakul suuremaks võidukihutamiseks!