VALL-E

VALL-E

Abstract. We introduceren een taalmodelleringsaanpak voor tekst-naar-spraaksynthese (TTS). We trainen een neuraal codec taalmodel (VALL-E genaamd) met behulp van discrete codes afgeleid van een kant-en-klaar neuraal audio codec model, en beschouwen TTS als een conditionele taalmodelleringstaak in plaats van continue signaalregressie zoals in eerder werk. Tijdens de voortrainingsfase schalen we de TTS-traininggegevens op tot 60K uur Engelse spraak, wat honderden keren groter is dan bestaande systemen. VALL-E beschikt over in-context leervermogen en kan worden gebruikt om hoogwaardige gepersonaliseerde spraak te synthetiseren met slechts een opname van 3 seconden van een ongeziene spreker als akoestische aanwijzing. Experimentresultaten tonen aan dat VALL-E aanzienlijk beter presteert dan het state-of-the-art nul-opname TTS-systeem in termen van spraaknatuurlijkheid en sprekerovereenkomst. Bovendien blijkt dat VALL-E de emotie van de spreker en de akoestische omgeving van de akoestische prompt in de synthese kan behouden.

Bezoek @https://valle-demo.github.io/

Inloggen

Registreren

Wachtwoord opnieuw instellen

Vul je gebruikersnaam of e-mailadres in. Je ontvangt dan een link waarmee je een nieuw wachtwoord kan instellen via de e-mail.