Die VALL-E-KI von Microsoft kann Ihre Stimme mithilfe eines 3-Sekunden-Audiobeispiels imitieren

click fraud protection

Erinnern Sie sich an Tom Cruise, der spontan die Stimme eines Bösewichts nachahmt, um die Welt zu retten? Microsofts VALL-E benötigt nur einen 3-Sekunden-Clip, um so zu sprechen wie Sie.

Die Leute drüben bei Microsoft habe eine erstellt KI-basiertes Audiosynthesemodell namens VALL-E, das nur drei Sekunden lang die Stimme eines Menschen hören muss, bevor es anfängt, genau wie sie zu sprechen. Jetzt ist Microsoft die modernste KI-Technologie nicht fremd, insbesondere nicht im Jahr 2023. Erinnern Sie sich an Chat GPT, die chatfreudige Konversations-KI, die wie eine gelehrte Person mit Wissen über die ganze Welt sprechen kann? Nun, ChatGPT läuft ausschließlich auf den Azure-Servern von Microsoft, und sein natürliches Sprachmodell kommt, um Produkte wie die Bing-Suche und die Office-App-Suite zu verbessern. Stellen Sie sich vor, Sie sagen Outlook, dass Sie eine formelle Abwesenheits-E-Mail mit einer beiläufigen einzeiligen Aufforderung schreiben sollen!

Während es überall Gespräche darüber gibt, dass Microsoft 10 Milliarden US-Dollar in den Schöpfer von ChatGPT investiert, achten seine Experten auch genau auf die Audio-Seite der Dinge. Das Ergebnis ist

VALL-E, ein Text-to-Speech-Modell, das nur einen drei Sekunden langen Audioclip der Stimme einer Person benötigt um ein unheimlich ähnliches synthetisches Audio zu erzeugen, sagen, was auch immer ihm in Form von Textaufforderungen zugeführt wird. Das Potenzial einer solchen Innovation ist riesig. Stellen Sie sich vor, Gandhi zuzuhören, wie er sein Buch rezitiert, nachdem er VALL-E mit einem seiner seltenen Audioclips trainiert hat. VALL-E stützt sich auf eine Technik namens Neural Codec Language Model, die nicht nur aus den gesprochenen Wörtern lernt, sondern auch aus der einzigartigen Art und Weise, wie sie ausgesprochen werden, und dem tonalen Fluss von Sätzen.

VALL-E ist erschreckend gut

Bild: DALL-E 2 

VALL-E ist „der erste, der Audio-Codec-Codes als Zwischendarstellungen verwendet und eine kontextbezogene Lernfähigkeit entwickelt.“ Das Team dahinter schreibt in der Forschungsbericht dass VALL-E die gleiche Art von kontextbasierten Lernfähigkeiten bietet als ChatGPT-Plattform von OpenAI. Der größte Sieg von VALL-E liegt jedoch nicht darin, wie schnell es lernen kann, sondern in der Sprachnatürlichkeit, die es bietet, und in seiner unheimlichen Ähnlichkeit mit der menschlichen Referenzstimme. Eine weitere Errungenschaft ist das, was das Team als Aufrechterhaltung der akustischen Umgebung bezeichnet. Kurz gesagt, wenn die Stimme des Trainingsbeispiels irgendeine Form von Nachhall im Hintergrund hat, hat die vom Programm erzeugte synthetisierte Sprache auch diese Klangeigenschaften.

Aber was wirklich besorgniserregend ist – und etwas, das es schwieriger machen wird, echte Sprache von einer VALL-E-Rezitation zu trennen – ist das Zurückhalten von Emotionen. Das Forschungspapier stellt fest, dass „VALL-E kann die Emotion in der Eingabeaufforderung bei einer Zero-Shot-Einstellung bewahren.” Emotionen zu erfassen, stützt es sich auf einen Datensatz namens EmoV-DB, der sich auf fünf Kernemotionen konzentriert, die sich in den natürlichen Gesprächen einer Person widerspiegeln. Beim Generieren seiner eigenen Audioclips ist VALL-E in der Lage, die gleiche Emotion zu kopieren, die in der ursprünglichen Aufforderung erkennbar war. Aber VALL-E ist nicht perfekt, und es gibt noch ein paar technische Einschränkungen. Zum Beispiel können Wörter gelegentlich doppelt vorkommen oder einfach nur unverständlich wiedergegeben werden. Außerdem mag ein Datentraining im Wert von 60 Stunden Audio nach viel klingen, aber es ist immer noch nicht abwechslungsreich genug, insbesondere wenn unterschiedliche Akzente und Töne berücksichtigt werden.

Die Technologie von Microsoft ist beeindruckend. Eigentlich ist es beängstigend beeindruckend, und das Team erkennt das Potenzial für Missbrauch an. Darauf weist die Forschungsarbeit hin schlechte Schauspieler können es verwenden für das Spoofing oder die Identität einer anderen Person ohne deren Wissen. Die Hölle bricht los, wenn Betrüger solche Technologien in die Hände bekommen. Es erklärt auch, warum es keine öffentliche Version von VALL-E gibt, mit der man spielen kann, im Gegensatz zu anderen beliebten KI-Tools wie ChatGPT, DALL-E und Stable Diffusion. Glücklicherweise erwähnt das Forschungspapier, dass es möglich ist, ein Modell zu bauen, das echte Sprache aus einer von VALL-E erzeugten Sprache erkennen kann. Zur Zeit, Microsoft hat nicht gesagt, ob oder wann es plant, eine öffentliche Version von VALL-E zu veröffentlichen.

Quelle: GitHub, arXiv, Steven Tey/Twitter