Amazon hat als jüngstes Mitglied seiner Modellfamilie Nova nun Nova Sonic veröffentlicht, das das Verstehen und Generieren natürlicher Sprache in einem Modell zusammenfasst und so zu einer natürlicheren mündlichen Kommunikation beitragen soll.
Traditionellerweise basieren Anwendungen mit gesprochener Sprache aus dem Zusammenspiel verschiedener Modelle, die einmal gesprochene Sprache aufnehmen und in Text verwandeln, dann diesen Text an ein LLM geben, das ihn verarbeitet und eine Antwort in Textform generiert, die dann schließlich ein drittes Sprachausgabemodell wieder in Töne verwandelt.
Nova Sonic vereint all diese Schritte in einem Modell, was nicht nur die Latenz vermindert, sondern auch zu flüssigeren und natürlicher wirkenden Dialogen führen soll, bei denen Faktoren wie Tonfall, Sprachmelodie und Sprechstil besser berücksichtigt werden. Die Stimme klingt dann weniger roboterhaft und kann die nonverbale Ebene gesprochener Sprache besser verstehen und wiedergeben. Nova Sonic benutzt auf intelligente Weise Pausen, Unterbrechungen und Zögern, um natürliche Sprachmuster zu verarbeiten und einen reibungsloseren Dialogfluss zu ermöglichen.
Das Modell ist so konzipiert, dass es über eine API in Amazon Bedrock branchenübergreifend eingesetzt werden kann. Es wird die Erstellung von sprachbasierten Anwendungen in Bereichen wie Reisen, Kundenservice, Unterhaltung und Gesundheitswesen vereinfachen.







Ja, und die (eingesprochenen) Daten der Nutzwer noch mehr unberechtigt nutzen ;-(