KI von Meta fungiert als Simultan-Übersetzer für 100 Sprachen
KI-Übersetzungsprogramme wie Google Translator oder DeepL sind schon längst Teil unseres täglichen Lebens. Allerdings sind solche Systeme in der Regel schriftbasiert. Um gesprochene Worte zu übersetzen, werden diese im Regelfall von einem KI-System transkribiert, um dann von einem weiteren Modell übersetzt zu werden. Anschließend sorgt ein Text-to-Speech-Modell für die Audioausgabe. Forscher:innen von Meta haben nun …
KI-Übersetzungsprogramme wie Google Translator oder DeepL sind schon längst Teil unseres täglichen Lebens. Allerdings sind solche Systeme in der Regel schriftbasiert. Um gesprochene Worte zu übersetzen, werden diese im Regelfall von einem KI-System transkribiert, um dann von einem weiteren Modell übersetzt zu werden. Anschließend sorgt ein Text-to-Speech-Modell für die Audioausgabe. Forscher:innen von Meta haben nun ein neues KI-System entwickelt, das gesprochene Sprache direkt in eine andere übersetzen kann, ohne dabei den Umweg über mehrere KI-Modelle zu nehmen. Die KI wurde auf den Namen „SEAMLESSM4T“ getauft und kann 101 Sprachen als Input verarbeiten und in 36 Sprachen Ausgeben.
Neue KI übersetzt 101 Sprachen
Übersetzungs-Systeme, die mehrere KI-Modelle einsetzen, erfordern viel Rechenleistung und KI, was eine weitere Skalierung dieser Systeme recht schwierig macht. Forscher:innen des Meta-Forschungszentrum FAIR haben nun einen andere Ansatz für Übersetzungen durch KI entwickelt: Ihr neues KI-Modell kann gesprochene Sprache direkt übersetzen, ohne den Umweg über eine Transkription machen zu müssen. „SEAMLESSM4T“ kann 101 Sprachen in insgesamt 36 Sprachen übersetzen. Im Fall von Speech-to-Text-Übersetzungen kann das System die Übersetzung in 96 Sprachen ausgeben. Der KI-Dolmetscher beherrscht somit deutlich mehr Sprachen als bisherige Speech-to-Speech- oder Speech-to-Text-Übersetzungsprogramme.
Das Vorbild für den KI-Übersetzer findet sich in der Literatur des Schriftstellers Douglas Adams: Der Babelfisch aus „Per Anhalter durch die Galaxis“ ist ein kleiner Fisch, der ins Ohr des Nutzers gesteckt wird und dann alle Sprachen des Universums simultan übersetzen kann. „Einen solchen Babelfish zu erschaffen, erfordert allerdings fortgeschrittene, innovative Technologien und linguistische Expertise„, so die Forscher:innen rund um Loïc Barrault.
SEAMLESSM4T ist anderen Systemen überlegen
Die Basis von SEAMLESSM4T ist ein KI-Modell, das mit etwa 4,5 Millionen Stunden Audiodaten aus dem Internet trainiert wurde. Dabei lernte der Algorithmus zu erkennen, wann ein Input mit einem zweiten inhaltlich übereinstimmt, etwa wenn ein Videoclip in einer Sprache mit Untertiteln in einer anderen übereinstimmt. Die Forscher:innen stellten 330.000 Stunden solcher Übereinstimmungen zusammen und ließen das KI-Modell sich dann selber tranieren.
Anschließend testeten die Forscher:innen, wie gut der KI-Dolmetscher im Vergleich zu anderen Speech-to-Speech-, Speech-to-text-, Text-to-text- und Text-to-Speech-Programmen arbeitet. SEAMLESSM4T stellte die Ergebnisse anderer Systeme dabei in den Schatten und erreichte acht Prozent höhere Werte bei Sprache-zu-Text- und 23 Prozent höhere Werte bei Sprache-zu-Sprache-Übersetzungen, so das Team.
Und auch in lauten, von vielen Stimmen erfüllten Umgebungen schlug das System sich gut. „SEAMLESSM4T-V2 ist dabei im Schnitt 42 bis 66 Prozent resilienter gegen Hintergrundgeräusche und Sprechervariationen„, so die Forscher:innen. Das KI-Modell ist außerdem Open Source, sodass das Grundmodell an die eigenen Bedürfnisse angepasst werden kann.
KI ist in bestimmten Situationen noch fehleranfällig
Die Forscher:innen gehen davon aus, dass die neue KI Chancen eröffnet, Menschen über Sprachbarrieren hinweg zu verbinden und die gesprochene Kommunikation deutlich leichter zu gestalten. Außerdem könnten sehbehinderte oder blinde Menschen und Personen, die nicht lesen können, von der KI profitieren. „Durch SEAMLESSM4T unterstützte Anwendungen können Nutzer in multilingualen Konversationen unterstützen und ihr Selbstvertrauen in solchen Interaktionen fördern„, schreibt das Team.
Das System ist indes auch noch nicht perfekt. Ähnlich wie andere gängige KI-Übersetzungsmodelle hat auch SEAMLESSM4T Probleme mit Dialekten, undeutlicher Aussprache und anderen Abweichungen von der „normalen“ Aussprache. Die Forscher:innen sehen ihre KI daher eher als eine Ergänzung zum Sprachenlernen oder eine Unterstützung für menschliche Dolmetscher:innen. Einen völligen Ersatz stellt das KI-Modell noch nicht da.
via Nature
What's Your Reaction?