Künstliche Intelligenz KI übersetzt auch seltene Sprachen
204 Sprachen verstehen und übersetzen - das KI-Sprachmodell eines internationalen Forschungsteams soll das können. Im Fokus stehen vor allem weniger bekannte Sprachen.
Weltweit gibt es etwa 7.000 verschiedene Sprachen. Die bekanntesten KI-Sprachmodelle beherrschen aber oft nur einen Bruchteil von 30 bis maximal 80 Sprachen. Das will ein internationales Forschungsteam im Auftrag des Facebook- und Instagram-Konzerns Meta ändern. Ihr neues KI-Modell kann mit 204 Sprachen umgehen. Mit diesem universellen Übersetzungsprogramm soll es bald möglich sein, mit "beliebigen Personen überall auf der Welt und egal in welcher Sprache zu kommunizieren", schreibt der Konzern. Doch wie soll das funktionieren?
Wikipedia nutzt das KI-Modell bereits
Mehr als 20 Millionen Menschen sprechen in Zentralafrika Lingála und trotzdem gibt es nur wenige Tausende Wikipedia-Artikel in der Sprache. Denn wer ausschließlich einige wenige und verbreitete Sprachen kann, profitiert auch heute im Jahr 2024 nur wenig von einem Internetzugang. Genau das können gute KI-Übersetzungsprogramme ändern. Wikipedia nutzt bereits das KI-Modell NLBB von Meta. Wikipedia-Mitarbeitende verwenden das KI-Tool zum Beispiel beim Übersetzen und Bearbeiten von Artikeln. In Zukunft könnten Menschen trotz unterschiedlicher Sprachen miteinander kommunizieren, so die Vision.
Wie Künstliche Intelligenz neue Sprachen lernt
Damit KI-Modelle in Zukunft auch seltener gesprochene Sprachen beherrschen, wird vor allem das Training verändert. Bei den gängigsten Sprachen kann das KI-Modell auf Millionen von Textbeispielen zurückgreifen. Bei sogenannten ressourcenärmeren Sprachen sind es manchmal nur wenige Tausend Beispiele. Deshalb hat das Forschungsteam einen Algorithmus entwickelt, der Parallelen zwischen verschiedenen Sprachen erkennt. Mit diesen Gemeinsamkeiten ist das KI-Tool gezielt trainiert worden.
Viel entscheidender ist aber, dass das Übersetzungsmodell trotz der neuen Sprachen insgesamt nicht schlechter wird. Bisher sind bei den KI-Modellen auch die Übersetzungen bei sehr verbreiteten Sprachen schlechter geworden, wenn die KI davor mit Datensätzen seltener Sprachen trainiert wurde. Fachleute sprechen von einer Überanpassung.
Die KI kann dann also in der Breite mehr Sprachen, ist aber in den einzelnen Sprachen etwas schwächer. Um diesen Leistungsabfall zu vermeiden, wurde das Modell aufgeteilt und die selteneren Sprachen auf Basis der häufigeren Sprachen trainiert.
Warum die KI am Anfang kontrolliert werden muss
Um anstößige und vulgäre Inhalte zu verhindern, müssen Regeln und Listen erstellt werden. Dazu erstellt das Forschungsteam für jede Sprache eine Negativ-Liste. Und wie gut die KI übersetzt, wird beim Vergleich mit manuell übersetzten Sätzen bewertet. Im Vergleich zu bisherigen KI-Modellen sieht sich Meta deutlich im Vorteil. Dieser Vergleich ist schwer nachvollziehbar. Allerdings bieten andere Anbieter weniger Sprachen in den Übersetzungstools an. Das NLLB-Modell von Meta unterstützt derzeit zum Beispiel 71 Sprachen mehr als Google Translate.
Grammatikbücher sollen KI weiter verbessern
Das KI-Tool übersetzt mittlerweile in konstanter Qualität auch ressourcenärmere Sprachen. "Allerdings ist die Qualität dieser Übersetzungen immer noch viel schlechter", schreibt KI-Forscher David Adelani in einem "Nature"-Artikel über das Forschungsprojekt. In Zukunft könnte die KI beim Training mit Grammatikbüchern gefüttert werden. Auch der Einsatz von Wörterbüchern ist denkbar, wie eine neue vorveröffentlichte Studie über einen Ansatz von Google mit seinem KI-Modell Gemini zeigt.
Meta hat sein KI-Modell unter einer Open-Source-Lizenz veröffentlicht. Vielleicht haben irgendwann alle Menschen einen gleichberechtigten Zugang zum Internet, egal welche Sprache sie sprechen. Es scheint nur eine Frage der Zeit zu sein, bis wir uns mit jedem austauschen können - ganz ohne Sprachbarrieren.