Das Nationale Institut für Koreanische Sprache hält jedes Jahr ein Symposium über die Ressourcen der koreanischen Sprachkultur im KI-Zeitalter ab. Foto der letzten Tagung am 4. Dezember letzten Jahres in der Koreanisch-Deutschen Industrie- und Handelskammer in Jung-gu, Seoul ⓒ Nationales Institut für Koreanische Sprache
Von Margareth Theresia
Das Nationale Institut für Koreanische Sprache des Ministeriums für Kultur, Sport und Tourismus konzentriert sich auf die Entwicklung der auf Koreanisch basierenden KI-Technologien, da es die Daten als den Kern der staatlichen Wettbewerbsfähigkeiten betrachtet. Dafür wird ein koreanisches Korpus aufgebaut.
Ein Korpus stellt Daten dar, die die sprachlichen Materialien in eine digitale Form verwandeln, damit ein Computer sie verarbeiten kann. Diese Materialien umfassen nicht nur schriftliche Äußerungen aus Büchern und Nachrichten, sondern auch gesprochene Äußerungen aus YouTube, Blog und Messengern.
Das Institut entwickelt drei Arten vom Korpus – einen primitiven Korpus, in dem originale Materialien ohne Analyse digitalisiert werden, einen weiteren Korpus, in dem die Äußerungen nach Sätzen und Wortteilen analysiert werden, und den letzten Korpus, in dem gleiche Inhalte in zwei oder mehr Sprachen parallel angelegt sind. Sie sind ein wichtiger Faktor bei der Entwicklung der Technologien von KI-Übersetzungen.
Die Anleitung für Übersetzungen zur Erstellung des Parallelkorpuses zwischen Koreanisch und Fremdsprachen wurde im Jahr 2023 veröffentlicht. Rechts: Offizieller Poster für das internationale Symposium im vergangenen Jahr ⓒ Nationales Institut für Koreanische Sprache
Park Miyoung, leitende Forscherin in der Abteilung für Sprachinformation und Ressourcen des Instituts, erklärte über das Korpus-Projekt: „Um eine auf der KI basierende Grundlage für Hallyu zu schaffen, fördern wir die Entwicklung der KI-Übersetzungen und haben das Projekt für das Parallelkorpus zwischen Koreanisch und Fremdsprachen gestartet.”
Mit Rücksicht auf die Nachfrage nach den koreanischen Unterrichten und der Notwendigkeit der Übersetzungen wählte das Institut acht Fremdsprachen wie Vietnamesisch, Indonesisch, Thailändisch, Indonesisch, Kambodschanisch, Philippinisch, Russisch und Usbekisch aus.
Das Korpus wird nicht nur mittels maschineller Übersetzung, sondern auch mit Hilfe von menschlichen Übersetzungen erstellt, was seine hochwertige Qualität gewährleistet. Ein “Korpus für alle“, das von 2021 bis 2023 geschaffen wurde, ist auf der offiziellen Website des Instituts (
kli.korean.go.kr/corpus) zu sehen. Die Daten, die im vergangenen Jahr gesammelt wurden, werden innerhalb dieses Jahres veröffentlicht.
Dazu wird das Korpus zur Verbesserung der KI-Übersetzungstechnologien häufig verwendet – zum Beispiel werden “HyperCLOVA X“ von Naver oder “A.“ von SK telecom mithilfe vom Korpus erlernt.
Auf der offiziellen Website des Instituts (kli.korean.go.kr/corpus) ist das Parallelkorpus zwischen Koreanisch und Fremdsprachen zu sehen ⓒ Screenshot der offiziellen Website des Nationalen Instituts für Koreanische Sprache
Park sagte: „Immer mehr Ausländer halten sich in Korea langfristig auf, aber es gibt einen Mangel an den Übersetzungsdiensten im Bereich öffentliche Dienstleistungen in den Kommunen. Um die Technologien von maschinellen Übersetzungen weiterzuentwickeln, müssen wir das zweite und dritte Projekt kontinuierlich vorantreiben.”
„Darüber hinaus werden wir uns darum kümmern, ein Korpus mit den verschiedenen Daten aus Texten, Bildern, Stimmen oder Videos zu erstellen, um basierend auf der KI die koreanische Kultur in der ganzen Welt bekannt zu machen“, fügte sie hinzu.
margareth@korea.kr