Dienstag , Mai 19 2020

Wie Big Data und maschinelle Übersetzung zusammen COVID-19 bekämpfen

Wenige Ereignisse in der Geschichte haben die Bedeutung von Big Data stärker in das Bewusstsein der Bevölkerung gebracht als die COVID-19-Pandemie. Aus der ganzen Welt gesammelte Statistiken treiben die öffentliche Ordnung voran und prägen das private Verhalten. Hier konzentrieren wir uns auf die sprachliche Dimension dieses globalen Kampfes um die Übermittlung wesentlicher Informationen sowohl an politische Entscheidungsträger, Gesundheitsdienstleister als auch an die breite Öffentlichkeit. Die Herausforderung besteht darin, schnell wechselnde Daten über Sprachgrenzen hinweg zu kommunizieren, damit wichtige Informationen bei der Übersetzung nicht verloren gehen. Es gibt aber auch kontroversere Verwendungen von Big Data, die auf dem Weg zur Suche nach Benutzern übersetzt werden.

Maschinelle Übersetzung unter Verwendung von Big Data durch die führenden Unternehmen

Angesichts des Ausmaßes des Problems geben Übersetzungsdienste zunehmend nach und Durchsatz der maschinellen Übersetzung. Es gibt einfach nicht genug menschliche Übersetzer und Dolmetscher, um herumzugehen. Glücklicherweise hat die Qualität der maschinellen Übersetzung dank der Anwendung neuronaler Netzwerkmethoden im letzten Jahrzehnt dramatisch zugenommen, dominiert von Entwicklungen in diesem Bereich der größten Technologieunternehmen, die gemeinsam unter dem Akronym FAMGA bezeichnet werden: Facebook, Apple, Microsoft, Google und Amazon. Jedes dieser Unternehmen hat sich auf seine Weise auf Big Data verlassen, um auf dem neuesten sprachlichen Vorsprung zu bestehen. Anstatt Zahlen zu knacken, knirschen sie jedoch Wörter.

Herausforderungen bei der Übersetzung von sozialen Medien und beim Datenschutz bei der COVID-Verfolgung

Facebook belegte in mehreren Kategorien des WMT-Wettbewerbs 2019 den ersten Platz und nutzte die groß angelegte Rückübersetzung von Stichproben. Eine Big-Data-Technik, die auf neuronaler maschineller Übersetzung basiert und große Mengen zweisprachiger Trainingsdaten erfordert – Sätze, für die Referenzübersetzungen verfügbar sind. Zweisprachige Daten sind schwer zu beschaffen, daher verwendete das Facebook-Team die Rückübersetzung als Problemumgehung. Am Ende verwendet das Team rund 10 Milliarden Wörter an zusätzlichen Daten für seine Aufgabe. Facebook hat unübertroffenen Zugang zu Inhalten und verwendet die Kommentare und Beiträge seiner rund 2 Milliarden Nutzer als Schulungsmaterial.

Es ist eine Sache, die veröffentlichte Sprache für experimentelle Zwecke in einem Sprachwettbewerb zu verwenden. Es ist eine weitere Möglichkeit, Mitgliederbeiträge zu sensiblen Gesundheitsfragen wie dem neuartigen Coronavirus und der COVID-19-Pandemie zu nutzen. Wie ein J. Scott Marcus vom Bruegel-Institut festgestellt hat, „geben“ Benutzer Informationen auf verschiedene Weise freiwillig weiter: in ihren Posts in sozialen Medien, bei der Nutzung mobiler Dienste und bei der Bereitstellung von Standortdaten, bei der Suche nach Gesundheitsinformationen. Laut Marcus wurden Big Data für die strategische Planung von COVID, für die Rückverfolgung potenziell infizierter Personen sowie für die Bereitstellung von Anleitungen, Ratschlägen und Informationen für infizierte Personen und die breite Öffentlichkeit verwendet.

Übersetzung von Datenschutzbedenken im Zusammenhang mit Freiwilligenarbeit Gesammelte Daten

Den Bürgern ist möglicherweise nicht bekannt, dass die Bereitstellung „freiwilliger“ Daten dazu verwendet wird, sie aufzuspüren und möglicherweise unter Quarantäne zu stellen oder die Verfolgung ihrer Bewegungen aufzudecken. Mehr als ein Land – angefangen bei China, dann haben Südkorea, Taiwan, Israel und andere explizit einige oder alle dieser Informationen verwendet. Im Allgemeinen haben High-Tech-Unternehmen bei der Bereitstellung ihrer Daten mit den nationalen Regierungen zusammengearbeitet, obwohl Datenschutzmaßnahmen wie GPRS in Europa solche Verwendungen in der Europäischen Union verhindert haben.

Virenverfolgungsinitiativen verwenden maschinelle Übersetzung, um die Kommunikation zu „normalisieren“ und zu ermöglichen Sie sind in einer bevorzugten Sprache für Beamte des öffentlichen Gesundheitswesens zugänglich. In Israel wird beispielsweise die Social-Media-Kommunikation auf Arabisch durch maschinelle Übersetzungstechniken automatisch ins Hebräische übersetzt, um potenzielle Virusträger zu finden.

Öffentliche Verwendung von maschineller Übersetzung und Interpretation in großem Maßstab

Ein weiteres Beispiel für Die massive Anwendung der maschinellen Übersetzung diente der Überprüfung von Besuchern auf internationalen Flughäfen. Neben der thermischen Vorstellung und den mittlerweile allgegenwärtigen „Thermometerpistolen“ verwenden Grenzbeamte Handdolmetscher, um ankommende Passagiere nach ihrer Reisegeschichte oder ihren medizinischen Symptomen zu befragen.

Die gleichen Überlegungen gelten für die Information der Öffentlichkeit die nicht die dominierende Sprache sprechen. Die Bereitstellung aktueller Informationen über Coronavirus ist ein Problem für Migranten, die nicht die dominierende Sprache des Landes sprechen, in dem der Einwohner lebt. In den Niederlanden haben Freiwillige laut einem VOA-Bericht einen Gesundheitsschalter eingerichtet, um neuen Einwanderern zu helfen, die kein Niederländisch sprechen. In Australien sponsert die Regierung ein umfangreiches Übersetzungsprogramm an der Landesgrenze. Der Übersetzungs- und Dolmetschdienst (TIS National) ist ein Dienst des Ministeriums für Einwanderung und Grenzschutz für nicht englischsprachige Personen, die sowohl menschliche Dolmetscher als auch maschinelle Übersetzungen verwenden.

In US-Krankenhäusern ist der Bedarf enorm. Die New York Times berichtete im April 2020 über das enorme Ausmaß der Schwierigkeiten hispanischer COVID-19-Betroffener in den USA, die überproportional leiden und rund 34% der Opfer der Krankheit in New York ausmachen. Um diesem Bedarf gerecht zu werden, wenden sich die New Yorker Krankenhäuser zunehmend der Video-Ferninterpretation zu, bei der Gesundheitsdienstleister Dienste in Anspruch nehmen, bei denen ein Dolmetscher auf Anfrage verfügbar ist.

Letztes Jahr, noch bevor die COVID-Krise ausbrach, war das Nicht-For -profit Übersetzer ohne Grenzen (TWB) haben mit Unterstützung von Cisco eine innovative Initiative für maschinelle Übersetzung namens Gamayun eingeführt, die Personen helfen soll, die marginalisierte Minderheitensprachen sprechen. „Menschen, die marginalisierte Sprachen sprechen, haben keinen Zugang zu kritischen und lebensrettenden Informationen“, erklärt Grace Tang, die das Programm für TWB verwaltet. Laut einem Cisco-Sprecher wird die Sprachinterpretation und Textübersetzung auf der Basis von KI und Big Data-Technologie dazu beitragen, das Programm über einen Zeitraum von 5 Jahren auf bis zu 10 marginalisierte Sprachen zu skalieren.

Die Gefahren und Fallstricke eines Big Data- und maschinellen Übersetzungsprojekts

Der vielleicht berühmteste oder vielleicht berüchtigtste Fall eines Projekts, das Big Data und maschinelle Übersetzung kombiniert, ist Project Baseline, eine Initiative von Verily mit Alphabet-Unterstützung. Der US-Präsident Donald Trump sorgte im März 2020 für Aufruhr, als er behauptete, Google unterstütze eine landesweite Initiative zur Verfolgung des neuartigen Coronavirus mithilfe zweisprachiger Screening-Fragen. Eine ähnliche Kontroverse ergab sich mit dem Covid-19-Symptomprüfer von Vital Software, der für den Bundesstaat Oregon in 15 Sprachen übersetzt wurde. Während das gemeindenahe Projekt gestartet wurde, bleibt die Skala in ausgewählten Bundesstaaten auf Kreisebene und nicht auf nationaler Ebene. Es macht immer noch "Kinderkrankheiten" durch. Zu seiner Ehre nimmt das Projekt Datenschutzbedenken angesichts der enormen Menge an sensiblen Informationen, die von Einzelpersonen gesammelt werden, ernst.

Das Fazit bei der Verwendung von Big Data für maschinelle Übersetzung und andere Zwecke in der COVID-Krise ist, dass dies der Fall ist "on the fly" und unter starkem Druck – eine Tatsache, die fast immer zu Kürzungen und hohen Erwartungen führt, die nicht immer erfüllt werden. Die Daten sind "laut" und nicht optimal, um den Bericht von Facebook über seinen WMT-Sieg zu zitieren. Hoffen wir, dass die Bemühungen, Big Data- und Maschinensprachenmethoden in diesen schwierigen Tagen zu kombinieren, auch erfolgreich sind, damit bei der Übersetzung nicht unnötig Leben verloren gehen.

About BusinessIntelligence

Check Also

Können Sie Big-Data-Algorithmen für den Aufbau organischer Verbindungen nutzen?

Auf den ersten Blick scheint Big Data ein riesiges Konzept zu sein. Es kann Sie …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.