Interviews
Dr. Judith Bishop, Senior Director of AI Specialists at Appen – Interview Series

Dr. Judith Bishop, ist eine Senior Director of AI Specialists für die APAC/US-Region bei Appen. Sie leitet und entwickelt ein Top-Team von hochqualifizierten und erfahrenen Linguisten, computergestützten Linguisten und Experten in allen Formen der menschlichen Kommunikation (Sprache, Schrift und Gestik), um AI-Trainingsdaten mit einer unübertroffenen Kombination aus Qualität und Geschwindigkeit zu liefern.
Was hat Sie ursprünglich zur Linguistik hingezogen?
Ich hörte zum ersten Mal von Linguistik von einem meiner Lieblingslehrer für Englisch in der High School. Ich war eines von denen Kindern, die gleichzeitig von Fremdsprachen und Geisteswissenschaften sowie von Mathematik und Naturwissenschaften angezogen wurden. Linguistik ist die Wissenschaft, wie Sprache funktioniert, also brachte sie diese Interessen für mich zusammen. Wie viele Menschen, war ich, als ich einmal davon erfahren hatte, völlig fasziniert. Was könnte faszinierender sein als die Art und Weise, wie wir unsere Gedanken und Gefühle einander mitteilen? Linguistik erforscht die Sprachstrukturen, die trotz aller Unterschiede in Klängen und Schriftsystemen oft ähnlich sind, da sie alle letztendlich ein Produkt unseres gemeinsamen menschlichen Daseins sind.
Können Sie die Genesis-Geschichte teilen, wie Sie sich in der AI-Arbeit wiederfanden?
Ich arbeite seit 2004 bei Appen und unterstütze die Entwicklung von Sprachtechnologie-Produkten und -Dienstleistungen. In dieser Zeit ist AI als umfassendes Rahmenwerk, Mission und Vision für die Technologie entstanden, um menschliche Fähigkeiten der Kommunikation, des Reasonings und der Wahrnehmung nachzuahmen und zu erweitern. Im Jahr 2019 hat mein Team sich in AI-Spezialisten umbenannt, da unsere linguistischen und sprachlichen Kenntnisse für das AI-Unternehmen von entscheidender Bedeutung sind. Unsere annotierten Daten liefern wesentliche Unterstützung für den Erfolg von menschlichen Interaktionen mit AI-Produkten und -Dienstleistungen.
Sie arbeiten bereits seit über 16 Jahren in der AI, welche sind einige der größten Veränderungen, die Sie erlebt haben?
Der größte Wandel war eine Diversifizierung der Konzentration von der Kern-Technologie-Entwicklung auf die lange Liste von Anwendungsfällen und Anwendungen. Für den größten Teil meiner Karriere lag der Schwerpunkt der sprachbasierten AI auf der Entwicklung und Verfeinerung eines Kernsatzes von Modellen, die menschliche Sprachwahrnehmung und -produktion nachahmen, nämlich Spracherkennung, Sprachsynthese und natürliche Sprachverarbeitung. Datensätze entsprachen in der Regel gemeinsamen Markierungs- und Datenstichproben-Standards und -Konventionen, wie sie von dem Speecon-Konsortium (Sprachgesteuerte Schnittstellen für Consumer-Geräte) entwickelt wurden. Diese Standards ermöglichten es den Kern-Technologie-Entwicklern, ihre Leistung auf gemeinsamen Datenstrukturen zu messen und unterstützten die schnelle Evolution der AI.
Die allgegenwärtige Expansion von AI-Anwendungsfällen in den letzten Jahren hat jedoch die Erkenntnis gebracht, dass die Kern-AI-Modelle, die mit diesen Daten entwickelt wurden, nicht ausreichend auf speziellere Datentypen ohne weitere Feinabstimmung funktionieren. Darüber hinaus müssen diese Modelle, die auf sauberen und “standardmäßigen” Daten entwickelt wurden, nun trainiert oder aktualisiert werden, um alle Arten von menschlichen Eingaben zu verstehen und darauf zu reagieren: alle Dialekte, alle Akzente, alle Ethnien, alle Geschlechter und alle anderen Dimensionen der menschlichen Vielfalt.
Können Sie die Bedeutung unvoreingenommener Daten im maschinellen Lernen diskutieren?
Maschinelles Lernen-Modelle, ob überwachtes, unüberwachtes oder bestärkendes Lernen, werden die Voreingenommenheiten widerspiegeln, die in den Daten vorhanden sind, auf denen sie trainiert werden. Alyssa Simpson Rochwerger und Wilson Pang liefern mehrere hervorragende Beispiele für dieses Problem in ihrem aktuellen Buch, Real World AI. Wenn es für einen Segment der Bevölkerung nicht ausreichend Trainingsdaten gibt, wird das AI-Modell für dieses Segment weniger genau sein.
In einem anderen häufigen Fall reicht die Darstellung der Bevölkerung aus, aber wenn die Trainingsdaten Korrelationen zwischen Datenpunkten enthalten, die tatsächliche, aber unerwünschte Bedingungen in der Welt widerspiegeln (wie eine geringere Rate der Vollbeschäftigung für Frauen oder eine höhere Rate der Inhaftierung für Afroamerikaner), können die resultierenden AI-Anwendungen diese Bedingungen verstärken und aufrechterhalten.
Assoziationen, die in der Sprache allgemein vorhanden sind, können Voreingenommenheiten in NLP-Anwendungen erzeugen, die auf statistischen Beziehungen bekannt als Wort-Einbettungen basieren. Wenn “sie” und “Krankenschwester” in den ausgewählten Trainingsdaten häufiger assoziiert sind als “sie” oder “er” und “Krankenschwester”, wird die resultierende Anwendung “sie” verwenden, wenn sie gezwungen ist, ein singuläres Pronomen zur Bezeichnung einer Krankenschwester zu wählen. Um dieses spezifische Problem zu lösen, haben Forscher kürzlich eine geschlechtsneutrale Variante eines häufig verwendeten Wort-Einbettungs-Algorithmus, GN-GloVe, entwickelt.
In sensitiven Anwendungen können Voreingenommenheitsprobleme wie diese einen verheerenden Einfluss auf Benutzer haben und die Geschäftsinvestitionen zunichtemachen. Die gute Nachricht ist, dass, neben der Entwicklung neuer, transparenterer und inklusiverer Datensätze, eine wachsende Anzahl von Data-Science-Anwendungen entwickelt wird, um die Anwesenheit von Voreingenommenheit in bestehenden Trainingsdatensätzen und AI-Anwendungen zu überprüfen.
Appen hat kürzlich neue diverse Trainingsdatensätze für Natural Language Processing (NLP)-Initiativen gestartet. Können Sie einige Details darüber teilen, wie diese Datensätze es den Endbenutzern ermöglichen werden, unabhängig von der Sprachvarietät, dem Dialekt, der Ethnolekt, dem Akzent, der Rasse oder dem Geschlecht die gleiche Erfahrung zu erhalten?
Aus den oben genannten Gründen sind Datensätze erforderlich, um bestehende Voreingenommenheiten in AI-Produktionssystemen zu korrigieren, sowie inklusivere Datensätze für die Ausbildung zukünftiger Systeme. Die von Appen erwähnten Datensätze werden die Korrektur von Voreingenommenheiten im Zusammenhang mit Ethnien und assoziierten Ethnolekten, wie dem afroamerikanischen Vernakulär-Englisch, unterstützen. Sie werden ergänzende Trainingsdaten bereitstellen, um die Darstellung dieser Bevölkerung in AI-Sprachmodellen zu stärken.
Ethnizität ist als kritische demografische Dimension für die explizite Markierung in AI-Daten aufgetaucht. Linguisten bezeichnen die Sprachvarietäten, die mit bestimmten Ethnien assoziiert sind, als “Ethnolekte”. AI-Datenanbieter wie Appen erkennen nun, dass, wenn Schlüssel-Diverse- und Minderheitsbevölkerungen nicht explizit in AI-Trainingsdatensätzen vertreten sind, wir nicht sicherstellen können, dass die resultierenden Systeme gleich gut für diese Bevölkerungen funktionieren.
Gleichwertige Leistung bedeutet, dass das System die Wörter und Intentionen (ihre Bedeutungen oder die Aktionen, die sie ausführen möchten) des Benutzers mit gleicher Genauigkeit erkennt und in einigen Fällen die Stimmung; und dass es auf eine Weise reagiert, die die Bedürfnisse des Benutzers gleichwertig erfüllt, und nicht einen negativeren Einfluss auf eine bestimmte Benutzerpopulation hat, entweder praktisch oder psychologisch.
Ein langjähriger Ansatz der Datenerfassung bestand darin, sich auf geografisch und dialektal repräsentative Stichproben in Datenbanken zu konzentrieren – unter der Annahme, dass dies sicherstellen würde, dass die Technologie auf die gesamte Bevölkerung der Sprach sprechenden Menschen verallgemeinert werden kann. Die relativ schlechtere Leistung von Sprachtechnologien, die kürzlich für afroamerikanische Vernakulär-Englisch-Sprecher dokumentiert wurde, hat jedoch gezeigt, dass dies nicht der Fall ist. Bevölkerungen, die vielfältig sind in Ethnien, Rasse, Geschlecht und Akzent, müssen proaktiv in Trainingsdatensätze einbezogen werden, um sicherzustellen, dass ihre Stimmen von AI-Produkten und -Dienstleistungen gehört und verstanden werden. Appens diverse AI-Trainingsdatensätze decken diesen Bedarf ab.
Außerhalb der AI sind Sie auch eine Dichterin mit mehreren Ihrer Gedichte, die verschiedene Branchenpreise gewonnen haben. Was sind Ihre Ansichten über zukünftige AI, die diese Art von Kreativität zeigt, einschließlich des Schreibens von Gedichten?
Das ist eine faszinierende Frage. Poesie und andere Formen der menschlichen Kreativität nutzen alle unsere menschlichen Ressourcen von Erinnerung, Wahrnehmung, Empfindung und Emotion sowie die Strukturen und Nuancen von Sprache und Bild, um Erkenntnisse zu produzieren, die mit zeitgenössischen Anliegen in Resonanz stehen. Emily Dickinson schrieb: “Wenn ich ein Buch lese und es macht meinen ganzen Körper so kalt, dass kein Feuer mich wärmen kann, weiß ich, dass es Poesie ist. Wenn ich mich körperlich so fühle, als ob mir der Kopf abgenommen würde, weiß ich, dass es Poesie ist.” Es muss ein Element der wahrnehmungs-, sensorischen oder emotionalen Anerkennung geben, aber auch echte Überraschung.
Fortgeschrittene AI-Modelle wie GPT-3 modellieren statistisch die Wahrscheinlichkeit, dass Wörter in verschiedenen Genres, einschließlich Poesie, zusammen auftreten. Das bedeutet, dass sie etwas produzieren können, das wir als “poetische” Sprache erkennen, wie die Verwendung von gehobener Diktion, Reim und unerwarteten oder surrealen Kombinationen von Wörtern. Aber diese generativen Sprachmodelle fehlen die meisten der Ressourcen, die oben erwähnt wurden, die erforderlich sind, um ein Kunstwerk zu produzieren, das zeigt, was es bedeutet, menschlich zu sein in der heutigen Zeit.
Was ich in einem kreativen Kontext an AI faszinierend finde, ist ihr Potenzial, völlig neue Erkenntnisse zu produzieren – Erkenntnisse, die in Art und Umfang jenseits des Bereichs jedes einzelnen menschlichen Geistes liegen, selbst des polymathischsten oder am tiefsten gelesenen und erfahrenen menschlichen Geistes. Sobald AI konsistenten Zugang zu sensorischen und wahrnehmungsbezogenen Daten für die Analyse über einen breiten Bereich menschlicher Domänen (visuell, taktil, auditiv, physiologisch, emotional) hat, gibt es keine Vorstellung davon, was wir über uns selbst und die Welt lernen werden. Die analytischen Fähigkeiten von AI können fruchtbare neue Grundlagen für die kreative menschliche Erforschung produzieren.
Sie haben eine phänomenale Karriere bisher, was ist Ihrer Meinung nach, was mehr Frauen davon abhält, sich der STEM und speziell der AI zuzuwenden?
Der Mangel an Vorbildern kann ein mächtiger Faktor sein (und ein Teufelskreis). Es gibt eine echte Schwierigkeit – kulturell, sozial und praktisch –, in Bereiche einzudringen, in denen Frauen und Menschen anderer diverser Geschlechter noch nicht eine tief verwurzelte Präsenz haben und wo der Respekt für das, was wir beitragen können, oft fehlt. Meine eigene Erfahrung als Führungskraft hat mir immer wieder gezeigt, wie widerstandsfähig, kreativ und erfolgreich Teams sein können, wenn sie diverse Erfahrungen und Orientierungen umfassen. Führungskräfte müssen abenteuerlustig bei der Einstellung sein und mutig in ihrem Vertrauen, dass sie die Herausforderungen an ihre Art des Denkens meistern können, die diverse Perspektiven mit sich bringen, und wissen, dass diese Tapferkeit auch stark mit finanziellem und unternehmerischem Erfolg korreliert.
Gibt es noch etwas, das Sie über Appen oder AI im Allgemeinen teilen möchten?
Datenanbieter wie Appen haben ein großes Potenzial, AI-Ergebnisse zum Besseren zu beeinflussen, indem sie inklusive Trainingsdaten bereitstellen.
Allerdings wird das Erreichen des Ziels der inklusiven AI erfordern, dass jeder teilnimmt. Datenkäufer müssen auch erkennen, dass sie die Verantwortung haben, explizit danach zu fragen – und zu bezahlen – für die inklusiven Daten, die die optimale Leistung ihrer Systeme für alle Benutzer in der realen Welt sicherstellen. Und diejenigen aus diversen Gemeinschaften, die ihre Daten für die AI-Entwicklung bereitstellen, müssen darauf vertrauen können, dass ihre Daten für die Zwecke verwendet werden, für die sie bestimmt sind. Das Aufbauen dieses Vertrauens wird starke Transparenz und ethische Praktiken aufseiten aller erfordern, die sensible Daten handhaben.
Vielen Dank für das großartige Interview, ich habe mich gefreut, mehr über Ihre Ansichten zu AI und Linguistik zu erfahren. Leser, die mehr erfahren möchten, sollten Appen besuchen.












