Andersons Blickwinkel

Ein Kartell einflussreicher DatensÀtze dominiert die maschinelle Lernforschung, zeigt eine neue Studie

mm

Eine neue Studie der University of California und Google Research hat festgestellt, dass eine kleine Anzahl von “Benchmark”-Datensätzen für maschinelles Lernen, größtenteils von einflussreichen westlichen Institutionen und häufig von Regierungsorganisationen, den AI-Forschungssektor zunehmend dominieren.

Die Forscher kommen zu dem Schluss, dass diese Tendenz, auf populäre Open-Source-Datensätze wie ImageNet zurückzugreifen, eine Reihe von praktischen, ethischen und sogar politischen Bedenken aufwirft.

Unter ihren Erkenntnissen – basierend auf Kern-Daten des Facebook-geführten Community-Projekts Papers With Code (PWC) – behaupten die Autoren, dass ‘weit verbreitete Datensätze von nur einer Handvoll Elite-Institutionen eingeführt werden’, und dass diese “Konsolidierung” in den letzten Jahren auf 80% gestiegen ist.

‘[Wir] finden, dass es eine zunehmende Ungleichheit in der Datensatznutzung weltweit gibt und dass mehr als 50% aller Datensatznutzungen in unserer Stichprobe von 43.140 Datensätzen denen entsprachen, die von zwölf Elite-Institutionen, vorwiegend westlichen, eingeführt wurden.’

Eine Karte der nicht-aufgabenspezifischen Datensatznutzungen der letzten zehn Jahre. Kriterium fĂŒr die Aufnahme ist, wo die Institution oder Firma mehr als 50% der bekannten Nutzungen ausmacht. Rechts ist der Gini-Koeffizient fĂŒr die Konzentration von DatensĂ€tzen ĂŒber die Zeit fĂŒr Institutionen und DatensĂ€tze zu sehen.

Eine Karte der nicht-aufgabenspezifischen Datensatznutzungen der letzten zehn Jahre. Kriterium für die Aufnahme ist, wo die Institution oder Firma mehr als 50% der bekannten Nutzungen ausmacht. Rechts ist der Gini-Koeffizient für die Konzentration von Datensätzen über die Zeit für Institutionen und Datensätze zu sehen. Quelle: https://arxiv.org/pdf/2112.01716.pdf

Die dominanten Institutionen umfassen die Stanford University, Microsoft, Princeton, Facebook, Google, das Max-Planck-Institut und AT&T. Vier der Top-Ten-Datensatzquellen sind corporate Institutionen.

Das Papier charakterisiert auch die zunehmende Nutzung dieser Elite-Datensätze als ‘ein Fahrzeug für Ungleichheit in der Wissenschaft’. Dies liegt daran, dass Forscherteams, die nach Gemeinschafts-Anerkennung streben, eher motiviert sind, State-of-the-Art-Ergebnisse (SOTA) gegen einen konsistenten Datensatz zu erzielen, als originale Datensätze zu erstellen, die keine solche Anerkennung haben und die es den Kollegen erfordern würde, sich an neue Metriken anzupassen, anstatt Standard-Indizes zu verwenden.

In jedem Fall, wie das Papier anerkennt, ist die Erstellung eines eigenen Datensatzes ein prohibitiv teures Unterfangen für weniger gut ausgestattete Institutionen und Teams.

‘Die prima facie wissenschaftliche Gültigkeit, die durch SOTA-Benchmarking gewährt wird, wird generisch mit der sozialen Glaubwürdigkeit verwechselt, die Forscher durch die Demonstration erlangen, dass sie auf einem weithin anerkannten Datensatz konkurrieren können, auch wenn ein kontextspezifischerer Benchmark möglicherweise technisch angemessener wäre.

‘Wir gehen davon aus, dass diese Dynamik einen “Matthew-Effekt” (d. h. “die Reichen werden reicher und die Armen werden ärmer”) schafft, wo erfolgreiche Benchmarks und die Elite-Institutionen, die sie einführen, innerhalb des Fachgebiets eine übermäßige Statur gewinnen.

Das Papier trägt den Titel Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research und stammt von Bernard Koch und Jacob G. Foster von der UCLA sowie Emily Denton und Alex Hanna von Google Research.

Die Arbeit wirft eine Reihe von Fragen zu dem wachsenden Trend der Konsolidierung auf, den sie dokumentiert, und wurde mit allgemeiner Anerkennung bei Open Review begrüßt. Ein Rezensent von NeurIPS 2021 kommentierte, dass die Arbeit ‘extrem relevant für jeden, der in der maschinellen Lernforschung tätig ist’ ist und ihre Aufnahme als Pflichtlektüre an Universitätskursen vorhersah.

Von der Notwendigkeit zur Korruption

Die Autoren bemerken, dass die aktuelle Kultur des “Beat-the-Benchmark” als Abhilfe für den Mangel an objektiven Bewertungsinstrumenten entstand, der das Interesse und die Investitionen in KI zum zweiten Mal vor über dreißig Jahren zum Zusammenbruch brachte, nach dem Niedergang des Geschäftsinteresses an neuen Forschungen in “Expertensystemen”:

‘Benchmarks formalisieren typischerweise eine bestimmte Aufgabe durch einen Datensatz und eine damit verbundene quantitative Bewertungsmetrik. Die Praxis wurde ursprünglich in die maschinelle Lernforschung nach dem “KI-Winter” der 1980er Jahre durch Regierungsförderer eingeführt, die die erhaltenen Fördergelder genauer bewerten wollten.’

Das Papier argumentiert, dass die anfänglichen Vorteile dieser informellen Kultur der Standardisierung (Verringerung der Barrieren für die Teilnahme, konsistente Metriken und mehr agile Entwicklungschancen) zunehmend von den Nachteilen überwogen werden, die natürlicherweise auftreten, wenn ein Datensatz mächtig genug wird, um seine “Nutzungsbedingungen” und seinen Einflussbereich effektiv zu definieren.

Die Autoren schlagen vor, dass die Forschungsgemeinschaft, in Übereinstimmung mit vielen jüngsten Industrie- und akademischen Überlegungen zu diesem Thema, keine neuen Probleme mehr stellt, wenn diese nicht durch bestehende Benchmark-Datensätze angegangen werden können.

Sie bemerken zusätzlich, dass die blinde Anpassung an diese kleine Anzahl von “Gold”-Datensätzen Forscher dazu ermutigt, Ergebnisse zu erzielen, die überanpasst sind (d. h. die datensatzspezifisch sind und nicht wahrscheinlich nahezu so gut auf Echtzeit-Daten, neuen akademischen oder Original-Datensätzen oder sogar notwendigerweise auf anderen Datensätzen im “Gold-Standard” funktionieren).

‘Angesichts der beobachteten hohen Konzentration von Forschung auf eine kleine Anzahl von Benchmark-Datensätzen glauben wir, dass es besonders wichtig ist, die Formen der Bewertung zu diversifizieren, um Überanpassung an bestehende Datensätze und Fehldarstellung des Fortschritts im Fach zu vermeiden.’

Regierungsbeeinflussung in der Computer-Vision-Forschung

Laut dem Papier ist die Computer-Vision-Forschung deutlich stärker von dem Syndrom betroffen, das es beschreibt, als andere Bereiche, wobei die Autoren feststellen, dass die Natural Language Processing (NLP)-Forschung viel weniger betroffen ist. Die Autoren sind der Meinung, dass dies daran liegen könnte, dass NLP-Gemeinschaften ‘koherenter’ und größer sind und dass NLP-Datensätze zugänglicher und einfacher zu kuratieren sind, sowie kleiner und weniger ressourcenintensiv in Bezug auf Datenerfassung.
In der Computer-Vision, insbesondere bei der Gesichtserkennung (FR), behaupten die Autoren, dass corporate, staatliche und private Interessen oft kollidieren:

‘Corporate und Regierungs-Institutionen haben Ziele, die mit der Privatsphäre (z. B. Überwachung) in Konflikt geraten können, und ihre Gewichtung dieser Prioritäten ist wahrscheinlich anders als die von Akademikern oder den breiteren gesellschaftlichen Interessenten von KI.’

Bei der Gesichtserkennung fanden die Forscher heraus, dass der Anteil rein akademischer Datensätze gegenüber dem Durchschnitt dramatisch abnimmt:

‘[Vier] der acht Datensätze (33,69% der Gesamtnutzung) wurden ausschließlich von Unternehmen, dem US-Militär oder der chinesischen Regierung finanziert (MS-Celeb-1M, CASIA-Webface, IJB-A, VggFace2). MS-Celeb-1M wurde letztendlich wegen Kontroversen um den Wert der Privatsphäre für verschiedene Interessenten zurückgezogen.’

Die Top-DatensÀtze, die in der Bildgenerierungs- und Gesichtserkennungsforschung verwendet werden.

Die Top-Datensätze, die in der Bildgenerierungs- und Gesichtserkennungsforschung verwendet werden.

In der obigen Grafik, wie die Autoren bemerken, sehen wir auch, dass das relativ neue Feld der Bildgenerierung (oder Bildsynthese) stark von bestehenden, viel älteren Datensätzen abhängt, die nicht für diesen Zweck gedacht waren.

Tatsächlich beobachtet das Papier einen wachsenden Trend zur “Migration” von Datensätzen weg von ihrem ursprünglichen Zweck, was ihre Eignung für die Bedürfnisse neuer oder ausgelagerter Forschungsbereiche in Frage stellt und den Umfang, in dem Budgetbeschränkungen die Reichweite der Forscherambitionen in den engeren Rahmen einschränken, den die verfügbaren Materialien und eine Kultur bieten, die so sehr auf jährliche Benchmark-Ratings fixiert ist, dass neue Datensätze Schwierigkeiten haben, Fuß zu fassen.

‘Unsere Ergebnisse zeigen auch, dass Datensätze regelmäßig zwischen verschiedenen Aufgaben-Communities übertragen werden. Im Extremfall wurden die meisten Benchmark-Datensätze in einigen Aufgaben-Communities für andere Aufgaben erstellt.’

In Bezug auf die maschinellen Lern-Pioniere (einschließlich Andrew Ng), die in den letzten Jahren zunehmend nach mehr Vielfalt und Kuratierung von Datensätzen gerufen haben, unterstützen die Autoren die Meinung, dass dieser Art von Bemühungen, selbst wenn sie erfolgreich sind, möglicherweise durch die Abhängigkeit der aktuellen Kultur von SOTA-Ergebnissen und etablierten Datensätzen untergraben werden:

‘Unsere Forschung legt nahe, dass es möglicherweise nicht ausreicht, einfach ML-Forscher aufzufordern, mehr Datensätze zu entwickeln und die Anreizstrukturen so zu ändern, dass die Datensatzentwicklung wertgeschätzt und belohnt wird.

‘Neben der Förderung der Datensatzentwicklung plädieren wir für politikorientierte Eingriffe, die die Finanzierung von Personen in weniger gut ausgestatteten Institutionen für die Erstellung hochwertiger Datensätze priorisieren. Dies würde die Benchmark-Datensätze, die für die Bewertung moderner ML-Methoden verwendet werden, aus sozialer und kultureller Sicht vielfältiger machen.’

 

6. Dezember 2021, 16:49 Uhr GMT+2 – Korrigierte Possessivpronomen im Titel. – MA

Autor ĂŒber maschinelles Lernen, DomĂ€nen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.