Künstliche Intelligenz

Multimodales Lernen wird bei KI-Entwicklern immer beliebter

mm

Venture Beat (VB) hat einen seiner wöchentlichen Berichte den Vorteilen des multimodalen Lernens in der Entwicklung von künstlicher Intelligenz gewidmet. Der Anlass war ein Bericht von ABI Research zu diesem Thema.

Das Schlüsselkonzept liegt darin, dass „Datensätze die fundamentalen Bausteine von KI-Systemen sind“ und dass ohne Datensätze „Modelle die Beziehungen nicht lernen können, die ihre Vorhersagen informieren“. Der ABI-Bericht prognostiziert, dass „während die Gesamtzahl der installierten KI-Geräte von 2,69 Milliarden im Jahr 2019 auf 4,47 Milliarden im Jahr 2024 ansteigen wird, nur wenige davon in naher Zukunft interoperabel sein werden“.

Dies könnte einen erheblichen Zeit-, Energie- und Ressourcenverlust darstellen, „da sie anstelle von Gigabytes bis Petabytes an Daten, die durch sie fließen, in ein einzelnes KI-Modell oder -Framework zu kombinieren, unabhängig und heterogen arbeiten, um die Daten zu verstehen, die sie erhalten“.

Um dies zu überwinden, schlägt ABI multimodales Lernen vor, eine Methode, die Daten „aus verschiedenen Sensoren und Eingaben in ein einzelnes System konsolidieren könnte. Multimodales Lernen kann komplementäre Informationen oder Trends tragen, die oft nur dann offensichtlich werden, wenn sie alle in den Lernprozess einbezogen werden“.

VB präsentiert ein plausibles Beispiel, das Bilder und Textbeschreibungen berücksichtigt. „Wenn verschiedene Wörter mit ähnlichen Bildern gepaart werden, werden diese Wörter wahrscheinlich verwendet, um dieselben Dinge oder Objekte zu beschreiben. Umgekehrt, wenn einige Wörter neben verschiedenen Bildern erscheinen, bedeutet dies, dass diese Bilder das gleiche Objekt darstellen. Angesichts dessen sollte es möglich sein, dass ein KI-Modell Bildobjekte aus Textbeschreibungen vorhersagt, und tatsächlich hat eine Reihe akademischer Literatur bewiesen, dass dies der Fall ist“.

Trotz der möglichen Vorteile weist ABI darauf hin, dass sogar Technologie-Riesen wie IBM, Microsoft, Amazon und Google sich weiterhin hauptsächlich auf unimodale Systeme konzentrieren. Einer der Gründe dafür ist die Herausforderung, die ein solcher Wechsel darstellen würde.

Dennoch gehen die ABI-Forscher davon aus, dass „die Gesamtzahl der ausgelieferten Geräte von 3,94 Millionen im Jahr 2017 auf 514,12 Millionen im Jahr 2023 ansteigen wird, getrieben durch die Adoption in den Bereichen Robotik, Consumer, Gesundheitswesen und Medien und Unterhaltung“. Als Beispiele für Unternehmen, die bereits multimodales Lernen implementieren, nennen sie Waymo, das solche Ansätze verwendet, um „hyper-empfindliche selbstfahrende Fahrzeuge“ zu bauen, und Intel Labs, wo das Ingenieurteam des Unternehmens „Techniken für die Kollation von Sensordaten in realen Umgebungen“ untersucht.

Omesh Tickoo, leitender Ingenieur bei Intel Labs, erklärte VB, dass „wir mithilfe von Techniken, um den Kontext wie die Tageszeit zu ermitteln, ein System entwickelt haben, das uns sagt, wenn die Daten eines Sensors nicht von höchster Qualität sind. Angesichts dieses Vertrauenswerts wiegt es verschiedene Sensoren gegen verschiedene Intervalle und wählt die richtige Mischung, um uns die Antwort zu geben, die wir suchen“.

VB weist darauf hin, dass unimodales Lernen dort, wo es hoch effektiv ist, weiterhin vorherrschen wird – in Anwendungen wie Bilderkennung und Sprachverarbeitung. Gleichzeitig prognostiziert es, dass „wenn Elektronik günstiger und Rechenleistung skalierbarer wird, multimodales Lernen wahrscheinlich nur an Bedeutung gewinnen wird“.

Ehemaliger Diplomat und Übersetzer für die UN, derzeit freiberuflicher Journalist/Schriftsteller/Forscher, der sich auf moderne Technologie, künstliche Intelligenz und moderne Kultur konzentriert.