KI 101

Off-the-shelf vs Custom Machine Learning Modelle?

mm
Off the shelf vs custom models

Wann ist das Erstellen besser als das Kaufen einer Off-the-shelf-Lösung?

Unternehmen können unterschiedliche Ansätze für die Modellentwicklung verfolgen. Von vollständig verwalteten ML-Diensten bis hin zu benutzerdefinierten Modellen. Abhängig von den Geschäftsanforderungen, der verfügbaren Expertise und den Planungsbeschränkungen müssen sie eine Entscheidung treffen: Sollen sie benutzerdefinierte Lösungen von Grund auf entwickeln? Oder sollten sie einen Off-the-shelf-Service wählen?

Bei allen Stadien von ML-Workloads muss eine Entscheidung darüber getroffen werden, wie die verschiedenen Puzzleteile zusammenpassen. Von der Datenerfassung, -vorbereitung und -visualisierung bis hin zur Feature-Engineering, Modelltraining und -bewertung fragen sich ML-Ingenieure immer wieder dieselbe Frage: Wird es eine benutzerdefinierte, von Grund auf entwickelte Lösung sein? Oder wird es ein Off-the-shelf-Service sein?

Aber wann ist das Erstellen besser als das Kaufen einer Off-the-shelf-Lösung? Die wichtigsten Unterscheidungsmerkmale zwischen den beiden Ansätzen sind: Vorbereitungsanstrengungen, Entwicklungszeit und erforderliche Expertise.

Aspekte, die bei der Entscheidung zwischen Off-the-shelf- und benutzerdefinierten Machine-Learning-Modellen zu berücksichtigen sind

Vorbereitungsanstrengungen

ML-Projekte stehen vor verschiedenen Herausforderungen, aber vielleicht der größten Herausforderung ist die Verfügbarkeit von Trainingsdaten. Der Mangel an Trainingsdaten kann ein Projekt stoppen, bevor es überhaupt beginnt. Bevor ein Projekt überhaupt beginnt, kann es erhebliche Vorbereitungskosten von der Datenerfassung, -etikettierung, -reinigung und -vorbereitung aufweisen. Dies ist die bekannte Falle, in die viele ML-Projekte geraten: Die Vorbereitung verbraucht 80 % der zugewiesenen Ressourcen, während nur wenige Ressourcen für das tatsächliche Modelltraining und die -bewertung übrig bleiben.

Off-the-shelf-Lösungen lindern die Anstrengungen und Schmerzen der Vorbereitung. Sie sind so konzipiert, dass sie die meisten gängigen Operationen mit nur geringer Konfiguration ausführen. Das Beste daran ist: Off-the-shelf-Lösungen existieren für alle Stadien von ML-Workloads.

Andererseits erfordern benutzerdefinierte Implementierungen in der Regel mehr Vorbereitungsanstrengungen. Das bedeutet nicht, dass sie vollständig abgelehnt werden sollten: Sie sind immer noch erforderlich, um ein bestimmtes ML-Stadium an die Spezifika des zu lösenden Problems anzupassen. Ein besonders schmutziges Datenset kann spezielle Reinigungsregeln erfordern. Gleichzeitig kann ein bestimmter Merkmalsatz benutzerdefiniertes Feature-Engineering erfordern, ebenso wie neuronale Architekturen leichte Anpassungen erfordern können. In diesem Fall sind benutzerdefinierte Lösungen, die von Grund auf entwickelt werden, wahrscheinlich in der Lage, alle Bedürfnisse abzudecken.

Entwicklungszeit

Off-the-shelf-Lösungen konzentrieren sich auf die Konfiguration anstelle der Implementierung. Anstatt Ressourcen für die Klärung zu verwenden, was getan werden soll, konzentrieren sich ML-Teams darauf, wie die verschiedenen Puzzleteile zusammenpassen. Dieser Ansatz ermöglicht es Unternehmen, Forschern und Ingenieuren, schnell Prototypen und Proof-of-Concepts zu implementieren. Anstatt das Rad neu zu erfinden, ermöglichen Off-the-shelf-Lösungen es, vorhandenes Wissen zu nutzen und so die Entwicklungszeit zu sparen.

Benutzerdefinierte Lösungen, die von Grund auf implementiert werden, sind bekanntermaßen viel langsamer in Bezug auf die Entwicklungszeit. Dies liegt an ihren erhöhten Wartungsanforderungen: Ingenieure müssen sowohl das was als auch das wie der Lösung herausfinden. Ebenso erfordert die Komplexität der Lösung mehr Zeit, um ihre Skalierbarkeit und Verfügbarkeit während der Produktion zu gewährleisten. Aus dieser Perspektive sind benutzerdefinierte Lösungen und Zeitbemühungen direkt proportional: Je komplexer die Lösung, desto mehr Zeit wird sie erfordern.

Normalerweise jedoch liegt die Wahrheit irgendwo dazwischen: Ein bestehender Codebasis wird refaktorisiert und an die Bedürfnisse des aktuellen Projekts angepasst. Ein solcher Fall ist der bekannte Transfer-Learning-Ansatz zum Modelltraining.

Expertise

Genau wie es mehrere Ebenen gibt, auf denen Machine Learning durchgeführt wird, gibt es mehrere Expertise-Ebenen, auf denen ML-Modelle entwickelt werden können, von codefreien Schnittstellen bis hin zum Aufbau von Modellen von Grund auf.

Off-the-shelf-Lösungen existieren, für die sehr wenig Machine-Learning-Expertise erforderlich ist. Durch die Nutzung intuitiver Schnittstellen und sogar Drag-and-Drop-Ansätzen ist es sehr einfach für jeden (von Business-Analysten bis hin zu Software-Ingenieuren) geworden, eine Art von Machine-Learning-Modell zu erstellen und zu bereitstellen. Obwohl dieser einfache Ansatz für die Modellentwicklung für Prototyping-Zwecke funktionieren kann, ist es unwahrscheinlich, dass er die Anforderungen von Produktionsystemen erfüllt.

Expertise ist immer noch erforderlich, um Off-the-shelf-Lösungen ordnungsgemäß zu konfigurieren, einzurichten und in der Produktion zu warten. Workarounds, Code-Patches, die Verbindung zu verschiedenen API-Schnittstellen und die Bewältigung von Bereitstellungsproblemen sind gängige Aufgaben, die erforderlich sind, um die Leistung von Modellen in Produktionsumgebungen zu gewährleisten.

Benutzerdefinierte Lösungen werden in der Regel auf einer Infrastrukturebene implementiert und es gibt keinen Weg darum herum: Expertise ist definitiv erforderlich. Abhängig von der Unternehmensgröße und den Projekzielen können multidisziplinäre Teams erforderlich sein, um Produktionsysteme zu warten. Data Scientists, ML-Ingenieure und Business-Analysten kommen zusammen, um Sinn aus Inferenzergebnissen zu machen und Produktionsmodelle zu warten.

Was sollten Sie verwenden: ein Off-the-shelf- oder ein benutzerdefiniertes Machine-Learning-Modell?

<pEine ML-Lösung wird aus vielen einzelnen Komponenten und Diensten bestehen, die zusammen als kohärente Lösung kombiniert werden müssen. Es geht nie darum, 100 % benutzerdefiniert oder 100 % Off-the-shelf zu gehen, da verschiedene Geschäftsprobleme unterschiedliche Lösungen erfordern. Öfter als nicht werden ML-basierte Lösungen durch eine Kombination aus beidem erstellt: Off-the-shelf-Dienste, um allgemeine Erkenntnisse zu gewinnen, kombiniert mit benutzerdefinierten Modellen für eine erhöhte Genauigkeit und die Modellierung von domänen-spezifischem Wissen.

Der Trick besteht darin, zu wissen, wann benutzerdefinierte Lösungen von Grund auf implementiert werden sollten und welche Teile des Projekts die Vorteile von Off-the-shelf-Diensten nutzen können. Dies hängt stark vom Typ des zu lösenden Problems, den Geschäftsanforderungen, den verfügbaren Daten und den Gesamtbegrenzungen der Entwicklungsumgebung ab.

Mehr über KI und Technologie-Trends finden Sie bei Josh Miramant, CEO von Blue Orange Digitals datengetriebenen Lösungen für Supply Chain, Gesundheitsdokumentenautomatisierung und mehr.

Sie könnten auch folgendes interessant finden:

Verwenden Sie NLP, um Kommentare in sozialen Medien zu klassifizieren

Wie die Sprachverarbeitung durch Googles Open-Source-BERT-Modell verbessert wird

Josh Miramant ist der CEO und GrĂŒnder von Blue Orange Digital, einer Spitzenagentur fĂŒr Data Science und Machine Learning mit BĂŒros in New York City und Washington DC. Miramant ist ein beliebter Redner, Futurist und strategischer GeschĂ€fts- und Technologieberater fĂŒr Unternehmen und Start-ups. Er hilft Organisationen, ihre GeschĂ€fte zu optimieren und zu automatisieren, datengetriebene Analysetechniken umzusetzen und die Auswirkungen neuer Technologien wie kĂŒnstlicher Intelligenz, Big Data und dem Internet der Dinge zu verstehen.