Interviews
Jason Knight is mede-oprichter en VP van ML bij OctoAI – Interviewreeks

Jason Knight is mede-oprichter en Vice President van Machine Learning bij OctoAI, het platform levert een complete stack voor app-ontwikkelaars om hun AI-toepassingen in de cloud of on-premises uit te voeren, af te stemmen en op te schalen.
OctoAI is uit de Universiteit van Washington gesponnen door de oorspronkelijke makers van Apache TVM, een open source-stack voor ML-portabiliteit en -prestaties. TVM maakt het mogelijk om ML-modellen efficiënt uit te voeren op elke hardware-backend en is snel een belangrijk onderdeel geworden van de architectuur van populaire consumentenapparaten zoals Amazon Alexa.
Kunt u de inspiratie achter de oprichting van OctoAI delen en het kernprobleem dat u probeerde op te lossen?
AI is traditioneel een complex veld dat alleen toegankelijk is voor mensen die vertrouwd zijn met de wiskunde en de high-performance computing die nodig is om er iets mee te doen. Maar AI ontgrendelt de ultieme computergrensvlakken, namelijk tekst, spraak en beeldprogrammering met voorbeelden en feedback, en brengt de volle kracht van computing naar iedereen op aarde. Voordat AI bestond, konden alleen programmeurs computers doen wat ze wilden door arcane programmeertalen te schrijven.
OctoAI is gemaakt om onze weg naar die realiteit te versnellen, zodat meer mensen AI kunnen gebruiken en ervan profiteren. En mensen kunnen op hun beurt AI gebruiken om nog meer voordelen te creëren door de wetenschap, geneeskunde, kunst en meer te versnellen.
Terugkijkend op uw ervaring bij Intel, hoe hebben uw voorgaande rollen u voorbereid op de mede-oprichting en het leiden van de ontwikkeling bij OctoAI?
Intel en de AI-hardware- en biotech-startups voordat het me gaven de perspectief om te zien hoe moeilijk AI is, zelfs voor de meest geavanceerde technologiebedrijven, en toch hoe waardevol het kan zijn voor degenen die hebben ontdekt hoe ze het kunnen gebruiken. En ik zag dat de kloof tussen degenen die profiteren van AI en degenen die dat nog niet doen, voornamelijk een kwestie is van infrastructuur, compute en best practices – niet magie.
Wat onderscheidt OctoStack van andere AI-implementatieoplossingen die vandaag op de markt beschikbaar zijn?
OctoStack is de eerste complete technologie-stack die specifiek is ontworpen voor het uitvoeren van generatieve AI-modellen overal. Het biedt een turnkey-productieplatform dat hooguit geoptimaliseerde inferentie, modelaanpassing en assetbeheer op enterprise-schaal biedt.
OctoStack stelt organisaties in staat om AI-autonomie te bereiken door elke model in hun voorkeursomgeving uit te voeren met volledige controle over gegevens, modellen en hardware. Het biedt ook ongeëvenaarde prestaties en kostenefficiëntie, met besparingen tot 12X in vergelijking met andere oplossingen zoals GPT-4.
Kunt u de voordelen van het implementeren van AI-modellen in een privé-omgeving met OctoStack uitleggen?
Modellen zijn tegenwoordig overal, maar het opbouwen van de juiste infrastructuur om die modellen uit te voeren en toe te passen met uw eigen gegevens is waar de business-waarde echt begint te draaien. Het gebruik van deze modellen op uw meest gevoelige gegevens en vervolgens het omzetten in inzichten, betere prompt-engineering, RAG-pijpleidingen en fine-tuning is waar u de meeste waarde uit generatieve AI kunt halen. Maar het is nog steeds moeilijk voor alle maar de meest geavanceerde bedrijven om dit alleen te doen, en dat is waar een turnkey-oplossing zoals OctoStack kan versnellen en de beste praktijken samenbrengen op één plek voor uw beoefenaars.
Het implementeren van AI-modellen in een privé-omgeving met OctoStack biedt verschillende voordelen, waaronder verbeterde beveiliging en controle over gegevens en modellen. Klanten kunnen generatieve AI-toepassingen binnen hun eigen VPC’s of on-premises uitvoeren, waardoor hun gegevens veilig blijven en binnen hun gekozen omgevingen. Deze benadering biedt bedrijven ook de flexibiliteit om elke model uit te voeren, of het nu open-source, aangepast of eigendom is, en tegelijkertijd te profiteren van kostenefficiëntie en prestatieverbeteringen.
Welke uitdagingen hebt u ondervonden bij het optimaliseren van OctoStack om een breed scala aan hardware te ondersteunen, en hoe zijn deze uitdagingen overwonnen?
Het optimaliseren van OctoStack om een breed scala aan hardware te ondersteunen, hield in dat er compatibiliteit en prestaties over verschillende apparaten moesten worden gegarandeerd, zoals NVIDIA- en AMD-GPU’s en AWS Inferentia. OctoAI heeft deze uitdagingen overwonnen door zijn diepe AI-systemen-expertise te benutten, die is ontwikkeld door jarenlange onderzoek en ontwikkeling, om een platform te creëren dat continu wordt bijgewerkt en ondersteuning biedt voor extra hardwaretypen, GenAI-use cases en best practices. Dit stelt OctoAI in staat om marktleidende prestaties en kostenefficiëntie te leveren.
Bovendien zal het krijgen van de nieuwste mogelijkheden in generatieve AI, zoals multimodaliteit, functieaanroepen, strikte JSON-schema’s, efficiënte fine-tune-hosting en meer, in de handen van uw interne ontwikkelaars uw AI-startpunt versnellen.
OctoAI heeft een rijke geschiedenis van het gebruik van Apache TVM. Hoe heeft dit framework de mogelijkheden van uw platform beïnvloed?
We hebben Apache TVM gemaakt om het voor geavanceerde ontwikkelaars gemakkelijker te maken om efficiënte AI-bibliotheken voor GPU’s en accelerators te schrijven. We deden dit omdat het krijgen van de beste prestaties van GPU- en acceleratorhardware kritiek was voor AI-inferentie, net zoals het nu is.
We hebben diezelfde mentaliteit en expertise sindsdien gebruikt voor de hele Gen AI-serving-stack om automatisering te bieden voor een bredere set ontwikkelaars.
Kunt u enkele significante prestatieverbeteringen bespreken die OctoStack biedt, zoals de 10x-prestatieverbetering bij grote implementaties?
OctoStack biedt significante prestatieverbeteringen, waaronder tot 12X besparingen in vergelijking met andere modellen zoals GPT-4, zonder in te boeten aan snelheid of kwaliteit. Het biedt ook 4X betere GPU-gebruik en een 50% reductie in operationele kosten, waardoor organisaties grote implementaties efficiënt en kostenefficiënt kunnen uitvoeren.
Kunt u enkele opvallende use cases delen waarin OctoStack de AI-implementatie aanzienlijk heeft verbeterd voor uw klanten?
Een opvallende use case is Apate.ai, een wereldwijd dienst dat telefoonspam bestrijdt met behulp van generatieve conversatie-AI. Apate.ai heeft OctoStack gebruikt om hun suite van taalmodellen efficiënt uit te voeren over meerdere geografische gebieden, waardoor ze profiteerden van de flexibiliteit, schaalbaarheid en beveiliging van OctoStack. Deze implementatie stelde Apate.ai in staat om aangepaste modellen te leveren die meerdere talen en regionale dialecten ondersteunen, waardoor ze aan hun prestatie- en beveiligingsgevoelige vereisten konden voldoen.
Bovendien serveren we honderden fine-tunes voor onze klant OpenPipe. Als ze deden alsof ze toegewijde instanties voor elk van deze zouden opstarten, zouden de use cases van hun klanten onhaalbaar zijn naarmate ze hun use cases en continue parameter-efficiënte fine-tunes voor maximale uitvoer kwaliteit tegen kosteneffectieve prijzen ontwikkelen en evolueren.
Bedankt voor het geweldige interview, lezers die meer willen leren, moeten OctoAI bezoeken.












