stub Förberedelse av mänskliga data för maskininlärning är resurskrävande: Dessa två tillvägagångssätt är avgörande för att minska kostnaderna - Unite.AI
Anslut dig till vårt nätverk!

Tanke ledare

Förberedelse av mänskliga data för maskininlärning är resurskrävande: Dessa två tillvägagångssätt är avgörande för att minska kostnaderna

mm

publicerade

 on

Av: Dattaraj Rao, Chief Data Scientist, Ihållande system

Som med alla system som är beroende av datainmatning, är Machine Learning (ML) föremål för axiomet "skräp-in-skräp-ut". Ren och korrekt märkt data är grunden för att bygga vilken ML-modell som helst. En ML-träningsalgoritm förstår mönster från grundsanningsdata och lär sig därifrån sätt att generalisera på osynliga data. Om kvaliteten på din träningsdata är låg kommer det att vara mycket svårt för ML-algoritmen att kontinuerligt lära sig och extrapolera.

Tänk på det när det gäller att träna en hund. Om du misslyckas med att träna hunden ordentligt med grundläggande beteendekommandon (ingångar) eller gör det felaktigt/felaktigt, kan du aldrig förvänta dig att hunden ska lära sig och expandera genom observation till mer komplexa positiva beteenden eftersom de underliggande ingångarna var frånvarande eller bristfälliga, för att börja med. Rätt träning är tidskrävande och till och med kostsamt om du tar in en expert, men utdelningen är stor om du gör det rätt från början.

När du tränar en ML-modell kräver att en domänexpert lägger tid på att kommentera data för att skapa kvalitetsdata. Detta kan innefatta att välja ett fönster med det önskade objektet i en bild eller att tilldela en etikett till en textpost eller en databaspost. Särskilt för ostrukturerade data som bilder, videor och text spelar anteckningskvalitet en viktig roll för att bestämma modellkvalitet. Vanligtvis finns omärkta data som råa bilder och text rikligt – men märkning är där ansträngningen måste optimeras. Detta är den mänskliga delen av ML-livscykeln och är vanligtvis den dyraste och mest arbetsintensiva delen av alla ML-projekt.

Dataanteckningsverktyg som Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS och DataRobot human-in-the-loop förbättras ständigt i kvalitet och tillhandahåller intuitiva gränssnitt för domänexperter. Men att minimera den tid som domänexperter behöver för att kommentera data är fortfarande en betydande utmaning för företag idag – särskilt i en miljö där datavetenskaplig talang är begränsad men ändå efterfrågad. Det är här två nya tillvägagångssätt för databeredning kommer in i bilden.

Aktivt lärande

Aktivt lärande är en metod där en ML-modell aktivt frågar en domänexpert för specifika kommentarer. Här ligger fokus inte på att få en fullständig anteckning på omärkta data, utan att bara få rätt datapunkter kommenterade så att modellen kan lära sig bättre. Ta till exempel healthcare & life sciences, ett diagnostikföretag som är specialiserat på tidig cancerupptäckt för att hjälpa kliniker att fatta välgrundade datadrivna beslut om patientvård. Som en del av sin diagnosprocess måste de annotera datortomografibilder med tumörer som måste markeras.

Efter att ML-modellen lärt sig av ett fåtal bilder med tumörblock markerade, med aktivt lärande, kommer modellen sedan bara att be användarna att kommentera bilder där den är osäker på förekomsten av en tumör. Dessa kommer att vara gränspunkter, som när de kommenteras kommer att öka modellens förtroende. Om modellen är säker över en viss tröskel kommer den att göra en självkommentar snarare än att be användaren att kommentera. Det är så aktivt lärande försöker hjälpa till att bygga korrekta modeller samtidigt som det minskar tiden och ansträngningen som krävs för att kommentera data. Ramverk som modAL kan hjälpa till att öka klassificeringsprestanda genom att intelligent fråga domänexperter för att märka de mest informativa instanserna.

Svag övervakning

Svag övervakning är ett tillvägagångssätt där bullriga och oprecisa data eller abstrakta begrepp kan användas för att ge indikationer för att märka en stor mängd oövervakad data. Detta tillvägagångssätt använder vanligtvis svaga etiketter och försöker kombinera dessa i en ensemblemetod för att bygga kvalitetskommentarer. Ansträngningen är att försöka införliva domänkunskap i en automatiserad märkningsaktivitet.

Till exempel, om en Internetleverantör (ISP) behövde ett system för att flagga e-postdatauppsättningar som skräppost eller inte skräppost, kan vi skriva svaga regler som att leta efter fraser som "erbjudande", "grattis", "gratis" etc., som oftast är förknippade med skräppost. Andra regler kan vara e-postmeddelanden från specifika mönster av källadresser som kan sökas i med reguljära uttryck. Dessa svaga funktioner kan sedan kombineras av ett svagt övervakningsramverk som Snorkel och Skweak för att bygga upp träningsdata av förbättrad kvalitet.

ML i sin kärna handlar om att hjälpa företag att skala processer exponentiellt på sätt som är fysiskt omöjliga att uppnå manuellt. Men ML är inte magi och förlitar sig fortfarande på människor för att a) ställa in och träna modellerna ordentligt från början och b) ingripa när det behövs för att säkerställa att modellen inte blir så långt skev där resultaten inte längre är användbara och kan vara kontraproduktivt eller negativt.

Målet är att hitta sätt som hjälper till att effektivisera och automatisera delar av det mänskliga engagemanget för att öka time-to-market och resultat men samtidigt hålla sig i skyddsräckena med optimal noggrannhet. Det är allmänt accepterat att få kvalitetskommentarer är den dyraste men extremt viktiga delen av ett ML-projekt. Detta är ett utrymme under utveckling, och mycket arbete pågår för att minska tid som domänexperter spenderar och förbättra kvaliteten på datakommentarer. Att utforska och utnyttja aktivt lärande och svag övervakning är en solid strategi för att uppnå detta inom flera branscher och användningsfall.

Dattaraj Rao, Chief Data Scientist vid Ihållande system, är författare till boken "Keras to Kubernetes: The Journey of a Machine Learning Model to Production." På Persistent Systems leder Dattaraj AI Research Lab som utforskar toppmoderna algoritmer inom datorseende, naturligt språkförståelse, probabilistisk programmering, Reinforcement Learning, Explainable AI, etc. och visar tillämpbarhet inom hälsovård, bank och industriella domäner. Dattaraj har 11 patent inom maskininlärning och datorseende.