TekoÀly

Andrew Ng Kritisoaa Koneoppimisen Ylikirjoittamisen Kulttuuria

mm
Andrew Ng overfitting

Andrew Ng, yksi vaikuttavimmista äänistä koneoppimisessa viimeisen vuosikymmenen aikana, on tällä hetkellä ilmaissut huolensa siitä, kuinka paljon ala korostaa mallirakenteen innovaatioita datan sijaan – ja erityisesti, kuinka paljon se sallii “yliekirjoitetut” tulokset esittää yleistetyinä ratkaisuina tai edistystenä.

Nämä ovat laajat kritiikit nykyisestä koneoppimisen kulttuurista, jotka tulevat yhdestä sen korkeimmista viranomaisista, ja niillä on vaikutuksia luottamukseen alalla, jota vaivaa pelot kolmannesta romahduksesta liiketoimintaluottamukseen tekoälykehityksessä 60 vuoden aikana.

Ng, joka on professori Stanfordin yliopistossa, on myös yksi deeplearning.ai:n perustajista, ja maaliskuussa hän julkaisi kirjeen organisaation sivustolla, joka tiivisti hänen viimeaikaisen puheensa muutamaksi keskeiseksi suositukseksi:

Ensinnäkin, että tutkimusyhteisön tulisi lopettaa valittaminen siitä, että datan puhdistaminen edustaa 80 % haasteista koneoppimisessa, ja ryhtyä kehittämään robusteja MLOps-metodologioita ja käytäntöjä.

Toiseksi, että se tulisi siirtää “helppojen voittojen” pariin, jotka voidaan saavuttaa ylikirjoittamalla dataa koneoppimismalliin, jotta se toimii hyvin mallissa, mutta epäonnistuu yleistymisessä tai tuottaa laajasti käyttöön otettavissa olevan mallin.

Hyväksymällä Datan Arkkitehtuurin ja Kuraattorin Haasteen

“Minun näkemykseni”, Ng kirjoitti, “on, että jos 80 prosenttia työstämme on data-valmistelua, niin varmistaa datan laatu on koneoppimistiimin tärkeä työ.”

Hän jatkoi:

“Sen sijaan, että insinöörit löytäisivät parhaan tavan parantaa datasettiä, toivon, että voimme kehittää MLOps-työkaluja, jotka auttavat tekemään tekoälyjärjestelmien rakentamisesta, mukaan lukien korkealaatuisten datasettien rakentamisesta, toistettavampaa ja järjestelmällisempää.

“MLOps on vasta syntynyt ala, ja eri ihmiset määrittelevät sen eri tavoin. Mutta luulen, että MLOps-tiimien ja työkalujen tärkein järjestämisperiaate tulisi olla varmistaa datan jatkuvan ja korkealaatuisen virtaamisen kaikissa projektin vaiheissa. Tämä auttaa monia projekteja sujuvammassa toteutuksessa.”

Puhuessaan Zoomissa live-strimatussa Q&A-istunnossa huhtikuun lopussa Ng käsitteli soveltamisen puutetta koneoppimisanalyysijärjestelmissä radiologiassa:

“On osoittautunut, että kun keräämme dataa Stanfordin sairaalasta, sitten koulutamme ja testaamme dataa samasta sairaalasta, voimme julkaista tutkimuksia, jotka osoittavat [algoritmien] olevan vertailukelpoisia ihmisten radiologien kanssa tietyissä olosuhteissa.

“…[Kun] otetaan sama malli, sama tekoälyjärjestelmä, vanhempiin sairaaloihin kadun toiselle puolelle, vanhemmalla koneella, ja teknikon käyttää hieman erilaista kuvantamisprotokollaa, data ajautuu aiheuttamaan tekoälyjärjestelmän suorituskyvyn heikentymistä merkittävästi. Vastakohtana, ihmisradiologi voi kävellä kadun toiselle puolelle vanhempiin sairaaloihin ja tehdä hyvin.”

Alimäärittely Ei Ole Ratkaisu

Ylikirjoittaminen tapahtuu, kun koneoppimismalli on suunniteltu erityisesti sopeutumaan tietyn datasetin ominaisuuksiin (tai tietyn datan muotoiluun). Tämä voi käsittää esimerkiksi painotusten määrittelyä, jotka tuottavat hyvät tulokset kyseisestä datasetistä, mutta eivät “yleisty” muissa dataseteissä.

Monissa tapauksissa tällaiset parametriarvot määritellään “ei-datan” ominaisuuksista koulutusjoukossa, kuten kerätyn tiedon tarkasta resoluutiosta tai muista erikoisuuksista, joita ei voida taata toistuvan myöhemmissä dataseteissä.

Vaikka olisi mukava, ylikirjoittaminen ei ole ongelma, jota voidaan ratkaista sokeasti laajentamalla datan arkkitehtuurin tai mallin suunnittelun skaalaa, kun mitä tarvitaan ovat laajasti sovellettavat ja korkealaatuiset ominaisuudet, jotka suorittavat hyvin erilaisissa data-ympäristöissä – haastavampi haaste.

Yleensä tämänlainen “alimäärittely” johtaa niihin ongelmiiin, joita Ng on viime aikoina kuvaillut, jossa koneoppimismalli epäonnistuu näkemättömissä dataissa. Ero tässä tapauksessa on, että malli epäonnistuu ei siksi, että data tai data-muotoilu on erilainen kuin ylikirjoitettu alkuperäinen koulutusjoukko, vaan siksi, että malli on liian joustava eikä liian hauras.

Loppuvuonna 2020 tutkimus Underspecification Presents Challenges for Credibility in Modern Machine Learning esitti voimakasta arvostelua tätä käytäntöä kohtaan, ja se kantoi vähintään 40 koneoppimistutkijan ja tieteilijän nimet Googlelta ja MIT:ltä, muun muassa.

Tutkimus arvostelee “pikavoittoja” ja huomauttaa, miten alimääritellyt mallit voivat lähteä villiin harhaan satunnaisen alkupisteen perusteella, jossa mallin koulutus alkaa. Tutkijat huomauttavat:

‘Olemme nähneet, että alimäärittely on yleinen käytäntö käytännön koneoppimisputkissa useilla aloilla. Todella, alimäärittelyn ansiosta merkittävät osat päätöksistä määräytyvät satunnaisilla valinnoilla, kuten satunnaisella siemenellä, jota käytetään parametrin aloitukseen.’

Taloudelliset Seuraukset Kulttuurin Muuttamisesta

Vaikka Ng:llä on akateemiset ansiot, hän ei ole ilmassa oleva akateemikko, vaan hänellä on syvät ja korkeat teollisuuskokemukset Google Brainin ja Courseran perustajana, entisenä päätekoälytieteilijänä Baiduilla ja perustajana Landing AI:lle, joka hallinnoi 175 miljoonan dollarin uusia startup-yrityksiä alalla.

Kun hän sanoo “Koko tekoäly, ei vain terveydenhuolto, on todistusvoittoinen tuotantoon”, se on tarkoitettu herätyskutsuksi alalle, jonka nykyinen hype-taso ja epätasainen historia on yhä enemmän luonut sen epävarmaksi pitkän aikavälin liiketoimintasijoituksena, ongelmilla määritelmästä ja laajuudesta.

Kuitenkin omistajien koneoppimisjärjestelmät, jotka toimivat hyvin paikallisesti ja epäonnistuvat muissa ympäristöissä, edustavat markkinoiden valtaamista, joka voisi palkita teollisuussijoituksia. Esittämällä “yliekirjoittamisongelman” ammattimaisena vaarana tarjoaa epärehellisen tavan monetisoida yritysten sijoitukset avoimen lähdekoodin tutkimukseen ja tuottaa (vaikuttavasti) omistajajärjestelmiä, joissa kilpailijoiden replikointi on mahdollista, mutta ongelmallista.

Riippuu siitä, kuinka pitkälle todelliset läpimurrot koneoppimisessa edellyttävät kasvavia sijoituksia, ja kuinka kaikki tuottavat aloitteet siirtyvät lopulta FAANG:iin jossain määrin, johtuen massiivisista resursseista, jotka ovat tarpeen isäntien ja operaatioiden toteuttamiseen.

Kirjailija tekoÀlystÀ, alan erikoisosaaja ihmiskuvien synteesissÀ. Entinen tutkimussisÀllön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttĂ€: [email protected]