Haastattelut
Tohtori Judith Bishop, Appenin AI-asioiden johtaja – Haastattelusarja

Tohtori Judith Bishop on Appenin AI-asioiden johtaja APAC/US-alueella. Hän johtaa ja kehittää huipputason tiimia, joka koostuu korkeasti koulutetuista ja kokeneista kielitieteilijöistä, laskennallisten kielitieteilijöiden asiantuntijoista ja kaikenlaisen ihmisen viestintätavan (puhe, kirjoitus ja elekieli) asiantuntijoista, jotta voidaan toimittaa AI-koulutusdataa, jossa yhdistyvät laatu ja nopeus.
Mikä alkujaan kiinnosti sinua kielitieteessä?
Kuulin kielitieteestä suosikkiopettajaltani lukiossa. Olin yksi niistä lapsista, jotka ovat yhtä lailla kiinnostuneita vierailta kieliltä ja humanistisista aineista, kuin matematiikasta ja luonnontieteistä. Kielitiede on kielen toimintatavan tieteellinen tutkimus, joten se yhdisti nämä kiinnostukseni. Kuten monille ihmisille, kun opin kielitieteestä, olin täysin koukussa. Mikä voisi olla mielenkiintoisempaa kuin se, miten viestimme ajatuksiamme ja tunteitamme toisillemme? Kielitiede tutkii kielen rakenteita, jotka kaikista ääni- ja kirjoitusjärjestelmien eroista huolimatta ovat usein samanlaisia pinnan alla, koska ne kaikki ovat lopulta yhteisen inhimillisen olemassaolon tuotteita.
Voitko kertoa, miten päädyit työskentelemään tekoälyalalla?
Olen työskennellyt Appenissa vuodesta 2004 tukien kielen teknologiatuotteiden ja -palveluiden kehittämistä. Tänä aikana tekoäly on kehittynyt kattavaksi kehykseksi, tehtäväksi ja visioksi teknologian jäljittelyyn ja laajentamiseen inhimillisten viestintä-, päättely- ja havainnontaitojen osalta. Vuonna 2019 tiimimme uudelleenbrändäys itseään AI-asioiden asiantuntijoiksi, tunnustaen, että meidän kielitieteellinen ja kielitietäminen on kriittinen tekoälyyritykselle. Meidän annotoidut tiedot tarjoavat olennaisen tuen ihmisten ja tekoälytuotteiden ja -palveluiden onnistuneelle vuorovaikutukselle.
Olet työskennellyt tekoälyalalla yli 16 vuotta, mitkä ovat olleet joitain suurimpia muutoksia, joita olet nähnyt?
Suurin muutos on ollut painopisteen siirtäminen ydinteknologian kehittämisestä laajasti soveltamiseen ja sovelluksiin. Suurimman osan urastani tekoälyyn perustuva kieli on keskittynyt kehittämään ja jalostamaan ydinasiasetuksia, jotka jäljittelevät inhimillistä puheentunnistusta ja -tuotantoa, nimittäin puheentunnistusta, puheensynteesiä ja luonnollisen kielen käsittelyä. Tiedot ovat yleensä noudattaneet yleisiä merkintä- ja datanäytteiden standardien ja konventioiden mukaisia standardeja, kuten Speecon-konsortion (puhelimeen perustuvat käyttöliittymät kuluttajalaitteissa) kehittämiä standardeja. Nämä standardit ovat mahdollistaneet ydinteknologian kehittäjien vertailla suorituskykyään yleisillä datastrukturaatioilla ja tukeneet tekoälyn nopean evoluution.
Viimeaikaisen tekoälyn laajan käytön myötä on kuitenkin tullut tunnustettua, että ydin, geneeriset AI-mallit, jotka on kehitetty tämän datan avulla, eivät toimi riittävän hyvin erikoistuneiden datatyyppien kanssa ilman lisäkorjausta. Lisäksi, koska ne on kehitetty puhdistetuilla ja “standardoiduilla” datailla, nämä mallit on täytynyt kouluttaa tai päivittää ymmärtämään ja reagoida kaikkiin ihmisten syötteisiin: kaikki murteet, kaikki aksentit, kaikki etnisyydet, kaikki sukupuolet ja kaikki muut inhimillisen eron ulottuvuudet.
Voitko keskustella täysin puolueettoman datan merkityksestä koneoppimisessa?
Koneoppimismallit, olivatpa ne valvottuja, valvottuja tai vahvistusoppimismalleja, heijastelevat datassa olevia harhauksia, joilla ne on koulutettu. Alyssa Simpson Rochwerger ja Wilson Pang esittävät useita erinomaisia esimerkkejä tästä ongelman aiheuttajasta heidän viimeisimmässä kirjassaan, Real World AI. Jos koulutusdataa ei ole riittävästi jonkin väestösegmentin osalta, AI-malli on vähemmän tarkin kyseiselle segmentille.
Toisessa yleisessä tapauksessa väestön edustus saattaa riittää, mutta jos koulutusdata sisältää korrelaatioita datapisteiden välillä, jotka heijastelevat maailman todellisia, mutta epätoivottuja, olosuhteita (kuten naisten matalampi työllisyysaste tai afrikkalais-amerikkalaisten korkeampi vangitsemisaste), johtuvat AI-sovellukset voivat vahvistaa ja ylläpitää näitä olosuhteita.
Kielen laajassa käytössä olevat assosiaatiot voivat luoda harhauksia NLP-sovelluksissa, jotka perustuvat tilastollisiin suhteisiin, jotka tunnetaan sanan upotusten nimellä. Jos “hän” ja “hoitaja” ovat yleisemmin yhdistettyjä koulutusdataan kuin “he” tai “hän” ja “hoitaja”, tulokseksi saadaan sovellus, joka käyttää “häntä”, kun on pakotettu valitsemaan yksikön pronominia hoitajan viittaamiseen. Tätä tarkoitusta varten tutkijat ovat kehittäneet sukupuolentumattoman variantin yleisesti käytetystä sanan upotusalgoritmista, GN-GloVe.
Herkillä sovelluksilla, kuten esimerkiksi terveydenhuollossa, nämä harhauskysymykset voivat vaikuttaa dramaattisesti käyttäjiin ja voivat tuhota liiketoimintasijoituksen. Hyvä uutinen on, että datatieteellisten sovellusten kehittäminen on lisääntynyt tarkistamaan olemassa olevien koulutusdatajen ja tekoälysovellusten harhauksia.
Appen on vastikään julkaisnut uudet monipuoliset koulutusdatat natural kielen prosessoinnin (NLP) aloitteille. Voitko jakaa joitain yksityiskohtia siitä, miten nämä datat mahdollistavat loppukäyttäjien saavan samanlaisen kokemuksen riippumatta kielestä, murteesta, etnisyydestä, aksentista, rodusta tai sukupuolesta?
Edellä mainittujen syiden vuoksi datat ovat tarpeen oikaista olemassa olevia tekoälytuotannon harhauksia, lisäksi tarvitaan myös monipuolisempia datatotteita tulevaisuuden järjestelmien koulutukseen. Appenin mainitsemat datat tukkivat afrikkalais-amerikkalaisen murteen, kuten African American Vernacular Englishin, kaltaisten etnisyyksiin liittyvien harhauksien oikaisemista. Ne tarjoavat lisäkoulutusdataa, jotta voidaan lisätä tämän väestön edustusta AI-kielimalleissa.
Etnisyys on nouseva kriittinen demografinen ulottuvuus tekoälydatan eksplisiittisessä merkinnöissä. Kielitieteilijät viittaavat etnisyyksiin liittyviin kielivarianteihin “etnisyyksiin”. Tekoälydatan toimittajat, kuten Appen, tunnustavat nyt, että ellei avainasialiittoja ja vähemmistöväestöjä edusteta eksplisiittisesti tekoälykoulutusdatassa, emme voi taata, että tulokset ovat optimaalisia näille väestöille.
Optiminen suorituskyky tarkoittaa, että järjestelmä tunnistaa käyttäjän sanat ja aikomukset (niiden merkitykset tai toimet, joita he haluavat suorittaa) ja joissain tapauksissa mielialaa, ja että se reagoi tavoin, jotka tyydyttävät käyttäjän tarpeisiin, eivätkä tuota enemmän negatiivisia vaikutuksia tietylle käyttäjäryhmälle, kuten käytännössä tai psyykkisesti.
Pitkään datan keräämiseen on keskitytty maantieteellisesti ja murteellisesti edustavaan otokseen tietokannoissa – olettaen, että teknologia generalisoidaan koko kielen puhujayhteisöön. Viimeaikaiset todisteet kieliteknologian heikommasta suorituskyvystä afrikkalais-amerikkalaisen murteen puhujien keskuudessa ovat kuitenkin osoittaneet, ettei asia ole näin. Väestöt, jotka ovat monipuolisia etnisyyden, rodun, sukupuolen ja aksentin suhteen, tarvitsevat olla proaktiivisesti mukana koulutusdatassa, jotta heidän äänensä kuullaan ja ymmärretään tekoälytuotteissa ja -palveluissa. Appenin monipuoliset tekoälykoulutusdatat täyttävät tämän tarpeen.
Ulkoistumisen sijaan olet myös runoilija, jonka useat runot ovat voittaneet eri alojen palkinnot. Mitkä ovat näkymäsi siitä, että tulevaisuuden tekoäly esittää tällaista luovuutta, kuten runojen kirjoittamista?
Se on mielenkiintoinen kysymys. Runous ja muut luovan toiminnan muodot käyttävät kaikkia inhimillisiä resursseja muistista, havainnosta, aistimuksesta ja tunteista, sekä kielen ja kuvan rakenteista ja nuansseista, jotta voidaan tuottaa oivalluksia, jotka vastaavat nykyisiin kysymyksiin. Emily Dickinson kirjoitti: “Jos luen kirjan ja se tekee koko kehoni niin kylmäksi, ettei mikään tuli voi lämmittää minua, tiedän, että se on runoutta. Jos tunnen fyysisesti, että pään yläosa on irrotettu, tiedän, että se on runoutta.” On oltava jotain havainnollista, aistikasta tai emotionaalista tunnustusta, mutta myös aito yllätys.
Edistyneet tekoälymallit, kuten GPT-3, mallintavat tilastollisesti sanojen yhdessäesiintymisen todennäköisyyttä eri tyylilajeissa, mukaan lukien runous. Tämä tarkoittaa, että ne voivat tuottaa jotain, mitä tunnustamme “runolliseksi” kieleksi, kuten korkean sanaston, rytmin ja odottamattomien tai surrealististen sanojen yhdistelmien käytön. Mutta nämä generatiiviset kielimallit puuttuvat useimmista resursseista, jotka on mainittu aiemmin, ja jotka ovat tarpeen tuottaa taiteen teos, joka valaisee, mitä on olla ihminen nykyisessä ajassa.
Mitä minä löydän mielenkiintoiseksi tekoälyssä luovassa kontekstissa, on sen potentiaali tuottaa täysin uusia oivalluksia – oivalluksia, jotka ovat erilaisia ja ulottuvat yksittäisen ihmismielen, jopa polymatisten tai syvästi lueteltujen ja kokeneiden ihmismielen, ulottuvuuden ulkopuolelle. Kun tekoälyllä on jatkuvasti pääsy aistikkaaseen ja havainnolliseen dataan analyysiä varten laajalla joukolla inhimillisten alojen parissa (visuaalinen, taktilinen, auditorinen, fysiologinen, emotionaalinen), ei voida tietää, mitä opimme itsestämme ja maailmasta. Tekoälyn analytiikka voi tuottaa hedelmällisiä uusia aloja luovan inhimillisen tutkimuksen kehittämiseksi.
Olet ollut urallaesi erinomaisen menestyksekäs, mitä sinun mielestäsi estää enemmän naisia liittymästä STEM- ja erityisesti tekoälyalan?
Roolimallien puute voi olla voimakas tekijä (ja paholaisen kehä). On olemassa todellinen vaikeus – kulttuurinen, sosiaalinen ja käytännöllinen – murtautua alueille, joilla naiset ja muut monipuoliset sukupuolet eivät vielä ole vahvasti edustettuina, ja joilla kunnioitus siitä, mitä he voivat tuottaa, usein puuttuu. Omani johtajuuden kokemus on osoittanut minulle toistuvasti, kuinka kestäviä, luovia ja menestyviä tiimejä voidaan luoda, kun ne sisältävät monipuolisia kokemuksia ja suuntia. Johtajien on oltava rohkeita palkkaamisessaan ja urheita luottamuksessaan, tiedostaen, että he voivat käsitellä haasteita omalle ajattelutavalleen, ja tietäen, että tämä rohkeus on myös osoittautunut vahvasti korreloituvan taloudellisen ja yrityksen menestyksen kanssa.
Onko mitään muuta, mitä haluaisit jakaa Appenista tai tekoälystä yleensä?
Datatoimittajat, kuten Appen, ovat voimakkaasti vaikuttamassa tekoälyn tuloksiin parantamalla monipuolista koulutusdataa.
Saavuttaakseen kuitenkin monipuolisen tekoälyn tavoitteen, kaikkien on osallistuttava. Datankäyttäjien on myös tunnustettava heidän vastuuensa pyytää ja maksaa monipuolisesta datasta, joka takaa heidän järjestelmien optimaalisen suorituskyvyn kaikille käyttäjille. Ja ne, jotka toimittavat dataa tekoälyn kehittämiseen, on kyettävä luottamaan siihen, mihin heidän dataansa käytetään. Luottamuksen rakentaminen edellyttää vahvaa avoimuutta ja eettisiä käytäntöjä kaikilla, jotka käsittelevät herkkää dataa.
Kiitos haastattelusta, nautin siitä, että sain tietää enemmän näkemyksistäsi tekoälystä ja kielitieteestä. Lukijat, jotka haluavat oppia lisää, voivat vierailla Appen: ssä.












