Connect with us

Miksi datan laatu päättää, onnistuuko yrityksen tekoäly vai epäonnistuuko se

Ajatusjohtajat

Miksi datan laatu päättää, onnistuuko yrityksen tekoäly vai epäonnistuuko se

mm

OpenAI:n julkaisemasta ChatGPT:stä vuoden 2022 lopusta lähtien jokainen yritys on kilpailtu nopeuden kanssa tekoälyssä. Suuret laitteistoyritykset, kuten Nvidia, myyvät enemmän GPU:ita kuin koskaan aiemmin, kun taas suuret mallirakentajat, kuten OpenAI ja Anthropic, jatkavat yhä suurempien mallien kehittämistä.

Kuitenkin, jopa kaikkein kehittyneimpien mallien ja suurimpien budjettien kanssa, monet tekoälyprojektit epäonnistuvat silti. Olemme nähneet tämän tapahtuvan useilla aloilla, terveydenhuollosta liikenteeseen, rahoitukseen ja moniin muihin. Syytä tähän ei ole vaikea löytää: Tekoäly on yhtä hyvä kuin se data, jolla se on koulutettu, ja data, jonka se saa reaaliajassa. Kun tämä data on huonosti merkitty, vanhentunut tai epätäydellinen, mikään malli ei voi tuottaa johdonmukaisia tai luotettavia tuloksia.

Ja tämä on suuri ongelma, jota moni yritys kohtaa tänään. He investoivat paljon tekoälytyökaluihin, kun taas heidän datanjärjestelmänsä ovat hajanaisia ja epäluotettavia. Tulos on edistymisen illusio. Vaikka mallit tuottavat vaikuttavia vastauksia, niiden antamat oivallukset perustuvat usein heikkoihin perusteisiin. Tekoälymenestyksen todellinen este ei ole mallin suorituskyky, vaan datan laatu.

Mikä hyvä data oikein tarkoittaa

Laadukas data ei ole vain tarkkuuden asia. Se tarkoittaa tietoa, joka on ajantasainen, täydellinen ja asiaankuuluvaa ongelmaan, jota käsitellään. Kuvitellaan asiakas, joka yrittää peruuttaa tilausta verkkokaupassa. Järjestelmän on tarkistettava tilausyksityiskohdat, toimitustilanne ja maksutieto. Jos nämä datapisteet sijaitsevat eri järjestelmissä, jotka eivät puhu toistensa kanssa, tekoälyavustaja ei voi antaa hyödyllistä vastausta.

Hyvä data yhdistää nämä pisteet välittömästi. Se sallii tekoälyn nähdä koko kuvan sen sijaan, että se näkee sen paloja. Huono data taas pakottaa mallin arvaamaan. Ja kun tekoäly alkaa arvailla, se tekee virheitä, jotka maksavat rahaa ja vahingoittavat luottamusta. Viimeaikaiset esimerkit osoittavat, kuinka vaarallisia nämä oletukset voivat olla.

New York Cityn liiketoimintachattibotti antoi laitonta neuvontaa, koska se haki vanhentunutta tai epätäydellistä oikeudellista tietoa. Air Canadan asiakaspalvelubotti teki väärät hyvitysvaatimukset, koska siltä puuttui asiayhteydestä yhtiön politiikkaa. Jopa suuret palkkaamisjärjestelmät ovat virheellisesti suodattaneet ehdokkaita, koska ne perustuivat vääristyneisiin tai väärin merkittyihin tietoihin, kuten EEOC:n ensimmäinen tekoälyyn liittyvä sovinto osoittaa. Nämä epäonnistumiset eivät ole vain teknisiä, vaan ne ovat myös maineeseen ja taloudelliseen menetykseen liittyviä, ja ne johtuvat tekoälyjärjestelmistä, jotka on koulutettu epäluotettavilla tiedoilla.

Alaan liittyvät tutkimukset vahvistavat tämän ongelman laajuuden. Gartnerin mukaan 80 prosenttia tekoälyprojekteista epäonnistuu skaalautumisessa huonon datan laadun ja hallinnon vuoksi. Vastaavasti MIT Sloan Management Review’n tutkimus osoitti, että dataproblemat, eivät algoritmit, ovat tärkein syy sille, miksi yritysten tekoälyprojektit epäonnistuvat.

Kulttuuri on yhtä tärkeä kuin koodi

Datan laadun parantaminen ei ole asia, jota voi korjata yhdellä työkalulla tai komennolla. Se vaatii kulttuurisen muutoksen. Siksi liiketoimintajohtajien on käsiteltävä dataa elävänä järjestelmänä, joka tarvitsee huolenpitoa ja vastuuta. Tämä ei ole vain sitä, että julkitsee haluavansa “parantaa dataa” – se ei riitä. Jokaisen organisaation osan on ymmärrettävä, miten tieto liikkuu, kuka omistaa sen, ja mitä tapahtuu, kun se muuttuu.

Olemme nähneet, miten tämä toteutuu todellisissa järjestelmissä. Monet tekoälysovellukset riippuvat yöaikaisista data-päivityksistä. Jos tietokantasi päivittyy kerran päivässä, mallin tietämys on aina jäljessä todellisuutta. Nopeasti muuttuvissa ympäristöissä tämä viive voi tarkoittaa vanhentuneita oivalluksia ja huonoja päätöksiä. Yritysten on uudelleenarvioitava koko datavirran siitä, miten tieto kerätään, miten se toimitetaan mallille.

Tämän tekeminen hyvin voi säästää valtavasti aikaa ja kustannuksia. Kun dataputket on suunniteltu selkeästi ja tarkoituksenmukaisesti, tekoälyjärjestelmät voivat oppia ja toimia viimeisimmistä ja asiaankuuluvista tiedoista. Kun ne eivät ole, tiimit viettävät enemmän aikaa datan puhdistamiseen kuin sen käyttämiseen.

Datahallinnan asiantuntijat usein korostavat, että vahvan datan laadun avain on palautekierto ihmisten, prosessien ja alustojen välillä. Ilman tätä kiertoa tieto vanhenee, ja mallit menettävät yhteytensä todellisiin olosuhteisiin – ongelma, jota joskus kutsutaan data-virtaukseksi.

Tasapaino nopeuden ja eheyselon välillä

On usein jännite nopeuden ja tarkkuuden välillä. Monet organisaatiot haluavat välittömiä tuloksia tekoälysijoituksistaan, mutta kiirehtiminen voi johtaa suurempiin ongelmiin myöhemmin. Tavoitteena pitäisi olla datan joustavuus eheyselon kanssa. Toisin sanoen, järjestelmien rakentaminen siten, että ne voivat liikkua nopeasti ilman tarkkuuden menettämistä.

Tästä syystä jokaisen yrityksen on määriteltävä selkeät polut sille, miten data virtaa sen lähteestä malliin reaaliajassa. Se auttaa myös määrittelemään, minkälaista tietoa on sallittua ja mitä on pidättävä pois. Herkkää tai luottamuksellista dataa ei koskaan saa antaa mallille, vaikka käyttäjällä on teknisesti pääsy siihen. Tämän rajan suojaaminen luo luottamusta ja estää tekoälyjärjestelmiä vuotamasta tai väärinkäyttämästä tietoa.

Kun tekoäly muuttuu autonomisemmaksi, ihmisten valvonta on edelleen kriittistä. Mallin ei pitäisi koskaan olla täydellinen valta liiketoimintapäätöksiin. Se ei myöskään saa tehdä päätöksiä. Sen sijaan se pitäisi tehdä pyyntöjä. Lisäksi ihmiset on aina tarkistettava ja hyväksyttävä sen toimet varmistaakseen, että ne ovat linjassa yrityksen politiikan ja sääntöjen kanssa.

Laadun rakentaminen alusta alkaen

Datan laadun ylläpitäminen suuressa mittakaavassa ei ole vain virheiden korjaamista. Se alkaa arkkitehtuurista. On tunnistettava, missä luotettavin data sijaitsee, ja suunniteltava järjestelmä, joka kokoaa sen yhteen luotettavaan paikkaan. Siitä voidaan seurata, minkä datan malli käyttää ja mistä se tulee.

Tämä lähestymistapa estää sekaannusta ja pitää järjestelmän avoimena. Se auttaa myös tiimejä vianmäärityksessä, kun jotain menee pieleen. Kun tiedetään tarkalleen, minkä datan mallin vastaus perustui, voidaan vahvistaa ja korjata ongelmia ennen kuin ne leviävät.

Yritysten tekoälyn tulevaisuus kuuluu yrityksille, jotka upottavat laadun infrastruktuuriinsa oletusarvoisesti. Odotamme näkevämme enemmän valmiita tekoälyjärjestelmiä, jotka käsittelevät sekä päättelyä että data-integrointia yhdessä paketissa. Nämä “tekoälylaitteet” voivat tehdä siitä helpompaa yrityksille käyttöönottaa älykkäitä järjestelmiä ilman datan hallinnan menettämistä.

Analyytikot ennustavat, että organisaatiot, jotka pystyvät yhdistämään ja hallitsemaan dataansa tehokkaasti, näkevät nopeamman omaksumisen ja korkeamman tuoton tekoälyprojekteista. Viimeaikainen raportti datavalmiudesta selittää, että tämä kyky erottaa yritykset, jotka innovoivat jatkuvasti, niistä, jotka jäävät paikalleen alkuvaiheen koekäytöjen jälkeen. Ero usein johtuu siitä, ovatko heidän tekoälyjärjestelmänsä rakennettu yhdenmukaiselle, hyvin järjestetylle tiedolle.

Lopputulos

Datan laatu ei ehkä kuulosta jännittävältä verrattuna läpimurtoihin mallisuunnittelussa, mutta se on hiljainen voima, joka päättää, onnistuuko tekoäly vai epäonnistuuko se. Ilman puhdasta, ajantasaisinta ja johdonmukaista dataa älykkäimmätkin järjestelmät kompastelevat. Niiden kanssa jopa vaatimattomat tekoälyprojektit voivat luoda kestävää arvoa.

Jokaisen tekoälyyn sijoittavan johtajan on kysyttävä yksinkertainen kysymys: Luotammeko dataan, joka ohjaa päätöksiämme? Mitä olemme nähneet, yritykset, jotka voivat vastata luottavaisesti “kyllä”, ovat johtajia tekoälykilpailussa.

Oren Eini on RavenDB:n perustaja ja toimitusjohtaja, monimallinen NoSQL-dokumenttitietokanta, jota kehittäjät ja yritykset ympäri maailmaa luottavat. RavenDB-tietokannan kasvun ja laajentumisen lisäksi Oren on innokas bloggeri ja puhuu säännöllisesti alan tapahtumissa ympäri maailmaa.