Connect with us

Domain-kohtaisisten kielimallien nousu

AGI

Domain-kohtaisisten kielimallien nousu

mm
domain specific language model

Johdanto

Luonnollisen kielen prosessoinnin (NLP) ja kielimallien ala on kokenut merkittävän muutoksen viime vuosina, jota on edistänyt voimakkaiden suurten kielimallien (LLM) kehittyminen, kuten GPT-4, PaLM ja Llama. Nämä mallit, jotka on koulutettu massiivisilla tietojoukoilla, ovat osoittaneet vaikuttavan kyvyn ymmärtää ja tuottaa ihmismäistä tekstiä, lukitellen uusia mahdollisuuksia eri aloilla.

Kuitenkin, kun tekoälysovellukset jatkavat tunkeutumistaan moniin eri aloihin, on syntynyt kasvava tarve kielimalleille, jotka on suunniteltu tiettyihin aloihin ja niiden ainutlaatuisiin kielellisiin nuansseihin. Tässä tulevat domain-kohtaiset kielimallit, uudenlainen tekoälyjärjestelmien luokka, joka on suunniteltu ymmärtämään ja tuottamaan kieltä tietyn alan tai tieteenalan kontekstissa. Tämä erikoistunut lähestymistapa lupailee vallankumousta siinä, miten tekoäly vuorovaikuttaa ja palvelee eri aloja, korostaen kielimallien tarkin ja soveltuvan soveltamisen.

Alempana tarkastelemme domain-kohtaisiden kielimallien nousua, niiden merkitystä, taustalla olevia mekaniikkoja ja soveltamista eri aloilla. Käymme myös läpi haasteita ja parhaita käytäntöjä, jotka liittyvät näiden erikoistuneiden mallien kehittämiseen ja käyttöönottoon, varustamalla teidät tietämyksellä hyödyntääkseen niiden täysimääräisen potentiaalin.

Mitkä ovat domain-kohtaiset kielimallit?

Domain-kohtaiset kielimallit (DSLM) ovat tekoälyjärjestelmien luokka, joka erikoistuu ymmärtämään ja tuottamaan kieltä tietyn alan tai teollisuuden kontekstissa. Toisin kuin yleiskäyttöiset kielimallit, jotka on koulutettu monipuolisilla tietojoukoilla, DSLM:t on hienosäädetty tai koulutettu alusta alkaen domain-kohtaisilla tiedoilla, mahdollistaen niiden ymmärtämisen ja tuottamisen kieltä, joka on räätälöity alan ainutlaatuiselle terminologialle, slangiin ja kielellisille malleille.

Nämä mallit on suunniteltu siltaamaan kuilu yleiskäyttöisten kielimallien ja eri alojen erikoistuneiden kielivaatimusten välillä, kuten oikeudellisessa, rahoituksessa, terveydenhuollossa ja tieteellisessä tutkimuksessa. Hyödyntämällä domain-kohtaisista tietoja ja kontekstuaalista ymmärrystä, DSLM:t voivat toimittaa tarkin ja relevantin tulokset, parantaen tekoälypohjaisten ratkaisujen tehokkuutta ja soveltuvuutta näillä aloilla.

Tausta ja merkitys DSLM:lle

DSLM:n juuret voidaan jäljittää yleiskäyttöisten kielimallien rajoituksiin, kun niitä sovelletaan domain-kohtaisiin tehtäviin. Vaikka nämä mallit ovat erinomaisia ymmärtämään ja tuottamaan luonnollista kieltä laajassa mielessä, ne usein kamppailevat erikoistuneiden alojen nuanssien ja monimutkaisuuksien kanssa, johtaen potentiaalisesti epätarkkuuksiin tai väärinymmärryksiin.

Kun tekoälysovellukset tunkeutuivat yhä enemmän moniin eri aloihin, tarve räätälöidyille kielimalleille, jotka voivat tehokkaasti ymmärtää ja viestiä tiettyjen alojen kanssa, kasvoi eksponentiaalisesti. Tämä tarve, yhdessä suurten domain-kohtaisiden tietojoukkojen saatavuuden ja luonnollisen kielen prosessoinnin edistymisen kanssa, loi tien DSLM:ien kehittämiseen.

DSLM:n merkitys liittyy sen kykyyn parantaa tekoälypohjaisten ratkaisujen tarkkuutta, relevanttia ja käytännön soveltamista erikoistuneilla aloilla. Tarkasti tulkitsemalla ja tuottamalla domain-kohtaisen kielen, nämä mallit voivat helpottaa tehokkaampaa viestintää, analyysiä ja päätöksentekoprosesseja, lopulta ajamalla lisääntyvää tehokkuutta ja tuottavuutta eri aloilla.

Kuinka domain-kohtaiset kielimallit toimivat

DSLM:t rakennetaan tyypillisesti suurten kielimallien perustalle, jotka on esikoulutettu laajoilla yleistekstuaalisilla tietojoukoilla. Avainero on kuitenkin hienosäätö- tai uudelleenkoulutusprosessi, jossa nämä mallit koulutetaan edelleen domain-kohtaisilla tietojoukoilla, mahdollistaen niiden erikoistumisen alan kielellisiin malleihin, terminologiaan ja kontekstiin.

On kaksi pääasiallista lähestymistapaa DSLM:ien kehittämiseen:

  1. Hienosäätö olemassa olevista kielimalleista: Tässä lähestymistavassa esikoulutettu yleiskäyttöinen kielimalli hienosäätetään domain-kohtaisilla tiedoilla. Mallin painotukset säätetään ja optimoidaan niin, että ne ottavat haltuun alan kielelliset mallit ja nuanssit. Tämä menetelmä hyödyntää perusmallin olemassa olevaa tietämystä ja kykyjä, sovittaen sen kuitenkin tiettyyn alaan.
  2. Kouluttaminen alusta alkaen: Vaihtoehtoisesti DSLM:t voidaan kouluttaa kokonaan alusta alkaen käyttäen domain-kohtaisia tietojoukkoja. Tämä lähestymistapa vaatii kielimallin arkkitehtuurin rakentamista ja kouluttamista laajasta korpuksista domain-kohtaisesta tekstistä, mahdollistaen mallille oppia alan kielen monimutkaisuuksia suoraan tiedoista.

Riippumatta lähestymistavasta, DSLM:ien koulutusprosessi sisältää mallin altistamisen laajoille määrille domain-kohtaisia tekstuaalisia tietoja, kuten akateemisia papereita, oikeudellisia asiakirjoja, rahoitusraportteja tai lääketieteellisiä rekisterejä. Edistyneitä tekniikoita, kuten siirtymällä oppimista, hakuaugmentoitu tuotto ja kehotteen insinöörit, käytetään usein parantamaan mallin suorituskykyä ja sovittamaan sen kohdealaan.

Domain-kohtaisisten kielimallien reaalimaailman sovellukset

DSLM:ien nousu on lukittanut monia sovelluksia eri aloilla, vallankumouksellisesti muuttaen tapaa, jolla tekoäly vuorovaikuttaa ja palvelee erikoistuneita aloja. Tässä on joitakin merkittäviä esimerkkejä:

Oikeudellinen ala

Law LLM Assistant SaulLM-7B

Law LLM Assistant SaulLM-7B

Equall.ai tekoälyyritys on äskettäin esitellyt SaulLM-7B:n, ensimmäisen avoimen lähdekoodin suuren kielimallin, joka on suunniteltu nimenomaan oikeudelliseen alaan.

Oikeuden ala esittää ainutlaatuisen haasteen kielimalleille sen monimutkaisen syntaksin, erikoistuneen sanaston ja alan kohtaisien nuanssien vuoksi. Oikeudelliset tekstit, kuten sopimukset, oikeuden päätökset ja lait, ovat ominaisia kielellisestä monimutkaisuudesta, joka vaatii syvää ymmärrystä oikeudellisesta kontekstista ja terminologiasta.

SaulLM-7B on 7 miljardin parametrin kielimalli, joka on suunniteltu ylittämään oikeudellisen kielen esteen. Mallin kehitysprosessi koostuu kahdesta kriittisestä vaiheesta: oikeudellisesta jatkokoulutuksesta ja oikeudellisesta ohjauksesta.

  1. Oikeudellinen jatkokoulutus: SaulLM-7B:n perusta on rakennettu Mistral 7B -arkkitehtuurin päälle, voimakkaan avoimen lähdekoodin kielimallin. Equall.ai -tiimi kuitenkin tunnisti tarpeen erikoistuneelle koulutukselle parantamaan mallin oikeudellisia kykyjä. Tätä varten he kokosivat laajan oikeudellisten tekstien korpuksen, joka käsittää yli 30 miljardia tokenia eri tuomioistuimista, mukaan lukien Yhdysvallat, Kanada, Iso-Britannia, Eurooppa ja Australia.

Altistamalla mallin tälle laajalle oikeudelliselle tietojoukolle esikoulutusvaiheessa, SaulLM-7B kehitti syvän ymmärryksen oikeudellisen kielen nuansseista ja monimutkaisuuksista, mahdollistaen sen poikkeuksellisen suorituskyvyn oikeudellisissa tehtävissä.

  1. Oikeudellinen ohjaus hienosäätö: Vaikka oikeudellinen esikoulutus on tärkeää, se usein ei riitä sallimaan vaivatonta vuorovaikutusta ja tehtävän suorittamista kielimalleille. Tämän haasteen ratkaisemiseksi Equall.ai -tiimi käytti uudenlaista ohjauksen hienosäätömenetelmää, joka hyödyntää oikeudellisia tietoja mallin kykyjen edelleen kehittämiseen.

Ohjauksen hienosäätöprosessi käsitti kaksi avainkomponenttia: yleiset ohjeet ja oikeudelliset ohjeet.

Kun arvioitiin LegalBench-Instruct -mittaristolla, kattavalla oikeudellisten tehtävien joukolla, SaulLM-7B-Instruct (ohjaukseen perustuva variantti) asetti uuden tilastollisen huipputason, ylittäen parhaan avoimen lähdekoodin ohjausmallin merkittävällä 11 prosentin suhteellisella parannuksella.

Lisäksi yksityiskohtainen analyysi SaulLM-7B-Instructin suorituskyvystä paljasti sen ylivoimaiset kyvyt neljällä keskeisellä oikeudellisella kyvyllä: ongelman havaitseminen, sääntömuistin, tulkinta ja retoriikan ymmärrys. Nämä alueet vaativat syvää oikeudellista asiantuntemusta, ja SaulLM-7B-Instructin hallitsevuus näillä aloilla on todiste sen erikoistuneen koulutuksen voimasta.

SaulLM-7B:n vaikutukset ulottuvat kauas akateemisista mittareista. Sen kyky siltaamaan kuilu luonnollisen kielen prosessoinnin ja oikeudellisen alan välillä antaa sille potentiaalia vallankumouksellistaa tapaa, jolla oikeudelliset ammattilaiset navigoivat ja tulkitsevat monimutkaisia oikeudellisia materiaaleja.

Lääketieteellinen ja terveydenhuolto

GatorTron, Codex-Med, Galactica, and Med-PaLM LLM

GatorTron, Codex-Med, Galactica, and Med-PaLM LLM

Vaikka yleiskäyttöiset LLM:t ovat osoittaneet merkittäviä kykyjä ymmärtää ja tuottaa luonnollista kieltä, lääketieteellisen terminologian, kliinisten muistiinpanojen ja terveydenhuoltoon liittyvän sisällön monimutkaisuudet vaativat erikoistuneita malleja, jotka on koulutettu asiaankuuluvilla tiedoilla.

Tässä ovat aloitteet kuten GatorTron, Codex-Med, Galactica ja Med-PaLM, jotka kaikki tekevät merkittäviä askelia terveydenhuollon sovellusten kehittämisessä.

GatorTron: GatorTron, varhainen tulokas lääketieteellisten LLM:ien alalla, kehitettiin tutkimaan, miten järjestelmät, jotka hyödyntävät rakenteettomia sähköisiä potilastietoja (EHR), voivat hyötyä kliinisistä LLM:istä, joilla on miljardeja parametreja. Koulutettu alusta alkaen yli 90 miljardin tokenin joukolla, mukaan lukien yli 82 miljardia sanaa de-identifioitua kliinistä tekstiä, GatorTron osoitti merkittäviä parannuksia erilaisissa kliinisissä NLP-tehtävissä, kuten kliinisten käsitteiden extraktio, lääketieteellisen suhteen extraktio, semanttinen tekstuaalinen samankaltaisuus, lääketieteellinen luonnollinen kielen inference ja lääketieteellinen kysymys-vastaus.

Codex-Med: Tutkimalla GPT-3:aa terveydenhuollon kysymys-vastauksessa Codex-Med -tutkimus tutki GPT-3.5 -mallien, erityisesti Codexin ja InstructGPT:n, tehokkuutta vastaamassa ja päättelyssä todellisista lääketieteellisistä kysymyksistä. Käyttämällä tekniikoita kuten ketjuajattelun kehottimista ja hakuaugmentaatiota, Codex-Med saavutti ihmisluokan suorituskyvyn mittareilla kuten USMLE, MedMCQA ja PubMedQA. Tämä tutkimus korosti yleisten LLM:ien potentiaalia terveydenhuollon kysymys-vastaus -tehtävissä asianmukaisella kehottimisella ja täydentämisellä.

Galactica: Tieteellisen tiedon varasto Galactica, kehitetty Anthropicissa, erottuu tarkoituksenmukaisesti suunniteltuna LLM:änä tieteellisen tiedon varastointia, yhdistämistä ja päättelyä varten, mukaan lukien terveydenhuolto. Toisin kuin muut LLM:t, jotka on koulutettu epäjärjestyksessä olevilla web-tiedoilla, Galactican koulutuskorpus koostuu 106 miljardista tokenista laadukkaista lähteistä, kuten tutkimuspaperista, viiteaineistoista ja tietosanakirjoista. Arvioitu tehtävissä kuten PubMedQA, MedMCQA ja USMLE, Galactica osoitti vaikuttavia tuloksia, ylittäen tilastollisen huipputason useilla mittareilla.

Med-PaLM: Med-PaLM, voimakkaan PaLM LLM:n variantti, käyttää uudenlaista lähestymistapaa nimeltä ohjauskehotteen hienosäätö. Käyttämällä pehmeää kehottimia alkuprefixinä, seurattuna tehtävän mukaisilla, inhimillisesti suunnitelluilla kehotteilla ja esimerkeillä, Med-PaLM saavutti vaikuttavia tuloksia mittareilla kuten MultiMedQA, joka sisältää tietojoukkoja kuten LiveQA TREC 2017, MedicationQA, PubMedQA, MMLU, MedMCQA, USMLE ja HealthSearchQA.

Nämä aloitteet ovat tehneet merkittäviä askelia, mutta terveydenhuollon LLM:ien kehittäminen ja käyttöönotto kohtaavat useita haasteita. Tietojen laatu, mahdolliset harhat, yksityisyys ja turvallisuus ovat tärkeitä huolenaiheita.

Lisäksi lääketieteellisen tiedon monimutkaisuus ja terveydenhuollon sovellusten korkeat panokset vaativat tiukkoja arviointikehyksiä ja inhimillistä arviointiprosessia. Med-PaLM -tutkimus esitteli kattavan inhimillisen arviointikehyksen, arvioimalla näkökohtia kuten tieteellinen konsensus, oikean päättelyn näyttö ja mahdollisuus vahingolle, korostaen tällaisen kehyksen merkitystä turvallisten ja luotettavien LLM:ien luomisessa.

Rahoitus ja pankkitoiminta

Finance LLM

Finance LLM

Rahoituksen maailmassa, jossa tarkkuus ja perusteltu päätöksenteko ovat olennaisia, rahoituksen suurten kielimallien (LLM) nousu merkitsee muutosta. Nämä mallit, suunniteltu ymmärtämään ja tuottamaan rahoituksen mukaisia sisältöjä, on tarkoitettu tehtäville, jotka vaihtelevat mielipidemittauksesta monimutkaisiin rahoitusraportteihin.

Rahoituksen LLM:t kuten BloombergGPT, FinBERT ja FinGPT hyödyntävät erikoistunutta koulutusta laajoilla rahoituksen liittyvillä tietojoukoilla saavuttaakseen merkittävän tarkin luennan rahoitusTeksteistä, tietojen prosessoinnista ja tarjoamalla näkemyksiä, jotka vastaavat asiantuntijoiden analyysiä. BloombergGPT, esimerkiksi, 50 miljardin parametrin koossa, on hienosäätetty yhdistelmällä omia rahoitustietoja, edustaa rahoituksen NLP-tehtävien huippua.

Nämä mallit eivät ainoastaan ole avainasemassa automatisoidessaan rutiininomaisia rahoitusanalyysiä ja raportointia, vaan myös edistävät monimutkaisia tehtäviä kuten petosten havaitseminen, riskien hallinta ja algoritminen kaupankäynti. Rahoituksen LLM:ien integroiminen hakuaugmentoitu tuotolla (RAG) antaa niille kyvyn hakea lisää rahoitustietolähteitä, parantaen niiden analytiikkaa.

Kuitenkin näiden rahoituksen LLM:ien kehittäminen ja hienosäätö vaativat merkittävää panostusta, heijastuen niiden suhteellisessa harvinaisuudessa markkinoilla. Vaikka kustannukset ja niiden saatavuus ovat haasteita, julkaistut mallit kuten FinBERT ja FinGPT ovat tärkeitä askelia rahoituksen tekoälyn demokratisoimiseksi.

Hienosäätöstrategioiden, kuten standardi- ja ohjausmenetelmien, avulla rahoituksen LLM:t kehittävät jatkuvasti tarkempia ja asiayhteyden mukaisia tuloksia, jotka voivat vallankumouksellistaa rahoitussuositukset, ennusteellisen analytiikan ja vaatimustenmukaisuuden seurannan. Hienosäätetyt mallien suorituskyky ylittää geneeristen mallien, osoittaen niiden erinomaisen alan kohtaisen hyödyllisyyden.

Lisätietoa siitä, miten generatiivinen tekoäly muuttaa rahoitusta, mukaan lukien näkemyksiä FinGPT:stä, BloombergGPT:stä ja niiden vaikutuksista alalle, löytyy artikkelista “Generatiivinen tekoäly rahoituksessa: FinGPT, BloombergGPT & Beyond“.

Ohjelmistokehitys ja ohjelmointi

software and programming llm

software and programming LLM

Ohjelmistokehityksen ja ohjelmoinnin maisemassa suuret kielimallit (LLM) kuten OpenAI:n Codex ja Tabnine ovat nousseet muunnostavana työkaluna. Nämä mallit tarjoavat kehittäjille luonnollisen kielen liittymän ja monikielisen osaamisen, mahdollistaen heille kirjoittaa ja kääntää koodia ennennäkemättömällä tehokkuudella.

OpenAI Codex erottuu luonnollisen kielen liittymän ja monikielisen osaamisen kanssa useilla ohjelmointikielillä, tarjoten parannettua koodin ymmärrystä. Sen tilausmalli sallii joustavan käytön.

Tabnine parantaa koodausprosessia älykkäällä koodin täydentämisellä, tarjoten ilmaisen version yksittäisille käyttäjille ja skaalautuvat tilausvaihtoehdot ammattimaisille ja yrityksille.

Paikalliseen käyttöön Mistral AI:n malli tarjoaa erinomaisen suorituskyvyn koodaus-tehtävissä verrattuna Llama-malleihin, edustaa optimaalista valintaa paikallisen LLM-käyttöön, erityisesti käyttäjille, joilla on tiettyjä suorituskyky- ja laitteistoresursseja.

Pilvipohjaiset LLM:t kuten Gemini Pro ja GPT-4 tarjoavat laajan valikoiman kykyjä, Gemini Pro tarjoaa monimodaalisia ominaisuuksia ja GPT-4 erottuu monimutkaisissa tehtävissä. Valinta paikallisen ja pilvipohjaisen käytön välillä riippuu tekijöistä kuten skaalautuvuuden tarpeista, tietosuojan vaatimuksista, kustannusrajoituksista ja helppokäyttöisyydestä.

Pieces Copilot sisältää tämän joustavuuden tarjoamalla pääsyn useisiin LLM-suoritusaikoihin, sekä pilvipohjaisiin että paikallisiin, varmistaen, että kehittäjillä on oikeat työkalut tukemaan koodaustehtäviä riippumatta projektin vaatimuksista. Tämä sisältää Unite.AI:n viimeisimmät tarjoukset, mukaan lukien OpenAI:n ja Google Gemini -mallit, kullekin on suunniteltu tiettyjä ohjelmistokehityksen ja ohjelmoinnin näkökohtia.

Haasteet ja parhaat käytännöt

Vaikka domain-kohtaisisten kielimallien potentiaali on laaja, niiden kehittäminen ja käyttöönotto liittyy yhteen erityisiin haasteisiin, jotka on ratkaistava varmistaakseen niiden onnistunut ja vastuullinen toteutus.

  1. Tiedon saatavuus ja laatu: Saatavilla olevien korkealaatuisien domain-kohtaisien tietojoukkojen hankkiminen on olennaisen tärkeää luodakseen tarkin ja luotettavin kielimallin. Tiedon niukkuus, harhat ja melu voivat vaikuttaa merkittävästi mallin suorituskykyyn.
  2. Laskennalliset resurssit: Suurten kielimallien kouluttaminen, erityisesti alusta alkaen, voi olla laskennallisesti vaativaa, vaatien merkittäviä laskennallisia resursseja ja erikoistuneita laitteita.
  3. Alan asiantuntemus: DSLM:ien kehittäminen vaatii yhteistyötä tekoälyasiantuntijoiden ja alan asiantuntijoiden välillä, varmistaen alan kohtaisen tiedon ja kielellisten mallien tarkan edustamisen.
  4. Etiset huomioonotot: Kuten minkä tahansa tekoälyjärjestelmän kehittämisessä, on tärkeää kehittää ja käyttöönottoa DSLM:itä tiukkojen eettisten ohjeiden mukaisesti, ottaen huomioon huolenaiheet kuten harhat, yksityisyys ja avoimuus.

Haasteiden lieventämiseksi ja varmistaakseen vastuullisen DSLM:ien kehittämisen ja käyttöönoton, on tärkeää noudattaa parhaita käytäntöjä, kuten:

  • Kokoamalla korkealaatuisia domain-kohtaisia tietojoukkoja ja käyttämällä tekniikoita kuten tietojen täydentämistä ja siirtymällä oppimista ylittääkseen tiedon niukkuuden.
  • Käyttämällä hajautettua laskentaa ja pilviresursseja hallitakseen suurten kielimallien koulutuksen laskennallisia vaatimuksia.
  • Edistämällä monialaista yhteistyötä tekoälytutkijoiden, alan asiantuntijoiden ja sidosryhmien välillä varmistaakseen alan tiedon tarkan edustamisen ja sovittamisen teollisuuden tarpeisiin.
  • Toteuttamalla vahvat arviointikehykset ja jatkuva seuranta arvioidakseen mallin suorituskykyä, tunnistamaan harhat ja varmistamaan eettinen ja vastuullinen käyttöönotto.
  • Noudattamalla alan mukaisia sääntöjä ja ohjeita, kuten HIPAA:ta terveydenhuollossa tai GDPR:ää tietosuojan osalta, varmistaakseen sääntelynmukaisuuden ja suojellaan arkaluontoisia tietoja.

Johtopäätös

Domain-kohtaisisten kielimallien nousu merkitsee merkittävää merkkipaaluja tekoälyn ja sen integraation kehityksessä erikoistuneisiin aloihin. Räätälöimällä kielimalleja eri alojen ainutlaatuisiin kielellisiin malleihin ja konteksteihin, DSLM:t voivat vallankumouksellistaa tapaa, jolla tekoäly vuorovaikuttaa ja palvelee näitä aloja, parantaen tarkin luennan, relevanttia ja käytännön soveltamista.

Kun tekoäly jatkaa tunkeutumistaan moniin eri aloihin, vaatimus DSLM:istä kasvaa, ajamalla edelleen kehitystä ja innovaatioita tässä alalla. Haasteiden ratkaisemiseksi ja parhaiden käytäntöjen noudattamiseksi organisaatiot ja tutkijat voivat hyödyntää täysimääräisesti näiden erikoistuneiden kielimallien potentiaalia, lukitellen uusia eturajoja domain-kohtaisissa tekoälysovelluksissa.

Tekoälyn tulevaisuus riippuu kyvystään ymmärtää ja viestiä erikoistuneiden alojen monimutkaisuuksissa, ja domain-kohtaiset kielimallit ovat avaamassa tietä tarkemman, relevantin ja vaikuttavan tekoälyn integraatiolle eri aloilla.

Olen viettänyt viimeiset viisi vuotta uppoutumassa kiinnostavaan koneoppimisen ja syväoppimisen maailmaan. Intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut tekoäly/ML. Jatkuva uteliaisuuteni on myös ohjannut minua kohti luonnollisen kielen prosessointia, alaa jota haluan tutkia tarkemmin.