Tekoäly
Apple:n ratkaisu sukupuolittain vaihdettaviin kieliversioihin

Apple on juuri julkaissut yhteistyössä USC:n kanssa tutkimuksen, jossa tarkastellaan koneoppimismenetelmiä, joita käytetään iOS 18 -käyttöjärjestelmän käyttäjille tarjotakseen enemmän valinnanvaraa sukupuoleen liittyvissä käännöksissä.

iOS 18:ssa käyttäjät voivat valita vaihtoehtoisia sukupuolivaihtoehtoja käännetylle sanalle alkuperäisessä Translate-sovelluksessa. Lähde: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios
Vaikka tutkimuksessa käsiteltävät ongelmat (joita Apple on ilmoittanut täällä) osallistuvat tietynlaatuiseen ajankohtaiseen sukupuoleen liittyvään keskusteluun, se keskittyy paljon vanhempiin ongelmiin: siihen, että 84 maailman 229 tunnetusta kielestä käyttää sukupuoleen perustuvaa kielioppia.

Punaiset pisteet osoittavat kieliä, jotka käyttävät sukupuoleen perustuvaa kielioppia. Lähde: https://wals.info/feature/31A#map
Yllättäen englannin kieli kuuluu sukupuoleen perustuvaan kategoriaan, koska se määrittää maskuliiniset tai feminiiniset yksikön pronominien.
Toisaalta kaikki romaaniset kielet (mukaan lukien yli puoli miljardia espanjan puhujaa) – ja useat muut suositut kielet, kuten venäjä – vaativat sukupuolen mukaisuutta, jolloin käännösjärjestelmien on otettava huomioon sukupuolen määrittely kielessä.
Tutkimus osoittaa tämän havainnollistamalla kaikki mahdolliset espanjan käännökset lauseesta Sihteeri oli vihainen pomon kanssa:

Uudesta tutkimuksesta, esimerkki mahdollisista sukupuolimäärityksistä lauseessa ‘Sihteeri oli vihainen pomon kanssa’, käännettynä englannista espanjaan. Lähde: https://arxiv.org/pdf/2407.20438
Tavallinen käännös on pitkistä teksteistä kaukana riittävä, sillä ne voivat määritellä sukupuolen alussa (‘Hän’, ‘Hänen’ jne.) ja sen jälkeen ei enää viitata sukupuoleen. Kuitenkin käännöksen on muistettava määritellyn osallistujan koko tekstin ajan.
Tämä voi olla haasteellista token-pohjaisille lähestymistavoille, jotka käsittelevät käännöksiä erillisinä paloina ja vaarantavat sukupuolen määrittelyn menettämisen koko sisällön aikana.
Pahemminkin, järjestelmät, jotka tarjoavat vaihtoehtoisia käännöksiä sukupuolten määrittelyyn perustuvasti, eivät voi tehdä tätä mitättömästi, eli yksinkertaisesti korvaamalla sukupuolisuutta, vaan on varmistettava, että kielen kaikki osat ovat yhdenmukaisia muutetun sukupuolisuuden kanssa.
Tässä esimerkissä Apple/USC-tutkimuksesta näemme, että vaikka sihteeri on määritetty maskuliiniseksi, yksikön menneisyys oli on jätetty feminiiniseksi (estaba):

Voimakkaat sukupuolenvaihdot voivat jättää tarpeettoman sukupuolen mukaisuuden. Tässä esimerkissä sana ‘enojada’ pitäisi olla ‘enojado’, jotta se sopisi maskuliinisen ‘El secretario’n kanssa.
Käännösjärjestelmän on myös selvitettävä kunkin kielen erikoisuuksista sukupuolen suhteen. Kuten tutkimus toteaa, pronominien Minä on sukupuoli hindi-kielessä, mikä tarjoaa epätavallisen vihjeen sukupuoleen.
Sukupuoliongelmat
Uudessa tutkimuksessa, uudessa tutkimuksessa, joka on nimeltään Generating Gender Alternatives in Machine Translation, Apple- ja USC-tutkijat ehdottavat puolivalvottua menetelmää sukupuolineutraalien entiteettien muuttamiseksi useaksi entiteettitasolle.
Järjestelmä, jota käytettiin Apple Translate -sovelluksen käännösten ohjaamiseen iOS 18:ssa, rakentaa kielirakenteen sekä suurten kielimallien (LLM) avulla että esikoulutettujen avoimen lähdekoodin käännösmallien hienosäätöä.
Tulokset näistä järjestelmistä koulutettiin arkkitehtuuriin, joka sisältää sukupuolirakenteita – lauseita, jotka sisältävät erilaisia sukupuolisia substantiiveja, jotka edustavat samaa entiteettiä.
Tutkimus toteaa*:
‘Sukupuoliset harhat, jotka ovat läsnä koulutusaineistossa, tunnetaan vuotavan luonnollisen kielen prosessointijärjestelmiin, johtaen näiden harhauksien leviämiseen ja mahdolliseen vahvistamiseen. Nämä harhat ovat usein myös virheiden alkuperä.
‘Konekäännösjärjestelmä voi esimerkiksi kääntää lääkärin espanjan termeksi médico (maskuliininen) sen sijaan, että se olisi médica (feminiininen), kun syötteenä on ”Lääkäri pyysi hoitajaa auttamaan häntä toimenpiteessä”.
‘Välttääkseen väärän sukupuolen määrittelyn, konekäännösjärjestelmien on selvitettävä sukupuoli kontekstin kautta. Kun oikean sukupuolen määrittelyä ei voida määritellä kontekstin kautta, tarjoamalla useita käännösvaihtoehtoja, jotka kattavat kaikki voimassa olevat sukupuolivalinnat, on järkevä lähestymistapa.’
Lähestymistapa, johon tutkijat päätyvät, muuttaa käytännössä käännöksen yhdestä tokenista käyttäjän hallitsemaksi taulukoksi.
(Vaikka tutkimus ei mainitse tätä, tämä avaa mahdollisuuden, joko Apple Translatessa tai vastaavissa palveluissa, joissa tarjotaan käännöspalveluita, käyttäjän valinnat voidaan syöttää takaisin myöhempään mallin versioon)
Malli, jonka Apple ja USC kehittivät, arvioitiin GATE– ja MT-GenEval -testijoukoissa. GATE sisältää lähdevirheet, joissa on enintään 3 epämääräistä sukupuolta, kun taas MT-GenEval sisältää aineistoa, josta sukupuolta ei voida päätellä, mikä auttaa ymmärtämään, milloin vaihtoehtoisia sukupuolivaihtoehtoja ei pitäisi tarjota käyttäjälle.
Molemmissa tapauksissa testijoukkojen on oltava uudelleen annotoitu, jotta ne vastaavat projektin tavoitteita.
Kouluttaakseen järjestelmän tutkijat luottivat uuteen automaattiseen datan lisäysalgoritmiin, toisin kuin mainittujen testijoukkoihin, jotka on annotoitu ihmisten toimesta.
Apple-kokoelman avustavat aineistot olivat Europarl; WikiTitles; ja WikiMatrix. Aineisto jaettiin G-Tag (12 000 lausetta), joka sisältää lauseita, joissa on pääsana kaikille entiteeteille, sekä epämääräisen sukupuolen annotaatio; ja G-Trans (50 000 lausetta), joka sisältää epämääräisiä sukupuolia ja sukupuolen mukaisuutta.












