Andersonin kulma

Opettaminen Unohdettavalle AI:lle Pidättämään Ajatuksia Kauemmin

Published November 21, 2025

Updated April 25, 2026

Martin Anderson

Kielen mallit eivät usein muista keskustelun alkua. Uusi tekstinpakkausmenetelmä voi muuttaa tämän ja tehdä AI-keskustelusessioista paljon vähemmän ärsyttäviä.

Keskustelun AI-järjestelmät, kuten ChatGPT, usein menettävät aiempien keskustelun osien jäljityksen, toistavat itsensä tai antavat vastauksia, jotka jättävät huomioimatta aikaisemmin sovitut säännöt.

Tämä johtuu siitä, että suuret kielen mallit (LLM) ovat rajoitetun kyvyn keskittyä, määritelty “kontekstin ikkuna” -huomion – kuin lyhty, joka voi valaista vain sen, mihin se on suunnattu, ja muutamia läheisiä objekteja.

Korjaaminen tällaisista “muistinmenetys”-taipumuksista, jotka johtuvat näistä tarkkaavaisuuden rajoituksista, on yksi tärkeimmistä tutkimussuuntauksista kielen perustuvien AI-mallien parissa – ei vähiten siksi, että tämä oireyhtymä rajoittaa merkittävästi hyödyllisten ja johdonmukaisten monivaiheisten keskustelujen mahdollisuutta ja haittaa LLM:n hyödyllisyyttä monissa tarkkuuden kannalta kriittisissä yhteyksissä, kuten lääketieteessä ja oikeudessa.

Murskaaminen

Uusi tutkimus Kiinasta^† ehdottaa uutta menetelmää, jolla voidaan tehdä merkittävästi suurempi määrä tekstiä sopivaksi rajoitettuihin GPU-resursseihin, joita käytetään AI-mallin suorittamiseen – tulokset saavuttavat 20-kertaisen pakkausparannuksen säilyttäen 98 %:n tarkkuuden:

Kontekstin Cascade-pakkaus rekonstruoii pitkiä asiakirjoja tarkemmin kuin optiset pakkausmenetelmät, kuten DeepSeek-OCR, jopa silloin, kun syötettä supistetaan jopa neljänkymmenen kertaa. Erilaisilla asiakirjan pituuksilla ja pakkausasetuksilla uusi menetelmä säilyttää lähes täydellisen uskollisuuden, kun taas optinen lähestymistapa heikkenee terävästi suuremmassa pakkausasteessa. Lähde [ https://arxiv.org/pdf/2511.15244 ]

Kontekstin Cascade-pakkaus (C3) rekonstruoii pitkiä asiakirjoja tarkemmin kuin optiset pakkausmenetelmät, kuten DeepSeek-OCR, jopa silloin, kun syötettä supistetaan jopa neljänkymmenen kertaa. Erilaisilla asiakirjan pituuksilla ja pakkausasetuksilla uusi menetelmä säilyttää lähes täydellisen uskollisuuden, kun taas optinen lähestymistapa heikkenee terävästi suuremmassa pakkausasteessa. Lähde

Tämä tarkoittaa, että jopa hyvin pitkän keskustelun koko voidaan pakata ja uudelleen ruokkia (päivittää) välein vaihtoehtoisiin keskusteluihin taustatietona myöhemmin keskustelun aikana – silloin, kun LLM:n normaalisti unohtaisi aiemmat tosiasiat ja liukuisi “muistinmenetys”-käyttäytymiseen.

Vaikka tämä on häviöllinen pakkausmenetelmä, jopa tapa, jolla häviö tapahtuu, on hyödyllinen: uuden menetelmän mukaan muisti heikkenee lopussa lauseessa, eikä tasaisesti koko lauseen ajan, kuten DeepSeek-OCR:n arkkitehtuuri, joka innoitti uutta lähestymistapaa; itse asiassa uuden tutkimuksen tekijät ehdottavat, että heidän menetelmänsä heikkenee samalla tavalla kuin ihmisen muisti, eikä satunnaisesti:

Ylhäältä, ihmisen muisti heikkenee datavirran lopussa; keskellä: DeepSeek-OCR heikkenee satunnaisesti, jättämättä mitään ankkureita, jotka voivat auttaa korjaamaan ongelman; alhaalla: uusi menetelmä heikkenee samalla tavalla kuin ihmisen muisti, datavirran lopussa, tarjoamalla merkkejä, jotka voivat auttaa parantamaan tarkkuutta jälkikäteen prosessoinnilla.

Tämä tarkoittaa, että voidaan ennustaa, missä muistetut tiedot saattavat olla vähemmän luotettavia, ja voidaan käyttää tätä tietoa ongelman ratkaisemiseen – mahdollisesti tarjoamalla massiivisen parannuksen keskustelun muistissa ja johdonmukaisuudessa, 100 %:n tarkkuuden jälkikäteen korjaamisen jälkeen.

Uusi lähestymistapa on nimeltään Kontekstin Cascade-pakkaus (C3), ja se on inspiroitu DeepSeek-OCR:n tavasta pakata tekstiä kuvina, saavuttaen suuret pakkaustasot. Kuitenkin käyttämällä kahta (keskikokoista ja suurta) kielen mallia pitkän tekstin purkamiseen suoraan latenteihin upotuksiin, uusi lähestymistapa leikkaa pois haitan, joka johtuu rasterikuvien käytöstä, saavuttaen parannetun suorituskyvyn.

Tutkimusraportti toteaa:

‘C3:n erinomainen suorituskyky voidaan attribuoida sen perusrakenteelliseen suunnitteluun. DeepSeek-OCR-analyysi olettaa, että sen suorituskyvyn lasku johtuu tekijöistä, kuten “monimutkaisesta layoutista” ja “kuvan sumenemisesta alempien resoluutioiden kohdalla” – visuaalisen reitin sisäisistä rajoituksista.’

‘Meidän C3-paradigmamme, toimien suoraan tekstidomeenissa, on täysin immuuni näille visuaalisen alueen artefakteille. Se välttää tiedon häviämisen, joka liittyy tekstin renderöintiin pikseleiksi ja niiden koodaamiseen. Sen sijaan se hyödyntää esikoulutetun LLM:n voimakasta semanttista ymmärtämistä tietojen tiivistämiseksi suoraan tehokkaaseen latenteihin edustukseen.’

Uusi tutkimusraportti on nimeltään Kontekstin Cascade-pakkaus: Tutkimalla Tekstinpakkauksen Ylärajaa, ja se tulee kahdelta tekijältä^†, jotka näyttävät myös tarjoavan C3:n avoimena lähdekoodirepositorina GitHubissa.

… (jatkuu)

Related Topics:Advanced LLMs catastrophic forgetting forgetting in AI Large Language Models (LLMs)

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

Opettaminen Unohdettavalle AI:lle Pidättämään Ajatuksia Kauemmin

Murskaaminen

You may like