Artificiell intelligens
LLM-bilen: En genombrott i kommunikation mellan människa och AV

Medan autonoma fordon (AV) närmar sig en bredare användning, kvarstår en betydande utmaning: att överbrygga kommunikationsgapet mellan mänskliga passagerare och deras robotchaufförer. Medan AV har gjort anmärkningsvärda framsteg i att navigera i komplexa vägmiljöer, har de ofta svårt att tolka de nyanserade, naturliga språkkommandon som kommer så lätt för mänskliga förare.
Här kommer en banbrytande studie från Purdue Universitys Lyles School of Civil and Construction Engineering. Under ledning av biträdande professor Ziran Wang har ett team av ingenjörer banat väg för en innovativ approach för att förbättra AV-mänsklig interaktion med hjälp av artificiell intelligens. Deras lösning är att integrera stora språkmodeller (LLM) som ChatGPT i autonoma körsystem.
Kraften i naturligt språk i AV
LLM representerar ett stort steg framåt i AI:s förmåga att förstå och generera mänskligt språk. Dessa sofistikerade AI-system är tränade på enorma mängder textdata, vilket gör att de kan greppa sammanhang, nyans och underförstådd mening på sätt som traditionella programmerade svar inte kan.
I sammanhanget med autonoma fordon erbjuder LLM en transformerande förmåga. Till skillnad från konventionella AV-gränssnitt som förlitar sig på specifika röstkommandon eller knappindata, kan LLM tolka en bred palett av naturliga språkinstruktioner. Detta innebär att passagerare kan kommunicera med sina fordon på samma sätt som de skulle med en mänsklig förare.
Förbättringen av AV-kommunikationsförmåga är betydande. Tänk dig att säga till din bil, “Jag är sen”, och att den automatiskt beräknar den mest effektiva rutten, justerar sin körstil för att säkert minimera restiden. Eller överväg möjligheten att säga, “Jag känner mig lite åksjuk”, vilket får fordonet att justera sitt rörelsemönster för en smidigare färd. Dessa nyanserade interaktioner, som mänskliga förare intuitivt förstår, blir möjliga för AV genom integrationen av LLM.

Purdue Universitys biträdande professor Ziran Wang står bredvid en testautonom bil som han och hans studenter utrustat för att tolka kommandon från passagerare med hjälp av ChatGPT eller andra stora språkmodeller. (Purdue University foto/John Underwood)
Purdue-studien: Metod och resultat
För att testa potentialen för LLM i autonoma fordon genomförde Purdue-teamet en serie experiment med ett autonomt fordon av nivå fyra – bara ett steg ifrån full autonomi enligt SAE International.
Forskarna började med att träna ChatGPT att svara på en rad kommandon, från direkta instruktioner som “Var vänlig köra fortare” till mer indirekta förfrågningar som “Jag känner mig lite rörelsesjuk just nu”. De integrerade sedan denna tränade modell med fordonets befintliga system, vilket tillät det att beakta faktorer som trafikregler, vägförhållanden, väder och sensordata när det tolkade kommandon.
Den experimentella uppläggningsmetoden var rigorös. De flesta tester genomfördes på en testbana i Columbus, Indiana – en före detta flygplats som tillät säker höghastighetstestning. Ytterligare parkeringstester utfördes på parkeringen vid Purdue’s Ross-Ade Stadium. Under hela experimenten svarade LLM-assisterade AV på både förutlärda och nya kommandon från passagerare.
Resultaten var lovande. Deltagarna rapporterade betydligt lägre obehagsnivåer jämfört med vanliga upplevelser i nivå fyra AV utan LLM-stöd. Fordonet presterade konsekvent bättre än baslinjen för säkerhet och komfort, även när det svarade på kommandon det inte hade uttryckligen tränats på.
Kanske mest imponerande var systemets förmåga att lära sig och anpassa sig till individuella passagerarpreferenser under färden, vilket visar på potentialen för verkligen personlig autonom transport.

Purdue PhD-student Can Cui sitter för en åktur i den testautonoma bilen. En mikrofon i konsollen plockar upp hans kommandon, som stora språkmodeller i molnet tolkar. Fordonet kör enligt instruktioner genererade från de stora språkmodellerna. (Purdue University foto/John Underwood)
Implikationer för transportens framtid
För användarna är fördelarna många. Förmågan att kommunicera naturligt med ett AV minskar den inlärningskurva som är förknippad med ny teknik, vilket gör autonoma fordon mer tillgängliga för en bredare grupp människor, inklusive de som kan vara avskräckta av komplexa gränssnitt. Dessutom antyder personanpassningsförmågorna i Purdue-studien en framtid där AV kan anpassa sig till individuella preferenser, vilket ger en skräddarsydd upplevelse för varje passagerare.
Denna förbättrade interaktion kan också förbättra säkerheten. Genom att bättre förstå passagerarens avsikt och tillstånd – som att känna igen när någon är stressad eller mår dåligt – kan AV anpassa sitt körbeteende därefter, vilket potentiellt minskar olyckor orsakade av misskommunikation eller passagerarobehag.
Från ett industriellt perspektiv kan denna teknik vara en nyckeldifferentierare på den konkurrensutsatta AV-marknaden. Tillverkare som kan erbjuda ett mer intuitivt och responsivt användargränssnitt kan få en betydande fördel.
Utmaningar och framtida riktningar
Trots de lovande resultaten kvarstår flera utmaningar innan LLM-integrerade AV blir verklighet på allmänna vägar. En nyckelfråga är bearbetningstiden. Det nuvarande systemet har i genomsnitt 1,6 sekunder för att tolka och svara på ett kommando – acceptabelt för icke-kritiska scenarier men potentiellt problematiskt i situationer som kräver snabba svar.
En annan betydande oro är risken för att LLM “hallucinerar” eller missförstår kommandon. Medan studien inkorporerade säkerhetsmekanismer för att mildra denna risk, är det avgörande att hantera denna fråga på ett omfattande sätt för en verklig implementering.
I framtiden undersöker Wangs team flera vägar för ytterligare forskning. De utvärderar andra LLM, inklusive Google’s Gemini och Meta’s Llama AI-assistent, för att jämföra prestanda. Preliminära resultat tyder på att ChatGPT för närvarande presterar bättre än andra i säkerhets- och effektivitetsmått, även om publicerade resultat är på väg.
En spännande framtida riktning är potentialen för fordon-kommunikation med LLM. Detta kunde möjliggöra mer sofistikerad trafikledning, som AV som förhandlar om företräde vid korsningar.
Dessutom inleder teamet ett projekt för att studera stora modeller för syn – AI-system tränade på bilder snarare än text – för att hjälpa AV att navigera i extrema vinterförhållanden som är vanliga i Mellanvästern. Denna forskning, som stöds av Center for Connected and Automated Transportation, kunde ytterligare förbättra anpassningsförmågan och säkerheten hos autonoma fordon.
Sammanfattning
Purdue Universitys banbrytande forskning om att integrera stora språkmodeller med autonoma fordon markerar en vändpunkt i transportteknologi. Genom att möjliggöra mer intuitiv och responsiv mänsklig-AV-interaktion, hanterar denna innovation en kritisk utmaning i AV-antagande. Medan hinder som bearbetningstid och potentiella missförstånd kvarstår, banar studiens lovande resultat väg för en framtid där kommunikation med våra fordon kunde vara lika naturlig som att konversera med en mänsklig förare. När denna teknik utvecklas, har den potentialen att revolutionera inte bara hur vi reser, utan hur vi uppfattar och interagerar med artificiell intelligens i våra dagliga liv.








