Artificiell intelligens

GPT-4o Mini presenteras: En kostnadseffektiv och högpresterande alternativ till Claude Haiku, Gemini Flash och GPT 3.5 Turbo

mm

OpenAI, en ledande aktör inom utvecklingen av Generative Pre-trained Transformer (GPT)-modeller, har nu introducerat GPT-4o Mini, som markerar en övergång till mer kompakta AI-lösningar. Detta drag syftar till att möta utmaningarna med storskalig AI, inklusive höga kostnader och energikrävande utbildning, och positionerar OpenAI för att konkurrera med rivaler som Google och Claude. GPT-4o Mini erbjuder en mer effektiv och prisvärd approach till multimodal AI. Den här artikeln kommer att undersöka vad som särskiljer GPT-4o Mini genom att jämföra den med Claude Haiku, Gemini Flash och OpenAI:s GPT-3.5 Turbo. Vi kommer att utvärdera dessa modeller baserat på sex nyckelfaktorer: modalt stöd, prestanda, kontextfönster, bearbetningshastighet, prissättning och tillgänglighet, som är avgörande för att välja rätt AI-modell för olika tillämpningar.

Presentera GPT-4o Mini:

GPT-4o Mini är en kompak multimodal AI-modell med text- och visuell intelligens. Även om OpenAI inte har delat specifika detaljer om dess utvecklingsmetod, bygger GPT-4o Mini på grunden av GPT-serien. Den är utformad för kostnadseffektiva och låglatensapplikationer. GPT-4o Mini är användbar för uppgifter som kräver kedjning eller parallellisering av flera modellanrop, hantering av stora volymer kontext och tillhandahållande av snabba, realtidsbaserade textsvar. Dessa funktioner är särskilt viktiga för att bygga applikationer som retrieval augment generation (RAG)-system och chatbotar.

Nyckelfunktioner i GPT-4o Mini inkluderar:

  • Ett kontextfönster på 128K token
  • Stöd för upp till 16K utdatatoken per begäran
  • Förbättrad hantering av icke-engelsk text
  • Kunskap upp till oktober 2023

GPT-4o Mini vs. Claude Haiku vs. Gemini Flash: En jämförelse av små multimodala AI-modeller

Den här delen jämför GPT-4o Mini med två befintliga små multimodala AI-modeller: Claude Haiku och Gemini Flash. Claude Haiku, lanserad av Anthropic i mars 2024, och Gemini Flash, introducerad av Google i december 2023 med en uppdaterad version 1.5 släppt i maj 2024, är betydande konkurrenter.

  • Modalt stöd: Både GPT-4o Mini och Claude Haiku stöder för närvarande text- och bildfunktioner. OpenAI planerar att lägga till ljud- och videosupport i framtiden. I kontrast stöder Gemini Flash redan text, bild, video och ljud.
  • Prestanda: OpenAI-forskare har benchmarkat GPT-4o Mini mot Gemini Flash och Claude Haiku över flera nyckelmetricer. GPT-4o Mini presterar konsekvent bättre än sina rivaler. I resonemangsaktiviteter som involverar text och vision uppnådde GPT-4o Mini 82,0% på MMLU, vilket överträffar Gemini Flashs 77,9% och Claude Haikus 73,8%. GPT-4o Mini uppnådde 87,0% i matematik och kodning på MGSM, jämfört med Gemini Flashs 75,5% och Claude Haikus 71,7%. På HumanEval, som mäter kodningsprestanda, uppnådde GPT-4o Mini 87,2%, före Gemini Flash på 71,5% och Claude Haiku på 75,9%. Dessutom excellerar GPT-4o Mini i multimodalt resonemang, med 59,4% på MMMU, jämfört med 56,1% för Gemini Flash och 50,2% för Claude Haiku.
  • Kontextfönster: Ett större kontextfönster möjliggör för en modell att ge sammanhängande och detaljerade svar över längre passager. GPT-4o Mini erbjuder en kapacitet på 128K token och stöder upp till 16K utdatatoken per begäran. Claude Haiku har ett längre kontextfönster på 200K token men returnerar färre token per begäran, med en maximalt 4096 token. Gemini Flash har ett betydligt större kontextfönster på 1 miljon token. Därför har Gemini Flash en fördel över GPT-4o Mini när det gäller kontextfönster.
  • Bearbetningshastighet: GPT-4o Mini är snabbare än de andra modellerna. Den bearbetar 15 miljoner token per minut, medan Claude Haiku hanterar 1,26 miljoner token per minut och Gemini Flash bearbetar 4 miljoner token per minut.
  • Prissättning: GPT-4o Mini är mer kostnadseffektiv, med en prissättning på 15 cent per miljon indata-token och 60 cent per miljon utdatatoken. Claude Haiku kostar 25 cent per miljon indata-token och 1,25 dollar per miljon svarstoken. Gemini Flash är prissatt till 35 cent per miljon indata-token och 1,05 dollar per miljon utdatatoken.
  • Tillgänglighet: GPT-4o Mini kan nås via Assistants API, Chat Completions API och Batch API. Claude Haiku är tillgänglig via en Claude Pro-prenumeration på claude.ai, dess API, Amazon Bedrock och Google Cloud Vertex AI. Gemini Flash kan nås på Google AI Studio och integreras i applikationer via Google API, med ytterligare tillgänglighet på Google Cloud Vertex AI.

I den här jämförelsen utmärker sig GPT-4o Mini med sin balanserade prestanda, kostnadseffektivitet och hastighet, vilket gör den till en stark utmanare i landskapet av små multimodala AI-modeller.

GPT-4o Mini vs. GPT-3.5 Turbo: En detaljerad jämförelse

Den här delen jämför GPT-4o Mini med GPT-3.5 Turbo, OpenAI:s breda och stora multimodala AI-modell.

  • Storlek: Även om OpenAI inte har avslöjat den exakta antalet parametrar för GPT-4o Mini och GPT-3.5 Turbo, är det känt att GPT-3.5 Turbo klassificeras som en stor multimodal modell, medan GPT-4o Mini faller in i kategorin små multimodala modeller. Det betyder att GPT-4o Mini kräver betydligt färre beräkningsresurser än GPT-3.5 Turbo.
  • Modalt stöd: GPT-4o Mini och GPT-3.5 Turbo stöder text- och bildrelaterade uppgifter.
  • Prestanda: GPT-4o Mini visar betydande förbättringar jämfört med GPT-3.5 Turbo i olika benchmark-tester som MMLU, GPQA, DROP, MGSM, MATH, HumanEval, MMMU och MathVista. Den presterar bättre i textuell intelligens och multimodalt resonemang, konsekvent överträffande GPT-3.5 Turbo.
  • Kontextfönster: GPT-4o Mini erbjuder ett betydligt längre kontextfönster än GPT-3.5 Turbos 16K token-kapacitet, vilket möjliggör för den att hantera mer omfattande text och ge detaljerade, sammanhängande svar över längre passager.
  • Bearbetningshastighet: GPT-4o Mini bearbetar token i en imponerande takt på 15 miljoner token per minut, vilket vida överträffar GPT-3.5 Turbos 4 650 token per minut.
  • Pris: GPT-4o Mini är också mer kostnadseffektiv, över 60% billigare än GPT-3.5 Turbo. Den kostar 15 cent per miljon indata-token och 60 cent per miljon utdatatoken, medan GPT-3.5 Turbo är prissatt till 50 cent per miljon indata-token och 1,50 dollar per miljon utdatatoken.
  • Ytterligare funktioner: OpenAI betonar att GPT-4o Mini överträffar GPT-3.5 Turbo i funktionsanrop, vilket möjliggör en smidigare integration med externa system. Dessutom gör dess förbättrade långkontextprestanda den till ett mer effektivt och mångsidigt verktyg för olika AI-applikationer.

Slutsatsen

OpenAI:s introduktion av GPT-4o Mini representerar en strategisk skiftning mot mer kompakta och kostnadseffektiva AI-lösningar. Den här modellen möter effektivt utmaningarna med höga driftskostnader och energiförbrukning som är förknippade med storskaliga AI-system. GPT-4o Mini excellerar i prestanda, bearbetningshastighet och prisvärdhet jämfört med konkurrenter som Claude Haiku och Gemini Flash. Den visar också överlägsna förmågor jämfört med GPT-3.5 Turbo, med betydande fördelar i kontextshantering och kostnadseffektivitet. GPT-4o Minis förbättrade funktioner och mångsidiga tillämpning gör den till ett starkt val för utvecklare som söker högpresterande, multimodalt AI.

Dr. Tehseen Zia Ă€r en fast anstĂ€lld bitrĂ€dande professor vid COMSATS University Islamabad, med en doktorsexamen i AI frĂ„n Vienna University of Technology, Österrike. Specialiserad pĂ„ artificiell intelligens, maskinlĂ€rning, datavetenskap och datorseende, har han gjort betydande bidrag med publikationer i ansedda vetenskapliga tidskrifter. Dr. Tehseen har ocksĂ„ lett olika industriprojekt som huvudutredare och tjĂ€nstgjort som AI-konsult.