Internationellt Teknik

Nästa generations AI från OpenAI: o3 och o4-mini tänker med text och bilder

OpenAI o3 o4 release

SAN FRANCISCO – OpenAI har presenterat vad de beskriver som sina mest avancerade AI-modeller för resonemang hittills, o3 och o4-mini. Lanseringen markerar enligt företaget en revolution inom AI:s förmåga att integrera och resonera kring både text och bildmaterial.

En central nyhet är modellernas multimodala kapacitet. Till skillnad från tidigare, primärt textbaserade system, kan o3 och o4-mini analysera och tolka komplexa visuella underlag som diagram, skisser, grafer och till och med bilder av låg kvalitet som användare laddar upp, uppger OpenAI. Detta beskrivs som ett stort steg mot en mer mänsklig förståelse.

Vidare framhåller OpenAI att dessa modeller är de första som självständigt kan besluta när och hur de ska använda alla tillgängliga verktyg inom ChatGPT – som webbsökning, Python-kodkörning, bildanalys och bildgenerering. Denna ”agentiska” förmåga gör att de kan lösa komplicerade, flerstegsproblem och närmar sig autonomt uppgiftsutförande, ofta på under en minut för att ge genomtänkta svar.

Prestandamässigt är o3 optimerad för hög nivå av resonemang inom kodning, matematik, vetenskap och visuell perception. Modellen ska enligt OpenAI ha satt nya rekord på erkända benchmarks som Codeforces, SWE-bench och MMMU. Den mindre modellen, o4-mini, är designad för att vara snabbare och mer kostnadseffektiv, men utmärker sig ändå kraftigt inom matematik, kodning och visuella uppgifter, med toppresultat på AIME-matematikproven för 2024 och 2025. Båda modellerna sägs erbjuda förbättrad instruktionsföljsamhet och mer naturlig konversation jämfört med sina föregångare.

Tillgänglighet och kostnad är också viktiga aspekter. OpenAI har prissatt o3 till 10 dollar per miljon input-tokens och 40 dollar per miljon output-tokens. o4-mini är betydligt billigare, 1.10 dollar respektive 4.40 dollar, vilket gör avancerad AI-resonemang tillgängligt för fler applikationer. Båda är tillgängliga för ChatGPT Plus-, Pro- och Team-prenumeranter samt via API för utvecklare. En variant, o4-mini-high, finns för användare som önskar extra pålitliga och noggrant formulerade svar.

Säkerhet har varit i fokus, och OpenAI uppger att modellerna genomgått deras mest omfattande säkerhetsutvärdering någonsin, enligt företagets uppdaterade ”Preparedness Framework”. Externa experter fann att o3 gjorde 20% färre allvarliga fel än föregångaren o1 på svåra, verklighetsbaserade uppgifter. Företaget har dock nämnt att säkerhetsnivåerna kan komma att justeras beroende på konkurrenssituationen.

Framåt sett har VD Sam Altman indikerat att o3 och o4-mini kan vara de sista fristående resonemangsmodellerna före den mycket efterlängtade GPT-5, som förväntas integrera och förena olika AI-förmågor.

Unika funktioner som lyfts fram är modellernas förmåga att ”tänka med bilder”, vilket innebär att de inte bara ser bilder utan aktivt integrerar visuell information i sina resonemangsprocesser. OpenAI introducerade också Codex CLI, en lättviktig kodningsagent med öppen källkod som kan köras lokalt och interagera med de nya modellerna.

Sammantaget positionerar dessa framsteg OpenAI i täten av utvecklingen inom generativ AI och sätter nya standarder för intelligens, mångsidighet och praktisk nytta inom AI-drivet resonemang och multimodal förståelse.

Källa: OpenAI

Vad tycker du?