Modele AI od OpenAI coraz częściej halucynują – nowe o3 i o4-mini zaskakują branżę

Im więcej „rozumują”, tym więcej zmyślają? OpenAI odkrywa paradoks rozwoju AI

W branży AI zawrzało. Najnowsze modele od OpenAI – o3 i o4-mini, promowane jako przełomowe modele „rozumujące” – halucynują częściej niż ich poprzednicy. I to nie jest dobra wiadomość dla firm szukających precyzyjnych narzędzi do wsparcia procesów decyzyjnych.

Zamiast spodziewanej poprawy jakości, testy wewnętrzne OpenAI wykazały wzrost liczby błędnych, zmyślonych odpowiedzi. Model o3 halucynował aż w 33% przypadków na benchmarku PersonQA, a o4-mini jeszcze bardziej – w 48%. Dla porównania: starsze modele, takie jak o1 i o3-mini, miały wskaźnik halucynacji poniżej 17%.

Dlaczego modele rozumujące halucynują więcej?

OpenAI przyznaje wprost: „Potrzeba więcej badań, by zrozumieć, dlaczego skala modeli rozumujących prowadzi do większej liczby halucynacji”. Modele o3 i o4-mini radzą sobie świetnie z kodowaniem czy zadaniami matematycznymi, ale im więcej twierdzeń generują, tym więcej błędów przemycają – tak przynajmniej wynika z raportu technicznego firmy.

To spory paradoks: więcej „rozumu” nie oznacza mniej błędów.

Trzecia strona potwierdza: modele… wymyślają, co zrobiły

Transluce, niezależne laboratorium badawcze, potwierdza te ustalenia. Model o3 w jednym z testów twierdził, że „uruchomił kod na MacBooku Pro z 2021 roku poza ChatGPT”. Problem? Ten model… nie ma takiej możliwości. To czysta fantazja systemu.

„Reinforcement learning stosowany w modelach z serii o może pogłębiać problemy, które zwykle są częściowo maskowane przez standardowe pipeline’y post-treningowe” – mówi Neil Chowdhury z Transluce, były pracownik OpenAI.

Praktyczne skutki: o3 podaje nieistniejące linki

Zespół Workera – platformy do upskillingu – testuje już o3 w codziennym workflow developerskim. Chociaż model „bije konkurencję” w zadaniach kodowania, często podaje linki, które nie działają. Wyglądają profesjonalnie, ale… prowadzą donikąd.

Dla firm z sektorów takich jak prawo, medycyna czy finanse, gdzie dokładność to fundament, takie „zmyślanie” to dealbreaker. Nikt nie chce modelu, który „upiększa” treść kontraktu prawniczego.

Rozwiązanie? Integracja z wyszukiwarkami i walidacja danych

Jednym z obiecujących kierunków jest dodanie dostępu do internetu w czasie rzeczywistym. GPT-4o z funkcją web search osiąga aż 90% trafności na benchmarku SimpleQA. To może być klucz do ograniczenia halucynacji – o ile użytkownicy są skłonni ujawniać swoje prompty zewnętrznym wyszukiwarkom.

Co dalej z „rozumującą AI”? Potrzeba głębszej strategii

Skoro zwiększanie zdolności rozumowania zwiększa też liczbę halucynacji, branża AI musi odpowiedzieć sobie na jedno pytanie: czy potrafimy jeszcze trenować modele mądrzej, a nie tylko „większe”?

Moonlanding wspiera firmy we wdrażaniu modeli AI, które nie tylko generują content, ale przede wszystkim przynoszą wartość – bez ryzyka reputacyjnego czy błędów logicznych. Sprawdź nasze doradztwo AI i usługi tworzenia asystentów AI, które skupiają się na stabilności, nie tylko innowacji.

https://moonlandingservices.com/

Od lat pomagam firmom rosnąć szybciej, działać mądrzej i zarabiać więcej. Jestem strategiem, który dowozi. Nie zostawiam slajdów w PowerPoincie — zamieniam pomysły na wynik biznesowy. Moje zaplecze to budowanie i skalowanie projektów w agencjach, SaaS i e-commerce oraz rozwój złożonych produktów na poziomie country managera. Rozumiem specyfikę rynku w Polsce i Unii Europejskiej: regulacje, kanały, różnice popytu, kulturę decyzyjną. Doświadczenie end-to-end. Przeszedłem każdy etap wzrostu: od cold calli i social sellingu, przez SEO i performance (bez vanity KPI), po product discovery, roadmapę i budowę zespołów od zera. Dzięki temu łączę strategię z operacją — wiem, co działa na rynku, a co zostaje na prezentacjach.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

igor.plakhuta@moonlandingservices.com

© 2025 Moonlanding. All Rights Reserved.