Modele AI od OpenAI coraz częściej halucynują – nowe o3 i o4-mini zaskakują branżę

Im więcej „rozumują”, tym więcej zmyślają? OpenAI odkrywa paradoks rozwoju AI

W branży AI zawrzało. Najnowsze modele od OpenAI – o3 i o4-mini, promowane jako przełomowe modele „rozumujące” – halucynują częściej niż ich poprzednicy. I to nie jest dobra wiadomość dla firm szukających precyzyjnych narzędzi do wsparcia procesów decyzyjnych.

Zamiast spodziewanej poprawy jakości, testy wewnętrzne OpenAI wykazały wzrost liczby błędnych, zmyślonych odpowiedzi. Model o3 halucynował aż w 33% przypadków na benchmarku PersonQA, a o4-mini jeszcze bardziej – w 48%. Dla porównania: starsze modele, takie jak o1 i o3-mini, miały wskaźnik halucynacji poniżej 17%.

Dlaczego modele rozumujące halucynują więcej?

OpenAI przyznaje wprost: „Potrzeba więcej badań, by zrozumieć, dlaczego skala modeli rozumujących prowadzi do większej liczby halucynacji”. Modele o3 i o4-mini radzą sobie świetnie z kodowaniem czy zadaniami matematycznymi, ale im więcej twierdzeń generują, tym więcej błędów przemycają – tak przynajmniej wynika z raportu technicznego firmy.

To spory paradoks: więcej „rozumu” nie oznacza mniej błędów.

Trzecia strona potwierdza: modele… wymyślają, co zrobiły

Transluce, niezależne laboratorium badawcze, potwierdza te ustalenia. Model o3 w jednym z testów twierdził, że „uruchomił kod na MacBooku Pro z 2021 roku poza ChatGPT”. Problem? Ten model… nie ma takiej możliwości. To czysta fantazja systemu.

„Reinforcement learning stosowany w modelach z serii o może pogłębiać problemy, które zwykle są częściowo maskowane przez standardowe pipeline’y post-treningowe” – mówi Neil Chowdhury z Transluce, były pracownik OpenAI.

Praktyczne skutki: o3 podaje nieistniejące linki

Zespół Workera – platformy do upskillingu – testuje już o3 w codziennym workflow developerskim. Chociaż model „bije konkurencję” w zadaniach kodowania, często podaje linki, które nie działają. Wyglądają profesjonalnie, ale… prowadzą donikąd.

Dla firm z sektorów takich jak prawo, medycyna czy finanse, gdzie dokładność to fundament, takie „zmyślanie” to dealbreaker. Nikt nie chce modelu, który „upiększa” treść kontraktu prawniczego.

Rozwiązanie? Integracja z wyszukiwarkami i walidacja danych

Jednym z obiecujących kierunków jest dodanie dostępu do internetu w czasie rzeczywistym. GPT-4o z funkcją web search osiąga aż 90% trafności na benchmarku SimpleQA. To może być klucz do ograniczenia halucynacji – o ile użytkownicy są skłonni ujawniać swoje prompty zewnętrznym wyszukiwarkom.

Co dalej z „rozumującą AI”? Potrzeba głębszej strategii

Skoro zwiększanie zdolności rozumowania zwiększa też liczbę halucynacji, branża AI musi odpowiedzieć sobie na jedno pytanie: czy potrafimy jeszcze trenować modele mądrzej, a nie tylko „większe”?

Moonlanding wspiera firmy we wdrażaniu modeli AI, które nie tylko generują content, ale przede wszystkim przynoszą wartość – bez ryzyka reputacyjnego czy błędów logicznych. Sprawdź nasze doradztwo AI i usługi tworzenia asystentów AI, które skupiają się na stabilności, nie tylko innowacji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *