Grok yine zirvede: Yapay zekaların halüsinasyon oranlarında şaşırtıcı sonuçlar

OpenAI, geçtiğimiz Perşembe günü ChatGPT-5’i tanıttığında CEO Sam Altman, bu sürümün şimdiye kadar yayınladıkları en “güçlü, akıllı, hızlı, güvenilir ve sağlam” ChatGPT olduğunu vurguladı. Lansman sırasında, şirket çalışanları ayrıca ChatGPT-5’in “halüsinasyon” olarak bilinen yanlış bilgi üretme oranını azaltacağını belirtti.

Halüsinasyon nedir?

Yapay zekâ, gerçekte olmayan bilgileri gerçekmiş gibi sunduğunda bu durum “halüsinasyon” olarak adlandırılır. Büyük dil modellerinin (LLM) halüsinasyon oranları son yıllarda düşse de, hâlâ tamamen ortadan kalkmış değil. Bu da, insan gözetimi olmadan görevleri güvenle yerine getirmelerini engelleyen temel faktörlerden biri.

Vectara testleri: ChatGPT-5, GPT-4o’dan sadece %0,09 daha iyi

LLM performansını ölçen Vectara, halüsinasyon oranlarını karşılaştırmak için kendi “Hughes Halüsinasyon Değerlendirme Modeli” (HHEM) tablosunu kullandı. Sonuçlara göre:

  • ChatGPT-5: %1,4 halüsinasyon oranı

  • GPT-4: %1,8

  • GPT-4 Turbo & 4o Mini: %1,69

  • GPT-4o: %1,49

Yani ChatGPT-5, GPT-4o’dan yalnızca %0,09 oranında daha düşük halüsinasyon üretiyor. İlginç bir şekilde, ChatGPT-5’in oranı, %1,2 ile daha iyi bir performans sergileyen ChatGPT-4.5 Önizleme sürümünden biraz daha yüksek. Öte yandan, OpenAI’nin en iyi akıl yürütme modeli olan o3-mini %0,795 ile hâlâ en düşük halüsinasyon oranına sahip.

Grok’un yüksek halüsinasyon oranı ve tartışmalı “Spicy” modu

Karşılaştırmada, rakip modellerin performansı ChatGPT-5’in hâlâ önde olduğunu gösteriyor.

  • Gemini-2.5-pro: %2,6

  • Grok-4: %4,8

Özellikle Grok, halüsinasyon üretme konusunda listenin zirvesinde. XAI’nin geliştirdiği Grok, yakın zamanda “Spicy” modu ile de eleştiri topladı. Bu mod, ünlü isimler üzerinde deepfake içerikler oluşturulmasına zemin hazırlayabileceği endişesi yarattı. Şirket, sistemin çıplaklık veya cinsel içerikleri engelleyecek filtreler içerdiğini söylese de, bazı örnekler bu endişeleri güçlendirdi.

Eski modellerin kaldırılması tepki çekti

ChatGPT-5’in piyasaya sürülmesiyle birlikte OpenAI, ChatGPT-4, GPT-4o ve 4o-mini gibi sürümleri Plus kullanıcılarının erişiminden kaldırdı. Bu durum, kullanıcıların tepkisine yol açtı. Bazı Reddit kullanıcıları, “tek arkadaşını bir gecede kaybetmek” benzetmesiyle tepkilerini dile getirdi.

Sam Altman, X üzerinden yaptığı açıklamada, GPT-5’in genel olarak daha iyi olsa da GPT-4o’da sevilen bazı özelliklerin önemini hafife aldıklarını kabul etti. Şirket, bu tepkiler üzerine sınırlı bir süreliğine GPT-4o’yu Plus kullanıcılarına geri getireceğini duyurdu.

Related Posts

Yaşam simülasyonu oyunu 2026’nın ilk yarısında PS5’te olacak

KRAFTON Inc., yaşam simülasyonu oyunu inZOI’nin PlayStation 5 sürümünün 2026’nın ilk yarısında piyasaya sürüleceğini açıkladı.

Türkiye, kritik verilerin güvenliği ve dijital egemenlik için “Bulut Vatan” stratejisini hayata geçiriyor

Türkiye, kritik verilerin güvenliği ve dijital egemenlik için “Bulut Vatan” stratejisini hayata geçiriyor. Yerli bulut altyapıları ve yapay zeka çözümleriyle savunma, enerji ve kamu sektörlerinde güvenlik odaklı dönüşüm hızlanıyor.

Google’a 34,5 milyar dolarlık teklif

Google’ın satma niyeti olmamasına rağmen yapılan bu “beklenmedik” teklif, ABD’de devam eden tekel davasının ve Chrome’un zorunlu satışı olasılığının yarattığı belirsizlikten faydalanma girişimi olarak değerlendiriliyor. Üç yıl önce kurulan ve Nvidia …

Dünya’dan 20 milyon yıl daha yaşlı göktaşı, evin çatısını delip geçti

Akşam sakin sakin evinizde oturup dizi film seyredip patlamış mısır yerken birden çatınızdan içeri, gezegenimizden daha yaşlı bir taş parçası düşüyor… Bu durumda siz ne yapardınız?

Otomotiv devi tepetaklak oldu

Otomotiv devlerinden Tesla’nın Çin’deki en popüler modellerinden biri olan Model Y’nin satış grafiği temmuz ayında yeniden düşüşe geçti. Haziran ayında sınırlı da olsa yükseliş gösteren satışlar, bir ay sonra sert bir düşüş yaşadı.

Avrupa akıllı telefon pazarında dikkat çeken değişim: Apple, ikinciliği kaybetti

2025’in ikinci çeyreğine ait veriler, Samsung’un liderliğini koruduğunu ancak Xiaomi’nin yükselişiyle Apple’ın üçüncü sıraya gerilediğini gösteriyor. Fiyat/performans dengesi, tüketici tercihlerinde belirleyici olmuş gibi görünüyor.