Yapay Zeka Modellerinin Doğruluk Oranları: Matematikte Zayıf Performans Sergiliyorlar

Yapay zeka modellerinin doğruluk oranları, yapılan bir testte önemli farklılıklar gösterdi. Teste katılan modeller arasında ChatGPT-5 (OpenAI), Gemini 2.5 Flash (Google), Claude 4.5 Sonnet (Anthropic), DeepSeek V3.2 (DeepSeek AI) ve Grok-4 (xAI) yer aldı. Bu modellerin doğruluk oranları yüzde 45 ila 63 arasında değişti.

EN YÜKSEK BAŞARI GEMİNİ’DEN

Gemini modelinin başarı oranı yüzde 63 ile testin en yüksek doğruluğunu elde etti. Ancak bu, her 10 sorudan yaklaşık 4’ünün yanıtının yanlış olduğu anlamına geliyor. Grok ise yüzde 62,8 ile Gemini’yi takip etti. DeepSeek yüzde 52 oranı ile üçüncü sırada yer aldı, ChatGPT yüzde 49,4 ile dördüncü oldu. En düşük performansı ise yüzde 45,2 ile Claude sergiledi.

Araştırma, yapay zeka modellerinin performanslarının farklı kategorilerdeki değişikliklerini de ortaya koydu. Matematik ve dönüşümler kategorisinde Gemini yüzde 83 doğruluk oranı ile dikkat çekerken, Grok yüzde 76,9, DeepSeek ise yüzde 74,1 doğruluk oranı ile onu takip etti. Bu alandaki ortalama doğruluk oranı yüzde 72,1 olarak belirlendi.

EN DÜŞÜK BAŞARI FİZİKTE

Fizik alanında ise en düşük başarı oranı kaydedildi. 128 sorunun sorulduğu bu alanda ortalama doğruluk oranı sadece yüzde 35,8 seviyesine ulaştı. Grok bu alanda yüzde 43,8 ile liderlik gösterirken, Claude yalnızca yüzde 26,6 doğruluk oranına ulaşabildi.

Biyoloji ve kimya gibi alanlarda ise DeepSeek’in başarısı son derece düşük kaldı, bu model bu alanlarda sadece yüzde 10,6’lık bir doğruluk oranı yakalayabildi. Finans ve ekonomi kategorisinde ise Grok ve Gemini yüzde 76,7 ile en yüksek doğruluk oranlarını elde etti.

‘ÇAPRAZ KONTROL ŞART’

Araştırmanın yazarı Dawid Siuda, yapay zeka modellerinin doğruluğunun hâlâ önemli ölçüde sınırlı olduğu uyarısında bulundu. Siuda, “Eğer görev kritikse, hesap makineleri veya başka bir yapay zeka modeliyle çapraz kontrol yapılmalı” dedi.

Araştırma, yapay zekaların sıklıkla yaptığı hataları dört ana başlıkta topladı: “özensiz matematik” (yüzde 68), “hatalı mantık” (yüzde 26), “talimatı yanlış anlama” (yüzde 5) ve “vazgeçme”. En yaygın hata türü, doğru formül kullanılsa bile yapılan basit hesaplama hataları oldu. Özellikle çok adımlı işlemlerde yuvarlama hatalarının sonucu ciddi şekilde etkilediği belirlendi.

Bu veriler, yapay zeka sistemlerinin gündelik hesaplamalarda yaygın olarak kullanılmasına rağmen, mutlak bir güven sağlamadığını göstermektedir. Kullanıcıların sonuca ulaşmadan önce sonuçları kontrol etmeleri büyük önem taşımaktadır.