Etiket: benchmark
"benchmark" etiketiyle ilgili tüm yazılar.
-
DeepSWE tartışması: “Başarısız” denilen 3 görev aynı modelle yeniden çözüldü
4 Haziran 2026’da açılan bir GitHub kaydı, DeepSWE benchmark sonuçlarının güvenilirliği konusunda soru işaretleri doğurdu. İddiaya göre DeepSeek V4’ün çözemediği söylenen 3 görev, aynı modelle yeniden çalıştırıldığında çözülebildi.