Dibandingkan dengan model lain tanpa penggunaan alat, ia mencapai performa terbaik di seluruh:
🔘 LiveCodeBench V6, yang mengevaluasi kinerja kode kompetitif
🔘 Ujian Terakhir Kemanusiaan, sebuah tolok ukur yang menantang yang mengukur keahlian model dalam berbagai domain, termasuk sains
Lihat Asli