По сравнению с другими моделями, не использующими инструменты, он достигает передовых результатов в следующих областях:
🔘 LiveCodeBench V6, который оценивает производительность конкурентного кода
🔘 Последний экзамен человечества, сложная проверка, которая измеряет уровень знаний модели в различных областях, включая науку
Посмотреть Оригинал