DOoM-lb / genned.json
Anonumous's picture
Update leaderboard
535a496
[
{
"model_name": "Anonumous/Gemini 3 Pro",
"score": 0.7759716952107476,
"math_score": 0.9396984924623115,
"physics_score": 0.6122448979591837,
"total_tokens": 2441816,
"evaluation_time": 6400.850697278976,
"system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
},
{
"model_name": "AlexWortega/Gemeni 2.5 Pro",
"score": 0.728,
"math_score": 0.874,
"physics_score": 0.582,
"total_tokens": 2227721,
"evaluation_time": 4937.3,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "Anonumous/GPT-5",
"score": 0.7047738693467337,
"math_score": 0.9095477386934674,
"physics_score": 0.5,
"total_tokens": 1374085,
"evaluation_time": 4908.358837604523,
"system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
},
{
"model_name": "o3-mini-high",
"score": 0.6921052631578948,
"math_score": 0.8842105263157894,
"physics_score": 0.5,
"total_tokens": 2186756,
"evaluation_time": 5107.464560031891,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "Anonumous/GPT-OSS-120B",
"score": 0.6746231155778895,
"math_score": 0.8492462311557789,
"physics_score": 0.5,
"total_tokens": 671703,
"evaluation_time": 939.0848069190979,
"system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
},
{
"model_name": "o3",
"score": 0.6689044038668099,
"math_score": 0.868421052631579,
"physics_score": 0.46938775510204084,
"total_tokens": 1164000,
"evaluation_time": 5025.797904491425,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "o4-mini-high",
"score": 0.6638023630504833,
"math_score": 0.868421052631579,
"physics_score": 0.45918367346938777,
"total_tokens": 1997548,
"evaluation_time": 5811.026826620102,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "Anonumous/GPT-5 Nano",
"score": 0.6491898266844426,
"math_score": 0.8391959798994975,
"physics_score": 0.45918367346938777,
"total_tokens": 2218450,
"evaluation_time": 5109.693122148514,
"system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
},
{
"model_name": "Anonumous/GPT-5 Mini",
"score": 0.6338067890472772,
"math_score": 0.8492462311557789,
"physics_score": 0.41836734693877553,
"total_tokens": 993326,
"evaluation_time": 3368.527199983597,
"system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
},
{
"model_name": "Anonumous/Claude Sonnet 4.5",
"score": 0.6095272279766177,
"math_score": 0.6884422110552764,
"physics_score": 0.5306122448979592,
"total_tokens": 461074,
"evaluation_time": 1216.3338594436646,
"system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
},
{
"model_name": "Anonumous/Claude Opus 4.1",
"score": 0.6068608347861758,
"math_score": 0.7035175879396985,
"physics_score": 0.5102040816326531,
"total_tokens": 448628,
"evaluation_time": 1927.2011346817017,
"system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
},
{
"model_name": "Anonumous/GPT-OSS-20B",
"score": 0.5832478720131269,
"math_score": 0.7889447236180904,
"physics_score": 0.37755102040816324,
"total_tokens": 1034077,
"evaluation_time": 4009.333387374878,
"system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
},
{
"model_name": "AlexWortega/Claude Sonnet 4",
"score": 0.551,
"math_score": 0.633,
"physics_score": 0.469,
"total_tokens": 490996,
"evaluation_time": 1294.7,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "Qwen QwQ 32B",
"score": 0.5303974221267455,
"math_score": 0.6526315789473685,
"physics_score": 0.40816326530612246,
"total_tokens": 2112951,
"evaluation_time": 16974.732090711594,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "Gemini 2.0 Flash",
"score": 0.5136412459720731,
"math_score": 0.5578947368421052,
"physics_score": 0.46938775510204084,
"total_tokens": 495313,
"evaluation_time": 736.5758397579193,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "Claude 3.7 Sonnet",
"score": 0.47003222341568207,
"math_score": 0.5421052631578948,
"physics_score": 0.3979591836734694,
"total_tokens": 405583,
"evaluation_time": 1081.969652414322,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "gpt-4.1",
"score": 0.46557465091299677,
"math_score": 0.5842105263157895,
"physics_score": 0.3469387755102041,
"total_tokens": 549983,
"evaluation_time": 2434.5933046340942,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "LakoMoor/QVikhr-3-8B-Instruction",
"score": 0.445,
"math_score": 0.563,
"physics_score": 0.327,
"total_tokens": 1486327,
"evaluation_time": 11874.2,
"system_prompt": "You are a helpful assistant. Answer in Russian."
},
{
"model_name": "LakoMoor/Qwen3-8B",
"score": 0.417,
"math_score": 0.538,
"physics_score": 0.296,
"total_tokens": 1576445,
"evaluation_time": 12744.3,
"system_prompt": "You are a helpful assistant. Answer in Russian."
},
{
"model_name": "Gemma 3 27B",
"score": 0.40010741138560685,
"math_score": 0.47368421052631576,
"physics_score": 0.32653061224489793,
"total_tokens": 384164,
"evaluation_time": 3024.3041207790375,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "Claude 3.5 Sonnet",
"score": 0.3762620837808808,
"math_score": 0.41578947368421054,
"physics_score": 0.336734693877551,
"total_tokens": 252843,
"evaluation_time": 702.003228187561,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "DeepSeek R1 Distill Qwen 14B",
"score": 0.3461331901181525,
"math_score": 0.4473684210526316,
"physics_score": 0.24489795918367346,
"total_tokens": 806258,
"evaluation_time": 7904.137916564941,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "DeepSeek V3 0324",
"score": 0.34334049409237377,
"math_score": 0.43157894736842106,
"physics_score": 0.25510204081632654,
"total_tokens": 339857,
"evaluation_time": 2901.8081181049347,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "gpt-4o",
"score": 0.3382384532760473,
"math_score": 0.43157894736842106,
"physics_score": 0.24489795918367346,
"total_tokens": 399483,
"evaluation_time": 1145.0411348342896,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "GigaChat-2-Max",
"score": 0.3142320085929109,
"math_score": 0.3631578947368421,
"physics_score": 0.2653061224489796,
"total_tokens": 185204,
"evaluation_time": 965.8490540981293,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "AvitoTech/A-vibe",
"score": 0.2803558609373398,
"math_score": 0.36683417085427134,
"physics_score": 0.19387755102040816,
"total_tokens": 797771,
"evaluation_time": 4097.367070198059,
"system_prompt": null
},
{
"model_name": "GigaChat-2-Pro",
"score": 0.27013963480128894,
"math_score": 0.3157894736842105,
"physics_score": 0.22448979591836735,
"total_tokens": 215297,
"evaluation_time": 1250.343486070633,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "Qwen2.5 72B Instruct",
"score": 0.18947368421052632,
"math_score": 0.37894736842105264,
"physics_score": 0.0,
"total_tokens": 322441,
"evaluation_time": 5670.72598361969,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "GigaChat-Max",
"score": 0.18147153598281418,
"math_score": 0.18947368421052632,
"physics_score": 0.17346938775510204,
"total_tokens": 200271,
"evaluation_time": 1056.4797942638397,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "Gemma 3 4B",
"score": 0.17996777658431795,
"math_score": 0.2578947368421053,
"physics_score": 0.10204081632653061,
"total_tokens": 726285,
"evaluation_time": 2959.3581898212433,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
},
{
"model_name": "GigaChat-2",
"score": 0.08308270676691729,
"math_score": 0.09473684210526316,
"physics_score": 0.07142857142857142,
"total_tokens": 136051,
"evaluation_time": 576.884927034378,
"system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
}
]