Spaces:
Running
Running
| [ | |
| { | |
| "model_name": "Anonumous/Gemini 3 Pro", | |
| "score": 0.7759716952107476, | |
| "math_score": 0.9396984924623115, | |
| "physics_score": 0.6122448979591837, | |
| "total_tokens": 2441816, | |
| "evaluation_time": 6400.850697278976, | |
| "system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке." | |
| }, | |
| { | |
| "model_name": "AlexWortega/Gemeni 2.5 Pro", | |
| "score": 0.728, | |
| "math_score": 0.874, | |
| "physics_score": 0.582, | |
| "total_tokens": 2227721, | |
| "evaluation_time": 4937.3, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "Anonumous/GPT-5", | |
| "score": 0.7047738693467337, | |
| "math_score": 0.9095477386934674, | |
| "physics_score": 0.5, | |
| "total_tokens": 1374085, | |
| "evaluation_time": 4908.358837604523, | |
| "system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке." | |
| }, | |
| { | |
| "model_name": "o3-mini-high", | |
| "score": 0.6921052631578948, | |
| "math_score": 0.8842105263157894, | |
| "physics_score": 0.5, | |
| "total_tokens": 2186756, | |
| "evaluation_time": 5107.464560031891, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "Anonumous/GPT-OSS-120B", | |
| "score": 0.6746231155778895, | |
| "math_score": 0.8492462311557789, | |
| "physics_score": 0.5, | |
| "total_tokens": 671703, | |
| "evaluation_time": 939.0848069190979, | |
| "system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке." | |
| }, | |
| { | |
| "model_name": "o3", | |
| "score": 0.6689044038668099, | |
| "math_score": 0.868421052631579, | |
| "physics_score": 0.46938775510204084, | |
| "total_tokens": 1164000, | |
| "evaluation_time": 5025.797904491425, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "o4-mini-high", | |
| "score": 0.6638023630504833, | |
| "math_score": 0.868421052631579, | |
| "physics_score": 0.45918367346938777, | |
| "total_tokens": 1997548, | |
| "evaluation_time": 5811.026826620102, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "Anonumous/GPT-5 Nano", | |
| "score": 0.6491898266844426, | |
| "math_score": 0.8391959798994975, | |
| "physics_score": 0.45918367346938777, | |
| "total_tokens": 2218450, | |
| "evaluation_time": 5109.693122148514, | |
| "system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке." | |
| }, | |
| { | |
| "model_name": "Anonumous/GPT-5 Mini", | |
| "score": 0.6338067890472772, | |
| "math_score": 0.8492462311557789, | |
| "physics_score": 0.41836734693877553, | |
| "total_tokens": 993326, | |
| "evaluation_time": 3368.527199983597, | |
| "system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке." | |
| }, | |
| { | |
| "model_name": "Anonumous/Claude Sonnet 4.5", | |
| "score": 0.6095272279766177, | |
| "math_score": 0.6884422110552764, | |
| "physics_score": 0.5306122448979592, | |
| "total_tokens": 461074, | |
| "evaluation_time": 1216.3338594436646, | |
| "system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке." | |
| }, | |
| { | |
| "model_name": "Anonumous/Claude Opus 4.1", | |
| "score": 0.6068608347861758, | |
| "math_score": 0.7035175879396985, | |
| "physics_score": 0.5102040816326531, | |
| "total_tokens": 448628, | |
| "evaluation_time": 1927.2011346817017, | |
| "system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке." | |
| }, | |
| { | |
| "model_name": "Anonumous/GPT-OSS-20B", | |
| "score": 0.5832478720131269, | |
| "math_score": 0.7889447236180904, | |
| "physics_score": 0.37755102040816324, | |
| "total_tokens": 1034077, | |
| "evaluation_time": 4009.333387374878, | |
| "system_prompt": "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке." | |
| }, | |
| { | |
| "model_name": "AlexWortega/Claude Sonnet 4", | |
| "score": 0.551, | |
| "math_score": 0.633, | |
| "physics_score": 0.469, | |
| "total_tokens": 490996, | |
| "evaluation_time": 1294.7, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "Qwen QwQ 32B", | |
| "score": 0.5303974221267455, | |
| "math_score": 0.6526315789473685, | |
| "physics_score": 0.40816326530612246, | |
| "total_tokens": 2112951, | |
| "evaluation_time": 16974.732090711594, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "Gemini 2.0 Flash", | |
| "score": 0.5136412459720731, | |
| "math_score": 0.5578947368421052, | |
| "physics_score": 0.46938775510204084, | |
| "total_tokens": 495313, | |
| "evaluation_time": 736.5758397579193, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "Claude 3.7 Sonnet", | |
| "score": 0.47003222341568207, | |
| "math_score": 0.5421052631578948, | |
| "physics_score": 0.3979591836734694, | |
| "total_tokens": 405583, | |
| "evaluation_time": 1081.969652414322, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "gpt-4.1", | |
| "score": 0.46557465091299677, | |
| "math_score": 0.5842105263157895, | |
| "physics_score": 0.3469387755102041, | |
| "total_tokens": 549983, | |
| "evaluation_time": 2434.5933046340942, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "LakoMoor/QVikhr-3-8B-Instruction", | |
| "score": 0.445, | |
| "math_score": 0.563, | |
| "physics_score": 0.327, | |
| "total_tokens": 1486327, | |
| "evaluation_time": 11874.2, | |
| "system_prompt": "You are a helpful assistant. Answer in Russian." | |
| }, | |
| { | |
| "model_name": "LakoMoor/Qwen3-8B", | |
| "score": 0.417, | |
| "math_score": 0.538, | |
| "physics_score": 0.296, | |
| "total_tokens": 1576445, | |
| "evaluation_time": 12744.3, | |
| "system_prompt": "You are a helpful assistant. Answer in Russian." | |
| }, | |
| { | |
| "model_name": "Gemma 3 27B", | |
| "score": 0.40010741138560685, | |
| "math_score": 0.47368421052631576, | |
| "physics_score": 0.32653061224489793, | |
| "total_tokens": 384164, | |
| "evaluation_time": 3024.3041207790375, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "Claude 3.5 Sonnet", | |
| "score": 0.3762620837808808, | |
| "math_score": 0.41578947368421054, | |
| "physics_score": 0.336734693877551, | |
| "total_tokens": 252843, | |
| "evaluation_time": 702.003228187561, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "DeepSeek R1 Distill Qwen 14B", | |
| "score": 0.3461331901181525, | |
| "math_score": 0.4473684210526316, | |
| "physics_score": 0.24489795918367346, | |
| "total_tokens": 806258, | |
| "evaluation_time": 7904.137916564941, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "DeepSeek V3 0324", | |
| "score": 0.34334049409237377, | |
| "math_score": 0.43157894736842106, | |
| "physics_score": 0.25510204081632654, | |
| "total_tokens": 339857, | |
| "evaluation_time": 2901.8081181049347, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "gpt-4o", | |
| "score": 0.3382384532760473, | |
| "math_score": 0.43157894736842106, | |
| "physics_score": 0.24489795918367346, | |
| "total_tokens": 399483, | |
| "evaluation_time": 1145.0411348342896, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "GigaChat-2-Max", | |
| "score": 0.3142320085929109, | |
| "math_score": 0.3631578947368421, | |
| "physics_score": 0.2653061224489796, | |
| "total_tokens": 185204, | |
| "evaluation_time": 965.8490540981293, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "AvitoTech/A-vibe", | |
| "score": 0.2803558609373398, | |
| "math_score": 0.36683417085427134, | |
| "physics_score": 0.19387755102040816, | |
| "total_tokens": 797771, | |
| "evaluation_time": 4097.367070198059, | |
| "system_prompt": null | |
| }, | |
| { | |
| "model_name": "GigaChat-2-Pro", | |
| "score": 0.27013963480128894, | |
| "math_score": 0.3157894736842105, | |
| "physics_score": 0.22448979591836735, | |
| "total_tokens": 215297, | |
| "evaluation_time": 1250.343486070633, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "Qwen2.5 72B Instruct", | |
| "score": 0.18947368421052632, | |
| "math_score": 0.37894736842105264, | |
| "physics_score": 0.0, | |
| "total_tokens": 322441, | |
| "evaluation_time": 5670.72598361969, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "GigaChat-Max", | |
| "score": 0.18147153598281418, | |
| "math_score": 0.18947368421052632, | |
| "physics_score": 0.17346938775510204, | |
| "total_tokens": 200271, | |
| "evaluation_time": 1056.4797942638397, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "Gemma 3 4B", | |
| "score": 0.17996777658431795, | |
| "math_score": 0.2578947368421053, | |
| "physics_score": 0.10204081632653061, | |
| "total_tokens": 726285, | |
| "evaluation_time": 2959.3581898212433, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| }, | |
| { | |
| "model_name": "GigaChat-2", | |
| "score": 0.08308270676691729, | |
| "math_score": 0.09473684210526316, | |
| "physics_score": 0.07142857142857142, | |
| "total_tokens": 136051, | |
| "evaluation_time": 576.884927034378, | |
| "system_prompt": "Вы - полезный помощник по математике и физике. Ответьте на русском языке." | |
| } | |
| ] |