Хиймэл оюуны загваруудын чадварын харьцуулалт
Харагдац
2025 оны 6-р сарын байдлаар хамгийн өндөр үнэлгээ буюу бэнчмарк оноог авсан хиймэл оюуны (ХО) загварууд: [1]
| Зэрэг | ХО загвар | Бүтээгч | Хувилбар | Үнэлгээ оноо (Toп 5) |
|---|---|---|---|---|
| 1 | Gemini | Gemini 2.5 Pro (Preview) | GPQA Diamond: 65.4% | AIME 25: 88.2% | SimpleBench: 62.4% | MMMU: 71.2% | |
| 2 | GPT-4/5 | OpenAI | o3 (High Reasoning) | GPQA Diamond: 80.5% | SWE-Bench: 71.7% | Humanity's Last Exam: 28.5% | MMLU: 90.1% |
| 3 | Claude | Anthropic | Claude 3.7 Sonnet [R] | GPQA Diamond: 59.4% | LiveBench: 68.2% | HumanEval: 92.0% | MGSM: 91.5% |
| 4 | Llama | Meta | Llama 4 Maverick (400B) | MMLU: 88.2% | GPQA: 54.1% | HumanEval: 88.2% | MATH 500: 82.5% |
| 5 | DeepSeek | DeepSeek | DeepSeek-R1 (0528) | MATH 500: 90.2% | SWE-Bench Ver.: 42.0% | MMLU Pro: 75.9% | GPQA: 59.1% |
| 6 | Grok | xAI | Grok 3 (Beta) | GPQA: 52.0% | HumanEval: 84.0% | MATH: 78.5% | RealWorldQA: 79.2% |
| 7 | Kimi | Moonshot | Kimi K2 Thinking | Humanity's Last Exam: 44.9% | SWE-Bench: 71.3% | LiveCode: 83.1% | MMLU: 84.5% |
| 8 | Qwen | Alibaba | Qwen 3 Next (80B) | MATH 500: 86.4% | HumanEval: 91.1% | GPQA: 48.2% | MMMU: 68.4% |
| 9 | Mistral | Mistral AI | Mistral Large 3 | HumanEval: 82.5% | GPQA: 45.8% | MBPP: 80.1% | ARC-C: 91.5% |
| 10 | Nova | Amazon | Nova Pro (v2) | GPQA: 42.0% | BFCL (Tool Use): 76.2% | HumanEval: 78.9% | ARC-C: 89.4% |
2025 оны 12-р сарын байдлаар хамгийн өндөр үнэлгээ буюу бэнчмарк оноог авсан хиймэл оюуны (ХО) загварууд:
| Зэрэг | ХО загвар | Бүтээгч | Үнэлгээ оноо (Toп 5) | Юугаар илүү |
|---|---|---|---|---|
| 1 | Gemini 3 Pro | GPQA: 91.9% | AIME 25: 100% | Humanity's Last Exam: 45.8% | MMMU: 78.4% | Reasoning & Multimodality | |
| 2 | GPT-5.2 | OpenAI | GPQA: 92.4% | AIME 25: 100% | SWE-Bench: 74.9% | SimpleQA: 89.2% | General Purpose & Speed |
| 3 | Claude 4.5 Opus | Anthropic | MMLU Pro: 89.5% | GPQA: 87.3% | HumanEval: 93.7% | MGSM: 94.2% | Coding & Complex Logic |
| 4 | Grok 4 | xAI | GPQA: 88.4% | MMLU: 90.5% | RealWorldQA: 85.1% | LiveCodeBench: 80.0% | Real-time Info & Math |
| 5 | Kimi K2 Thinking | Moonshot | Humanity's Last Exam: 44.9% | MATH 500: 96.4% | GPQA: 85.0% | MMLU Pro: 84.6% | STEM & Long-form Logic |
| 6 | DeepSeek V3.2 (Think) | DeepSeek | HumanEval: 91.5% | MMLU Pro: 85.0% | GPQA: 82.3% | MATH 500: 94.8% | Performance-to-Cost ROI |
| 7 | Llama 4 Scout | Meta | MMLU: 88.6% | GPQA: 76.5% | HumanEval: 88.2% | MMMLU: 2600+ | Massive Document Analysis |
| 8 | Qwen 3 Max | Alibaba | HumanEval: 92.1% | MATH 500: 93.2% | GPQA: 79.8% | MMMU: 72.1% | Multilingual & Coding |
| 9 | Mistral Medium 3 | Mistral AI | GPQA: 74.2% | HumanEval: 86.5% | MBPP: 84.1% | ARC-C: 93.5% | Efficiency & Privacy |
| 10 | Nova Premier | Amazon | GPQA: 71.9% | HumanEval: 83.4% | BFCL (Tool Use): 78.6% | ARC-C: 91.2% | Enterprise Tool Integration |
2026 оны 3-р сарын байдлаар хамгийн өндөр үнэлгээ буюу бэнчмарк оноог авсан хиймэл оюуны загварууд:
Эх сурвалж
[засварлах | кодоор засварлах]- ↑ velum.ai LLM-ийн зэрэглэл|https://www.vellum.ai/llm-leaderboard