Jump to content

Хиймэл оюуны загваруудын чадварын харьцуулалт

Википедиа — Чөлөөт нэвтэрхий толь

2025 оны 6-р сарын байдлаар хамгийн өндөр үнэлгээ буюу бэнчмарк оноог авсан хиймэл оюуны (ХО) загварууд: [1]

Top 10 LLMs Ranking (June 2025)
Зэрэг ХО загвар Бүтээгч Хувилбар Үнэлгээ оноо (Toп 5)
1 Gemini Google Gemini 2.5 Pro (Preview) GPQA Diamond: 65.4% | AIME 25: 88.2% | SimpleBench: 62.4% | MMMU: 71.2%
2 GPT-4/5 OpenAI o3 (High Reasoning) GPQA Diamond: 80.5% | SWE-Bench: 71.7% | Humanity's Last Exam: 28.5% | MMLU: 90.1%
3 Claude Anthropic Claude 3.7 Sonnet [R] GPQA Diamond: 59.4% | LiveBench: 68.2% | HumanEval: 92.0% | MGSM: 91.5%
4 Llama Meta Llama 4 Maverick (400B) MMLU: 88.2% | GPQA: 54.1% | HumanEval: 88.2% | MATH 500: 82.5%
5 DeepSeek DeepSeek DeepSeek-R1 (0528) MATH 500: 90.2% | SWE-Bench Ver.: 42.0% | MMLU Pro: 75.9% | GPQA: 59.1%
6 Grok xAI Grok 3 (Beta) GPQA: 52.0% | HumanEval: 84.0% | MATH: 78.5% | RealWorldQA: 79.2%
7 Kimi Moonshot Kimi K2 Thinking Humanity's Last Exam: 44.9% | SWE-Bench: 71.3% | LiveCode: 83.1% | MMLU: 84.5%
8 Qwen Alibaba Qwen 3 Next (80B) MATH 500: 86.4% | HumanEval: 91.1% | GPQA: 48.2% | MMMU: 68.4%
9 Mistral Mistral AI Mistral Large 3 HumanEval: 82.5% | GPQA: 45.8% | MBPP: 80.1% | ARC-C: 91.5%
10 Nova Amazon Nova Pro (v2) GPQA: 42.0% | BFCL (Tool Use): 76.2% | HumanEval: 78.9% | ARC-C: 89.4%

2025 оны 12-р сарын байдлаар хамгийн өндөр үнэлгээ буюу бэнчмарк оноог авсан хиймэл оюуны (ХО) загварууд:

Top 10 LLMs & Benchmarks (December 2025)
Зэрэг ХО загвар Бүтээгч Үнэлгээ оноо (Toп 5) Юугаар илүү
1 Gemini 3 Pro Google GPQA: 91.9% | AIME 25: 100% | Humanity's Last Exam: 45.8% | MMMU: 78.4% Reasoning & Multimodality
2 GPT-5.2 OpenAI GPQA: 92.4% | AIME 25: 100% | SWE-Bench: 74.9% | SimpleQA: 89.2% General Purpose & Speed
3 Claude 4.5 Opus Anthropic MMLU Pro: 89.5% | GPQA: 87.3% | HumanEval: 93.7% | MGSM: 94.2% Coding & Complex Logic
4 Grok 4 xAI GPQA: 88.4% | MMLU: 90.5% | RealWorldQA: 85.1% | LiveCodeBench: 80.0% Real-time Info & Math
5 Kimi K2 Thinking Moonshot Humanity's Last Exam: 44.9% | MATH 500: 96.4% | GPQA: 85.0% | MMLU Pro: 84.6% STEM & Long-form Logic
6 DeepSeek V3.2 (Think) DeepSeek HumanEval: 91.5% | MMLU Pro: 85.0% | GPQA: 82.3% | MATH 500: 94.8% Performance-to-Cost ROI
7 Llama 4 Scout Meta MMLU: 88.6% | GPQA: 76.5% | HumanEval: 88.2% | MMMLU: 2600+ Massive Document Analysis
8 Qwen 3 Max Alibaba HumanEval: 92.1% | MATH 500: 93.2% | GPQA: 79.8% | MMMU: 72.1% Multilingual & Coding
9 Mistral Medium 3 Mistral AI GPQA: 74.2% | HumanEval: 86.5% | MBPP: 84.1% | ARC-C: 93.5% Efficiency & Privacy
10 Nova Premier Amazon GPQA: 71.9% | HumanEval: 83.4% | BFCL (Tool Use): 78.6% | ARC-C: 91.2% Enterprise Tool Integration

2026 оны 3-р сарын байдлаар хамгийн өндөр үнэлгээ буюу бэнчмарк оноог авсан хиймэл оюуны загварууд:


  1. velum.ai LLM-ийн зэрэглэл|https://www.vellum.ai/llm-leaderboard