Qwen
Qwen нь Алибаба компаний Alibaba Cloud-аас бүтээсэн их хэлний загвар (LLM) юм. Qwen-ийн олон хувилбарууд Apache-2.0 лицензтэй нээлттэй эх үүсвэр хэлбрээр тархсан бол зарим нь Alibaba Cloud-ээр дамжуулан үйлчилгээ үзүүлдэг.
2024 оны 7-р сард South China Morning Post сонинд мэдээлснээр SuperCLUE бэнчмарк платформ Qwen2-72B-Instruct-г OpenAI-ийн GPT-4o болон Anthropic-ийн Claude 3.5 Sonnet-ийн ард, бусад Хятадын загваруудын өмнө эрэмбэлжээ.
Загварууд
[засварлах | кодоор засварлах]Qwen3-Max (Qwen-Image ашигласан) бүтээсэн AI-зургийн жишээ, Wikipe-tan дээр тулгуурласан. Prompt: Энэ зургийг Пикассо болон Хуан Грисийн хэв маягаар зурсан зураг болгон хувирга
Alibaba нь 2023 оны 4-р сард Tongyi Qianwen нэртэйгээр Qwen-ийн бета хувилбарыг гаргасан бөгөөд зохицуулалтын зөвшөөрөл авсны дараа 2023 оны 9-р сард олон нийтэд нээсэн.
Загварын архитектур нь Meta AI-ээс боловсруулсан Llama архитектурт суурилсан байв. 2023 оны 12-р сард 72 тэрбум болон 1.8 тэрбум параметртай загваруудыг татаж авах боломжтой болгосон бол Qwen 7 тэрбум параметртай загварын жинг 8-р сард гаргасан. Тэдний загваруудыг заримдаа нээлттэй эх гэж тодорхойлдог боловч сургалтын кодыг гаргаагүй, сургалтын өгөгдлийг баримтжуулаагүй тул Open Source AI Definition болон Linux Foundation-ийн Model Openness Framework-ийн шаардлагыг хангадаггүй.
2024 оны 6-р сард Alibaba нь Qwen2-г гаргасан бөгөөд 9-р сард зарим загвараа нээлттэй жинтэй болгосон бол хамгийн дэвшилтэт загваруудаа өмчлөлийнх хэвээр үлдээсэн. Qwen2 нь нягт болон сийрэг загваруудыг агуулдаг.
2024 оны 11-р сард OpenAI-ийн o1-тэй төстэй сэтгэн бодох чадварт чиглэсэн QwQ-32B-Preview загварыг Apache 2.0 лицензээр гаргасан боловч зөвхөн жинг л гаргасан, өгөгдлийн сан болон сургалтын аргыг гаргаагүй. QwQ нь 32 мянган токены контекст урттай бөгөөд зарим бэнчмаркуудад o1-ээс илүү гүйцэтгэлтэй.
Qwen-VL цуврал нь харааны трансформаторыг том хэлний загвартай нэгтгэсэн харааны хэлний загваруудын цуврал юм. Alibaba нь 2 тэрбум болон 7 тэрбум параметртай Qwen2-VL хувилбаруудыг гаргасан.
2025 оны 1-р сард 3, 7, 32, 72 тэрбум параметртай хувилбаруудтай Qwen2.5-VL гарсан. 72 тэрбум параметртай хувилбараас бусад бүх загварууд Apache 2.0 лицензтэй. Qwen-VL-Max нь 2024 оны байдлаар Alibaba-гийн гол харааны загвар бөгөөд Alibaba Cloud-ээр сая оруулах токен тутамд 0.41 ам.долларын үнэтэй зарагддаг.
Alibaba нь Qwen-Audio болон Qwen2-Math зэрэг бусад хэд хэдэн загварын төрлүүдийг гаргасан. Нийтдээ 100 гаруй нээлттэй жинтэй загвар гаргасан бөгөөд тэдний загваруудыг 40 сая гаруй удаа татан авсан байна. Qwen-ийн тохируулсан хувилбаруудыг сонирхогчдоос боловсруулсан бөгөөд жишээлбэл Сан Франциско-д төвтэй Abacus AI-ээс бүтээсэн "Liberated Qwen" нь агуулгын хязгаарлалтгүйгээр ямар ч хэрэглэгчийн хүсэлтэд хариулах хувилбар юм.
2025 оны 1-р сарын 29-нд Alibaba нь Qwen2.5-Max-г гаргасан. Alibaba-гийн блог нийтлэлд дурдсанаар Qwen2.5-Max нь GPT-4o, DeepSeek-V3, Llama-3.1-405B зэрэг бусад суурь загваруудаас гол бэнчмаркуудад илүү гүйцэтгэлтэй байна. 2025 оны 2-р сард Alibaba өөрийн албан ёсны X хаягаараа 2.5-Max загварыг нээлттэй болгоно гэж зарласан боловч одоог хүртэл гаргаагүй байна.
2025 оны 3-р сарын 24-нд Alibaba нь Qwen2.5-VL загварын залгамжлагч болох Qwen2.5-VL-32B-Instruct-г гаргасан. Энэ нь Apache 2.0 лицензээр гарсан.
2025 оны 3-р сарын 26-нд Qwen2.5-Omni-7B-г Apache 2.0 лицензээр гаргаж, chat.qwen.ai болон Hugging Face, GitHub, ModelScope зэрэг платформуудаар хүртээмжтэй болгосон. Qwen2.5-Omni загвар нь текст, зураг, видео, аудиог оруулга болгон хүлээж авч, текст болон аудио гаргалт үүсгэх чадвартай бөгөөд ингэснээр OpenAI-гийн GPT-4o-тэй төстэй бодит цагийн дуут чатлахад ашиглаж болно.
2025 оны 4-р сарын 28-нд Qwen3 загварын гэр бүлийг гаргасан бөгөөд бүх загварууд Apache 2.0 лицензтэй. Qwen3 загварын гэр бүл нь нягт загварууд (0.6 тэрбум, 1.7 тэрбум, 4 тэрбум, 8 тэрбум, 14 тэрбум, 32 тэрбум параметртай) болон сийрэг загварууд (идэвхжүүлсэн 3 тэрбум параметртай 30 тэрбум, идэвхжүүлсэн 22 тэрбум параметртай 235 тэрбум)-ыг багтаадаг. Тэдгээрийг 119 хэл болон аялгуунд 36 их наяд токен дээр сургажээ. 0.6 тэрбум, 1.7 тэрбум, 4 тэрбум параметртай хувилбаруудаас бусад бүх загварууд 128 мянган токены контекст цонхтой. OpenAI-гийн o1 болон QwQ 32B-тэй адил Qwen3 загварууд сэтгэн бодох чадварыг дэмждэг бөгөөд үүнийг tokenizer-ээр идэвхжүүлэх эсвэл идэвхгүй болгох боломжтой. Qwen3 загваруудыг chat.qwen.ai-ээр ашиглах боломжтой бөгөөд Hugging Face болон ModelScope-ээр татаж авах боломжтой.
2025 оны 9-р сарын 5-нд Alibaba нь Qwen3-Max-г гаргасан. Alibaba-гийн албан ёсны X хаягийн мэдээллээр энэ нь Qwen3-235B-A22B-Instruct-2507, Kimi K2, Claude 4 Opus Non-thinking, DeepSeek V3.1 зэрэг бусад суурь сэтгэн бодохгүй загваруудаас илүү гүйцэтгэлтэй байна. Анхандаа байгаагүй ч сэтгэн бодох горимыг 2025 оны 11-р сарын эхээр олон нийтэд нээсэн.
2025 оны 9-р сарын 10-нд Qwen3-Next-г Apache 2.0 лицензээр гаргаж, chat.qwen.ai болон Hugging Face, ModelScope зэрэг платформуудаар хүртээмжтэй болгосон. Qwen3-Next нь хоёр сургалтын дараах Instruct болон Thinking загваруудыг багтаадаг. Qwen3-Next нь Контекст Уртын Өсөлт болон Нийт Параметрын Өсөлт нь том загваруудын ирээдүйн гол чиг хандлага гэсэн итгэл үнэмшлээр шинэ Qwen3-Next архитектуртай бүтээгдсэн. Qwen3-Next нь Qwen3 архитектураас хэд хэдэн гол сайжруулалтыг нэвтрүүлсэн: холимог анхаарлын механизм, өндөр сийрэг mixture-of-experts (MoE) бүтэц, сургалтын тогтвортой байдлыг дэмжих оновчлолууд, хурдан inference-д зориулсан олон токен таамаглах механизм. Qwen3-Next архитектурт суурилсан нийт 80 тэрбум параметртай, идэвхтэй 3 тэрбум параметртай загвар бүтээгдсэн. Qwen3-Next загвар нь Qwen3-32B-тэй өрсөлдөхүйц эсвэл зарим тохиолдолд илүү гүйцэтгэлтэй боловч сургалтын зардал (GPU цаг)-ыг 10%-иас бага ашигласан. Inference-д, ялангуяа 32 мянган токеноос илүү контексттэй үед 10 дахин өндөр throughput-д хүрдэг. Qwen3.5 нь Qwen3-Next архитектурын боловсронгуй хувилбарыг ашиглана.
2025 оны 9-р сарын 22-нд Qwen3-Omni-г Apache 2.0 лицензээр гаргаж, chat.qwen.ai болон Hugging Face, ModelScope зэрэг платформуудаар хүртээмжтэй болгосон. Qwen3-Omni нь текст, зураг, аудио, видеог боловсруулж, текст болон байгалийн ярианы бодит цагийн урсгал хариултуудыг өгөх чадвартай холимог/олон хэлбэрт загвар юм.