DeepSeek
DeepSeek хиймэл оюуны загвар нь БНХАУ-ын Ханжоу DeepSeek Хиймэл Оюуны Үндсэн Технологийн Судалгаа компаний (Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd) бүтээсэн их хэлний загвар (LLMs) юм. БНХАУ-ын Жөжян мужийн Ханжоу хотод байрладаг DeepSeek нь Хятадын хедж сан болох High-Flyer-ийн өмчлөлд байдаг бөгөөд түүгээр санхүүждэг. DeepSeek компанийг 2023 оны 7-р сард High-Flyer-ийн хамтран үүсгэн байгуулагч Лян Вэнфэн үүсгэн байгуулсан бөгөөд тэрээр хоёр компанийн гүйцэтгэх захиралаар ажилладаг. Компани нь 2025 оны 1-р сард DeepSeek-R1 загварынхаа хажуугаар нэрээрээ чатбот гаргасан.
MIT лицензийн дор гаргасан DeepSeek-R1 нь OpenAI-ийн GPT-4 болон o1 зэрэг бусад орчин үеийн том хэлний загваруудтай өрсөлдөхүйц хариу үйлдэл үзүүлдэг. Түүний сургалтын зардал бусад LLMs-ээс мэдэгдэхүйц бага байсан гэж мэдээлж байна. Компани нь V3 загвараа 6 сая ам.доллараар сургасан гэж мэдэгдэж байгаа бөгөөд энэ нь 2023 онд OpenAI-ийн GPT-4-ийн 100 сая ам.долларын зардлаас хамаагүй бага бөгөөд Meta-ийн ижил төстэй загвар болох Llama 3.1-ийн хэрэглэсэн тооцоолох хүчин чадлын ойролцоогоор аравны нэгтэй тэнцэнэ. DeepSeek-ийн илүү том, илүү тогтсон өрсөлдөгчдийн эсрэг амжилтыг "AI-г эргүүлэх" гэж тодорхойлсон байна.
DeepSeek-ийн загваруудыг "нээлттэй жинтэй" гэж тодорхойлдог бөгөөд энэ нь яг параметрүүдийг нээлттэй хуваалцдаг гэсэн үг боловч ашиглалтын зарим нөхцөл нь ердийн нээлттэй эхийн программ хангамжаас өөр байдаг. Компани Хятадын шилдэг их сургуулиудаас AI судлаачдыг элсүүлдэг гэж мэдээлж байгаа бөгөөд мөн уламжлалт компьютерийн шинжлэх ухааны салбараас гадуурх мэргэжилтнүүдийг ажилд авч загваруудын мэдлэг, чадавхийг өргөжүүлдэг.
DeepSeek нь mixture of experts (MoE) давхаргууд зэрэг техникүүдийг нэвтрүүлснээр R1 загварынхаа сургалтын зардлыг мэдэгдэхүйц бууруулсан. Компани мөн Хятад руу AI чип экспортлох худалдааны хязгаарлалт хэвээр байх үед загваруудаа сургасан бөгөөд экспортлох зориулалттай сул дорой AI чипүүдийг ашиглаж, нийтдээ цөөн тооны нэгж хэрэглэсэн. Ажиглагчдын үзэснээр энэ нээлт нь салбарт "цочролын долгион" илгээсэн бөгөөд АНУ-ын хиймэл оюун ухааны салбарт "Спутникийн мөч" гэж тодорхойлсон бөгөөд ялангуяа нээлттэй эх, хямд өртөгтэй, өндөр гүйцэтгэлтэй AI загваруудын улмаас. Энэ нь Nvidia зэрэг тогтсон AI тоног төхөөрөмжийн удирдагчдыг заналхийлсэн; Nvidia-ийн хувьцааны үнэ огцом унаж, 600 тэрбум ам.долларын зах зээлийн үнэ цэнээ алдаж, АНУ-ын хөрөнгийн зах зээлийн түүхэнд нэг компанийн хамгийн том алдагдал болсон.
Түүх
[засварлах | кодоор засварлах]Үүсгэн байгуулалт ба эхний жилүүд (2016–2023)
[засварлах | кодоор засварлах]2016 оны 2-р сард High-Flyer компанийг Жөжян их сургуульд сурч байхдаа 2008 оны санхүүгийн хямралаас хойш арилжаа хийж байсан AI сонирхогч Лян Вэнфэн хамтран үүсгэн байгуулсан. Компани нь 2016 оны 10-р сарын 21-нд GPU-д тулгуурласан гүн сургалтын загварыг ашиглан хувьцааны арилжаа эхэлсэн; түүнээс өмнө CPU-д суурилсан шугаман загваруудыг ашиглаж байсан. 2017 оны эцэс гэхэд түүний арилжааны ихэнх нь AI-д тулгуурласан байв.
Лян нь AI арилжааны алгоритмуудыг боловсруулах, ашиглахад чиглэсэн хедж сан болгон High-Flyer-ийг байгуулсан бөгөөд 2021 он гэхэд компани зөвхөн AI ашигладаг болсон, ихэвчлэн Nvidia чипүүдийг ашигладаг байв.
2019 онд компани анхны тооцоолох кластераа namely Fire-Flyer-ийг 200 сая юаны өртөгтэй барьж эхэлсэн; энэ нь 200 Гбит/с хурдтай холбогдсон 1,100 GPU-аас бүрдэж, 1.5 жилийн үйл ажиллагааны дараа татан буугдсан.
2021 он гэхэд Лян AI төсөлдөө их хэмжээний Nvidia GPU худалдан авч эхэлсэн, АНУ ын Хятад руу чип борлуулалтыг хязгаарлахаас өмнө 10,000 Nvidia A100 GPU олж авсан гэсэн мэдээ байна. Тооцоолох кластер Fire-Flyer 2-ийг 2021 онд 1 тэрбум юаны төсөвтэй барьж эхэлсэн.
2022 онд Fire-Flyer 2-ийн хүчин чадал 96%-иас дээш ашиглагдсан гэж мэдээлж байгаа бөгөөд нийт 56.74 сая GPU цаг болсон. 27% нь компанийн гадна шинжлэх ухааны тооцоололд зориулагдсан.
2022 онд Fire-Flyer 2 нь 625 серверт байрлах 5,000 PCIe A100 GPU-тай байсан бөгөөд сервер бүрт 8 GPU байв. Тухайн үед загварууд нэг 40 ГБ GPU VRAM-д багтах тул DGX хувилбараас өндөр өгөгдлийн өргөн шаардлагагүй байсан тул зөвхөн PCIe ашигладаг байсан (өөрөөр хэлбэл зөвхөн өгөгдлийн параллелизм шаардлагатай байсан, загварын параллелизм биш). Дараа нь илүү том загваруудыг сургахад загварын параллелизм шаардлагатай болсон тул NVLinks болон NCCL (Nvidia Collective Communications Library)-ийг нэвтрүүлсэн.
2023 оны 4-р сарын 14-нд, High-Flyer нь Хиймэл Ерөнхий Ухааны (AGI) судалгааны лаборатори байгуулахаа зарласан бөгөөд шинэ лаборатори нь компанийн санхүүгийн бизнесээс хамааралгүй AI хэрэгслүүдийг боловсруулахад чиглэнэ гэж мэдэгдсэн. Хоёр сарын дараа буюу 2023 оны 7-р сарын 17-нд, уг лабораторийг бие даасан компани болгон салгасан бөгөөд DeepSeek нэртэй болж, High-Flyer нь гол хөрөнгө оруулагч, дэмжигч болсон. Венчур капиталын хөрөнгө оруулагчид санхүүжилт өгөхөөс татгалзсан, учир нь энэ төсөл богино хугацаанд "гарц" гаргах магадлал багатай гэж үзсэн.
Загваруудын гаргалт (2023–одоог хүртэл)
[засварлах | кодоор засварлах]DeepSeek анхны загвараа DeepSeek Coder-ийг 2023 оны 11-р сарын 2-нд гаргасан бөгөөд дараа нь DeepSeek-LLM цувралыг 11-р сарын 29-нд гаргасан. 2024 оны 1-р сард хоёр DeepSeek-MoE загвар (Base ба Chat), 4-р сарын 3-нд DeepSeek-Math загварууд (Base, Instruct, ба RL)-ийг гаргасан.
DeepSeek-V2-г 2024 оны 5-р сард гаргасан бөгөөд сарын дараа DeepSeek-Coder V2 цувралыг гаргасан.[39] 2024 оны 9-р сард DeepSeek V2.5-ийг танилцуулж, 12-р сард шинэчилсэн.[40] 2024 оны 11-р сарын 20-нд DeepSeek-R1-Lite-ийн урьдчилсан хувилбарыг чатаар ашиглах боломжтой болсон. 12-р сард DeepSeek-V3-Base ба DeepSeek-V3 (чат) загваруудыг гаргасан.
DeepSeek-ийн нэвтрэх хуудас 2025 оны 1-р сарын 21-ний орчим кибер халдлагын дараа
2025 оны 1-р сарын 20-нд DeepSeek нь DeepSeek-R1 загварт суурилсан DeepSeek чатботыг iOS болон Android-д үнэгүй гаргасан. 1-р сарын 27 гэхэд DeepSeek нь АНУ-ын iOS App Store-д хамгийн их татагдсан үнэгүй апп болж ChatGPT-ийг гүйцэж, Nvidia-ийн хувьцааны үнийг 18% бууруулсан.
2025 оны 3-р сарын 24-нд DeepSeek нь DeepSeek-V3-0324-ийг MIT лицензийн дор гаргасан.
2025 оны 5-р сарын 28-нд DeepSeek нь DeepSeek-R1-0528-ийг MIT лицензийн дор гаргасан. Энэ загвар нь өмнөх загваруудаас илүү Хятадын Коммунист Намын албан ёсны идеологи болон цензурыг асуултуудад хариулахдаа илүү чанд дагаж мөрддөг гэж тэмдэглэгдсэн.
2025 оны 8-р сарын 21-нд DeepSeek нь DeepSeek V3.1-ийг MIT лицензийн дор гаргасан. Энэ загвар нь бодох болон бодохгүй горимуудтай холимог архитектуртай. Мөн V3 болон R1 зэрэг өмнөх загваруудаас SWE-bench болон Terminal-bench зэрэг зарим бэнчмаркуудад 40%-иас илүү гүйцэтгэлтэй. Энэ нь 2025 оны 9-р сарын 22-нд V3.1-Terminus болж шинэчлэгдсэн. V3.2-Exp нь 2025 оны 9-р сарын 29-нд гарсан. Энэ нь 2-р сард нийтлэгдсэн өмнөх судалгаанд суурилсан илүү үр ашигтай анхаарлын механизм болох DeepSeek Sparse Attention-ийг ашигладаг.
Компанийн үйл ажиллагаа
[засварлах | кодоор засварлах]DeepSeek нь Жөжян мужийн Ханжоу хотод төвтэй бөгөөд High-Flyer-ийн өмчлөлд байдаг, түүгээр санхүүждэг. Хамтран үүсгэн байгуулагч Лян Вэнфэн нь гүйцэтгэх захирал юм. 2024 оны 5-р сарын байдлаар Лян хоёр хуурамч корпорациар дамжуулан DeepSeek-д 84%-ийн хувь эзэмшдэг байсан.
Стратеги
[засварлах | кодоор засварлах]DeepSeek нь судалгаанд төвлөрдөг бөгөөд ойрын хугацаанд арилжааны төлөвлөгөөгүй гэж мэдэгдсэн. Энэ байр суурь нь Хятадын AI зохицуулалтын хэрэглэгчдэд чиглэсэн технологийн зарим заалтуудаас зайлсхийх боломж олгодог.
DeepSeek-ийн ажилд авах арга нь ур чадварыг удаан хугацааны туршлагаас илүүд үздэг тул их сургуулиа төгссөн шинэ мэргэжилтнүүдийг ихээр ажилд авдаг. Компани мөн компьютерийн шинжлэх ухааны бус мэргэжилтнүүдийг ажилд авч загваруудад шүлэг эсвэл өндөр түвшний математик зэрэг өргөн мэргэжлийн мэдлэгийг нэмдэг. The New York Times-ийн мэдээлснээр DeepSeek-ийн олон судлаач Ардын Чөлөөлөх Армийн лабораториуд болон Үндэсний Батлан Хамгаалахын Долоон Хөвгүүдтэй холбоотой эсвэл өмнө нь холбоотой байсан.
Америкийн Нэгдсэн Улсын чипүүдийн хязгаарлалтын нөлөөгөөр DeepSeek алгоритмуудаа тооцоолох үр ашгийг дээд зэргээр нэмэгдүүлэхээр боловсронгуй болгож, хуучин тоног төхөөрөмж ашиглаж, эрчим хүчний хэрэглээг бууруулсан.
DeepSeek нь Африкийн тивд илүү хямд, цахилгаан эрчим хүч бага шаарддаг AI шийдлүүдийг санал болгосноор өргөжсөн. Компани Африкийн хэлний загваруудыг дэмжиж, Найроби зэрэг газруудад олон стартапуудыг бий болгосон. Huawei-ийн хадгалалт болон үүл тооцоолох үйлчилгээтэй хамт Сахарын цөлөөс өмнөх Африкийн технологийн орчинд нөлөө ихтэй. DeepSeek нь Барууны AI платформуудтай харьцуулахад орон нутгийн өгөгдлийн бие даасан байдал болон илүү уян хатан байдлыг санал болгодог.
Сургалтын хүрээ
[засварлах | кодоор засварлах]High-Flyer/DeepSeek нь дор хаяж хоёр гол тооцоолох кластерийг ажиллуулдаг: Fire-Flyer болон Fire-Flyer 2. Fire-Flyer 1-ийг 2019 онд барьсан бөгөөд 1.5 жилийн үйл ажиллагааны дараа татан буугдсан. Fire-Flyer 2 нь 2025 оны байдлаар үйл ажиллагаанд байна. Fire-Flyer 2 нь хамтран зохион бүтээсэн программ хангамж болон тоног төхөөрөмжийн архитектуртай. Тоног төхөөрөмжийн талдаа Nvidia GPU-ууд 200 Gbps холболттой. Кластерыг хоёр "бүс"-т хуваасан бөгөөд платформ нь бүс хоорондын даалгаврыг дэмждэг. Сүлжээний топологи нь өндөр хуваалтын өргөнтэй байх үүднээс хоёр өөх мод байв. Программ хангамжийн талдаа:
- 3FS (Fire-Flyer File System): Санамсаргүй уншилтад зориулсан тархсан параллель файлын систем. Direct I/O болон RDMA Read ашигладаг. Стандарт Buffered I/O-оос ялгаатай нь Direct I/O нь өгөгдлийг кэшлэдэггүй. Энэ тохиолдолд кэшлэх нь ашиггүй, учир нь өгөгдөл бүрийг санамсаргүй уншдаг бөгөөд дахин ашиглагддаггүй.
- hfreduce: Nvidia Collective Communication Library (NCCL)-ийг солих зорилготой асинхрон харилцааны номын сан. Үндсэндээ allreduce-д ашиглагддаг, ялангуяа буцаж тархалтын үед градиентуудад. GPU дээрх керналуудыг хаахгүйн тулд CPU дээр асинхроноор ажилладаг. NCCL шиг хоёр модын дамжуулалтыг ашигладаг.
- hfai.nn: Нейрон сүлжээний сургалтад түгээмэл хэрэглэгддэг операторуудын программ хангамжийн номын сан, PyTorch дахь torch.nn-тэй төстэй.
- HaiScale Distributed Data Parallel (DDP): Data Parallelism (DP), Pipeline Parallelism (PP), Tensor Parallelism (TP), Experts Parallelism (EP), Fully Sharded Data Parallel (FSDP) болон Zero Redundancy Optimizer (ZeRO) зэрэг параллелизмын янз бүрийн хэлбэрүүдийг хэрэгжүүлдэг параллель сургалтын номын сан. PyTorch DDP-тэй төстэй бөгөөд backend-д NCCL ашигладаг.
- HAI Platform: Даалгаврын хуваарилалт, алдаа зохицуулалт, гамшгийн сэргэлт зэрэг янз бүрийн хэрэглээ.
2022 оны байдлаар Fire-Flyer 2 нь сервер бүрт 8 GPU-тай 625 серверт байрлах 5,000 PCIe A100 GPU-тай байсан. Дараа нь загварын параллелизм шаардлагатай илүү том загваруудыг сургахад NVLinks болон NCCL-ийг нэвтрүүлсэн.