Llama
Llama ("Large Language Model Meta AI" гэсэн утгын товчлол) нь Meta AI-ээс 2023 оны 2-р сараас эхлэн гаргасан бүлэг их хэлний загварууд (LLMs) юм.
Llama загварууд янз бүрийн хэмжээтэй байдаг бөгөөд 1 тэрбумаас 2 их наяд параметр хүртэл хэлбэлздэг. Анхандаа зөвхөн суурь загвар байсан бол Llama 2-оос эхлэн Meta AI нь суурь загваруудын хажуугаар зааварт тохируулсан (instruction fine-tuned) хувилбаруудыг гаргаж эхэлсэн.
Анхны хувилбарын загварын жинг зөвхөн судлаачдад хувь хүн тус бүрээр хянаж, арилжааны бус лицензээр олгодог байв. Анхны загварын зөвшөөрөлгүй хуулбарууд BitTorrent-ээр тархсан. Дараагийн хувилбаруудыг академийн гадна талд хүртээмжтэй болгож, зарим арилжааны хэрэглээг зөвшөөрдөг лицензээр гаргасан.
Llama 3-ийн гаргалт болон бие даасан вэбсайтын хамт Meta нь сонгогдсон бүс нутагт Facebook болон WhatsApp-д виртуал туслах шинж чанарууд нэмсэн; хоёр үйлчилгээ хоёулаа Llama 3 загварыг ашигладаг байв. Гэсэн хэдий ч хамгийн сүүлийн хувилбар нь 2025 оны 4-р сард гарсан Llama 4 юм.
Үүсэл
[засварлах | кодоор засварлах]GPT-3 зэрэг том хэлний загварууд гарсны дараа судалгааны гол анхаарал загварыг томруулахад чиглэсэн бөгөөд зарим тохиолдолд энэ нь гарч ирэх чадавхиудыг (emergent capabilities) мэдэгдэхүйц нэмэгдүүлсэн. ChatGPT-ийн гаргалт болон гэнэтийн амжилт нь том хэлний загваруудад анхаарал хандуулахыг ихэсгэсэн.
ChatGPT-д өгсөн бусад хариултуудтай харьцуулахад Meta-гийн Гол AI шинжээч Yann LeCun нь том хэлний загварууд бичихэд туслахад хамгийн тохиромжтой гэж мэдэгдсэн.
Хувилбарууд
[засварлах | кодоор засварлах]Анхны гаргалт
[засварлах | кодоор засварлах]Llama-гийн анхны хувилбарыг (LLaMA гэж тэмдэглэдэг бөгөөд заримдаа Llama 1 гэж нэрлэдэг) 2023 оны 2-р сарын 24-нд блог нийтлэл болон загварын сургалт, архитектур, гүйцэтгэлийг тодорхойлсон өгүүллээр зарласан. Загварыг ажиллуулах inference кодыг нээлттэй эхийн GPLv3 лицензээр нийтэлсэн. Загварын жинд хандахыг өргөдлийн процессоор зохицуулдаг байсан бөгөөд “академийн судлаачдад; засгийн газар, иргэний нийгэм, академитай холбоотой байгууллагуудын хүмүүст; дэлхийн үйлдвэрлэлийн судалгааны лабораториудын хүмүүст хувь хүн тус бүрээр олгоно” гэж байв.
Llama-г зөвхөн олон нийтэд нээлттэй мэдээлэл дээр сургаж, янз бүрийн загварын хэмжээтэй болгосон бөгөөд ингэснээр өөр өөр тоног төхөөрөмжид хүртээмжтэй болгох зорилготой байв. Загвар нь зөвхөн суурь загвар байсан хэдий ч өгүүлэлд зааварт тохируулсан хувилбаруудын жишээнүүдийг оруулсан.
Meta AI нь 13 тэрбум параметртай загвар ихэнх NLP бэнчмаркуудад илүү том GPT-3 (175 тэрбум параметртай)-аас илүү гүйцэтгэлтэй байсныг мэдээлсэн бөгөөд хамгийн том 65 тэрбум параметртай загвар нь PaLM, Chinchilla зэрэг хамгийн сүүлийн үеийн загваруудтай өрсөлдөхүйц байв.
Мэдээллийн Алдагдал
[засварлах | кодоор засварлах]2023 оны 3-р сарын 3-нд Llama-гийн файлууд torrent-оор тарсан бөгөөд уг torrent-ийн холбоосыг 4chan самбар дээр хуваалцаж, улмаар онлайн AI нийгэмлэгүүдэд тархсан. Тэр өдөрөө Llama-гийн гол репозиторид magnet холбоосыг албан ёсны баримт бичигт нэмэх хүсэлт гаргасан. 3-р сарын 4-нд HuggingFace репозиториудын холбоосыг нэмэх хүсэлт гарсан. 3-р сарын 6-нд Meta нь уг хүсэлтэд холбогдсон HuggingFace репозиториудыг “зөвшөөрөлгүй тархалт” гэж үзэн устгах хүсэлт гаргасан бөгөөд HuggingFace хүсэлтийг биелүүлсэн. 3-р сарын 20-нд Meta нь толь руу Llama татах скрипт агуулсан репозиторийг зөрчил гэж үзэн DMCA устгах хүсэлт гаргасан бөгөөд GitHub маргааш нь биелүүлсэн.
Энэ мэдээллийн алдагдалд өгсөн олон нийтийн хариу нь янз бүр байв. Зарим нь загварыг муу зорилгоор, жишээлбэл илүү нарийн спамд ашиглаж болзошгүй гэж таамагласан. Зарим нь загварын хүртээмжтэй байдлыг тэмдэглэж, жижиг хувилбаруудыг харьцангуй хямдаар ажиллуулж болохыг магтаж, энэ нь нэмэлт судалгааны хөгжлийг дэмжинэ гэж үзсэн. Олон тайлбарлагчид, тухайлбал Simon Willison, Llama-г Stable Diffusion-тэй харьцуулсан бөгөөд уг текстээс зураг үүсгэгч загвар өмнөх төстэй загваруудаас ялгаатай нь нээлттэй тархсан тул холбогдох хэрэгсэл, арга техник, программ хангамжууд хурдан олширсон.
Llama 2
[засварлах | кодоор засварлах]2023 оны 7-р сарын 18-нд Microsoft-той хамтран Meta нь Llama 2 (LLaMA 2 гэж тэмдэглэдэг)-ийг зарласан бөгөөд энэ нь Llama-гийн дараагийн үе юм. Meta нь Llama 2-г 7, 13, 70 тэрбум параметртай гурван хэмжээтэй сургаж гаргасан. Загварын архитектур нь Llama 1-ээс бараг өөрчлөгдөөгүй хэвээр байсан ч суурь загварыг сургахад 40% илүү өгөгдөл ашигласан.
Llama 2 нь суурь загварууд болон чатад тохируулсан загваруудыг багтаасан. Анхны Llama-ээс ялгаатай нь бүх загварыг жинтэй нь гаргаж, олон арилжааны хэрэглээнд ашиглах боломжтой болгосон. Гэсэн хэдий ч Llama-гийн лиценз нь зарим зорилгоор ашиглахыг хориглодог зөвшөөрөгдөх хэрэглээний бодлого (acceptable use policy)-той тул нээлттэй эх биш юм. Meta-гийн Llama-г нээлттэй эх гэж нэрлэсэн нь Open Source Initiative (Нээлттэй Эхийн Тодорхойлолтыг хадгалдаг) болон бусад байгууллагуудаас маргаан дагуулсан.
Code Llama нь Llama 2-ийн кодод зориулсан тохируулга юм. 7 тэрбум, 13 тэрбум, 34 тэрбум параметртай хувилбаруудыг 2023 оны 8-р сарын 24-нд, 70 тэрбум параметртай хувилбарыг 2024 оны 1-р сарын 29-нд гаргасан. Llama 2-ийн суурь загвараас эхлэн Meta AI нь нэмэлт 500 тэрбум токены кодын өгөгдлийн сан дээр сургаж, дараа нь 20 тэрбум токены урт контекстын өгөгдөл нэмж Code Llama суурь загварыг үүсгэсэн. Энэ суурь загварыг 5 тэрбум токены заавар дагах өгөгдөл дээр нэмэлт сургаж instruct тохируулгыг үүсгэсэн. Өөр нэг суурь загвар нь Python кодод зориулагдсан бөгөөд 100 тэрбум токены зөвхөн Python код дээр сургаж, дараа нь урт контекстын өгөгдөл нэмсэн.
Llama 3
[засварлах | кодоор засварлах]2024 оны 4-р сарын 18-нд Meta нь 8 тэрбум болон 70 тэрбум параметртай хоёр хэмжээтэй Llama 3-ийг гаргасан. Загваруудыг “олон нийтэд нээлттэй эх сурвалжаас” цуглуулсан ойролцоогоор 15 их наяд токены текст дээр урьдчилан сургаж, зааварт загваруудыг “олон нийтэд нээлттэй заавартын өгөгдлийн сангууд болон 10 саяас илүү хүний тэмдэглэгээтэй жишээнүүд” дээр тохируулсан. Meta AI-гийн 2024 оны 4-р сарын туршилтаар Llama 3 70B нь ихэнх бэнчмаркуудад Gemini Pro 1.5 болон Claude 3 Sonnet-ийг гүйцсэн байна. Meta мөн Llama 3-ийг олон хэлтэй, олон хэлбэрт (multimodal) болгох, код бичих болон сэтгэн бодох чадварыг сайжруулах, контекст цонхийг нэмэгдүүлэх төлөвлөгөө зарласан.
Хэмжээсийн хуулиудын хувьд Llama 3 загварууд нь "Chinchilla-optimal"-оос илүү өгөгдөл дээр сургахад гүйцэтгэл лог-шугаман байдлаар үргэлжлэн өсдөгийг туршилтаар харуулсан. Жишээлбэл, Llama 3 8B-ийн Chinchilla-optimal өгөгдлийн сан нь 200 тэрбум токен боловч гүйцэтгэл 75 дахин том буюу 15 их наяд токен хүртэл лог-шугаман өссөн.
Dwarkesh Patel-тай ярилцлага хийх үед Mark Zuckerberg нь Llama 3-ийн 8 тэрбум параметртай хувилбар нь хамгийн том Llama 2-той бараг ижил хүчин чадалтай гэж хэлсэн. Өмнөх загваруудтай харьцуулахад Zuckerberg-ийн баг 70 тэрбум параметртай загвар 15 их наяд токены сургалтын төгсгөлд ч гэсэн суралцаж байгаад гайхсан гэжээ. GPU хүчийг өөр газар төвлөрүүлэхээр сургалтыг зогсоох шийдвэр гаргасан.
Llama 3.1-ийг 2024 оны 7-р сарын 23-нд 8 тэрбум, 70 тэрбум, 405 тэрбум параметртай гурван хэмжээтэй гаргасан.
Llama 4
[засварлах | кодоор засварлах]Meta AI Imagine-ээр үүсгэсэн зургийн жишээ, Llama 4-д тулгуурласан. Prompt: Meta AI болон Llama-гийн төлөөлөл
Llama 4 цувралыг 2025 онд гаргасан. Архитектурыг experts-ийн холимог (mixture of experts) болгон өөрчилсөн. Тэд олон хэлбэрт (текст болон зураг оруулах, текст гаргах) ба олон хэлтэй (12 хэл) юм. Тодруулбал, 2025 оны 4-р сарын 5-нд суурь болон зааварт тохируулсан хувилбаруудын аль алиныг нь дараах байдлаар гаргасан:
- Scout: 17 тэрбум идэвхтэй параметртай загвар, 16 эксперттэй, 10 сая токены контекст цонхтой, нийт 109 тэрбум параметртай.
- Maverick: 17 тэрбум идэвхтэй параметртай загвар, 128 эксперттэй, 1 сая токены контекст цонхтой, нийт 400 тэрбум параметртай.
Behemoth загварыг зарласан боловч гаргаагүй. Meta нь энэ нь 288 тэрбум идэвхтэй параметртай, 16 эксперттэй, нийт ойролцоогоор 2 их наяд параметртай гэж мэдэгдсэн; Scout болон Maverick гаргах үед сургалт хэвээр байсан. Maverick нь Behemoth-оос codistilled байсан бол Scout нь эхнээсээ сургагдсан.
Сургалтын өгөгдөлд олон нийтэд нээлттэй өгөгдөл, лицензтэй өгөгдөл, Meta-гийн өмчлөлийн өгөгдөл багтсан бөгөөд тухайлбал Instagram болон Facebook дээр олон нийтэд хуваалцсан нийтлэлүүд болон хүмүүсийн Meta AI-тай харилцсан үйлдлүүд орсон. Мэдлэгийн хязгаар нь 2024 оны 8-р сар байв.
Meta гаргалтын зарлалдаа Llama 4 нь LMArena AI бэнчмарк дээр GPT-4o-ийн оноог гүйцсэн гэж мэдэгдсэн. Компани мөн Llama 4-ийн бэнчмарк оноог олон нийтэд гаргасан хувилбараас өөр, “ялдам хувилбарын чат хувилбар” ашиглан олсон гэж мэдэгдсэн бөгөөд уг хувилбарыг “харилцан ярианд тохируулсан” гэжээ. LMArena нь ийм явдал дахин давтагдахаас сэргийлэх бодлогоо өөрчилнө гэж мэдэгдэж, “Meta-гийн бидний бодлогын тайлбар нь загвар нийлүүлэгчдээс хүлээж буйтай таарахгүй байсан. Meta нь 'Llama-4-Maverick-03-26-Experimental' нь хүний сонголтод тохируулсан өөрчлөгдсөн загвар байсныг илүү тодорхой хэлэх ёстой байсан” гэж хариулсан. Зарим хэрэглэгчид Meta-г бэнчмаркад зориулж тусгайлан тохируулсан өөр хувилбар ашигласанд нийгмийн сүлжээнд шүүмжилсэн бөгөөд зарим нь Llama 4-ийг туршилтын багц дээр сургаж бэнчмарк оноог нэмэгдүүлсэн гэж буруутгасан бол Meta үүнийг үгүйсгэсэн.