Их Хэлний Загвар (хиймэл оюун)
Хиймэл оюуны (ХО) Их хэлний загвар (Large language model - LLM) нь энгийн хэлний боловсруулалтын үүргийг гүйцэтгэхэд зориулагдсан машин сургалтын загваруудын нэг төрөл юм. LLM-ууд нь олон параметр бүхий хэл зүйн загварууд бөгөөд их хэмжээний текст дээр өөрийгөө зааж сургах буюу логик утга санааг өөртөө танин мэдүүлэх аргаар бүтээгддэг.
Хамгийн том, хамгийн чадвартай LLM-ууд нь урьдчилан суралцсан трансформерүүд (GPTs) юм. Орчин үеийн загваруудыг тодорхой төрөл хэрэглээнүүдэд зориулан нарийн тохируулж, оролдлого инженерчлэлээр удирдаж бүтээжээ. Энэ загварууд нь хүний хэлний бүтцэд байх синтакс, семантик, онтологиас урьдчилсан таамаглах чадвар эзэмшдэг боловч тэд мөн сургасан өгөгдөлд буй өөрийн алдаанууд болон хандлагыг өвлөн авдаг.
Түүх
[засварлах | кодоор засварлах]2017 оноос өмнө, тухайн үеийн тооцоолох хүчин чадалтай харьцуулахад том хэмжээний зарим хэлний загварууд байсан. 1990-ээд онд IBM-ийн хэлний загвар нь статистик хэлний загварчлалд хүрч чадсан. 2001 онд 0.3 тэрбум үгийг ашиглан бэлтгэсэн зөөлөн n-gram загвар нь тухайн үеийн технологийн хувьсгалд хүрсэн. 2000-ад онд интернетийн хэрэглээ түгээмэл болоход зарим судлаачид интернетийн дундах хэлний дата сетүүдийг ("вебийг корпус болгон") байгуулах боловч тэд статистик хэлний загваруудыг сургасан. 2009 онд олон хэлний боловсруулалтын үүргүүдийн ихэнхид нь статистик хэлний загварууд бэлгэсэн хэлний загваруудаас илүү эзлэхүүнтэй болсон, учир нь тэд том хэмжээний дата сетүүдийг боловсруулж чаддаг.
2012 оны орчимд нейрон сүлжээ зураг боловсруулалтад давамгайлах болсноор түүнийг хэлний загварчлалд ашигласан. Google нь 2016 онд орчуулгынхаа үйлчилгээг нейрон машин орчуулгаар хөрвүүлсэн. Энэ нь трансформерээс өмнөх бөгөөд seq2seq гүн LSTM сүлжээгээр хийгдсэн.
Трансформер загварын үндсэн бүрэлдэхүүн хэсгүүдийн иллюстрац нь анхны бүтээлээс, олон толгойтой анхааралд (олон толгойт анхаарал дээр) давхаргуудыг нормчилсон.
2017 оны NeurIPS хурлын үеэр Google-ийн судлаачид “Анхаарал нь та нарын хэрэгтэй бүх юм” нэртэй ялгаралтай цаасаараа трансформер архитектурыг танилцуулсан. Энэ баримт бичгийн зорилго нь 2014 оны seq2seq технологийг сайжруулахад чиглэсэн бөгөөд гол төлөв 2014 онд Bahdanau болон бусад хүмүүсийн боловсруулсан анхааралтай механизмаас үндэслэсэн. Дараа жилийн 2018 онд BERT танилцуулагдаж, хурдан хугацаанд “аялагч боллоо”. Анхны трансформер нь кодлогч, задлагч блоктой бол, BERT нь зөвхөн кодлогч загвар юм. 2023 онд BERT-ийн академик болон судалгааны хэрэглээ буурч эхэлсэн нь зөвхөн задлагч загварууд (жишээлбэл GPT) үүргийг шийдэхэд түргэн сайжирсан гэсэн үг юм.