Бүтээлийн хулгай

Чөлөөт нэвтэрхий толь — Википедиагаас
Харайх: Удирдах, Хайлт

Бүтээлийн хулгай (францаар plagiaire - монголоор ‚оюуны өмчийн хулгай‘, латины plagiārius – ‚сүнсний худалдаач, хүн дээрэмдэгч‘) гэдэг нь бусдын бүтээлийг зохиогчийн зөвшөөрөлгүйгээр бүхэлд нь болон хэсэгчлэн авч өөрийн нэрээр гаргахыг бүтээлийн хулгай буюу плагиат гэж нэрлэдэг. Заримдаа үүнийг оюуны хулгай гэж нэрлэдэг тохиолдол ч бий. Бусдын бүтээлийг бүхэлд нь буюу ихэнх хэсгийг, эсвэл гол үндэслэлийг санаатайгаар ашиглаж, өөрийн болон гурав дахь хүний нэрээр гаргахыг оюуны хулгай буюу эрүүгийн гэмт хэрэг гэж үздэг. Зохиогчийн эрхийг зөрчсөн аливаа үйлдлийг хуулиар зохицуулдаг бөгөөд шүүхийн шийдвэрээр зохиогчийн жинхэнэ нэрийг сэргээхийн хамт зөвшөөрөлгүй бүтээлийг хэвлэн тараахыг хориглож, зохиогчийн хүсэлтээр залруулга, тодруулга хийх, өөрчлөлт оруулах, зохиогчид болон түүний өв залгамжлагчид учирсан эд хөрөнгийн хохирлыг нөхөн төлүүлэх болно. Харин иргэдээс нийгмийн хүртээл болсон бүтээлийг зохиогчийн зөвшөөрөлгүй, үнэ хөлс төлөхгүйгээр өрх гэрийнхээ хүрээнд ашиглах явдлыг зохиогчийн эрхийн тухай хууль тогтоомж зөрчсөн гэж үзэх үндэслэлгүй юм.

Хэн нэгэн хэзээ ч бусдын контент, мэдээ мэдээллийг хялбархан хуулж, хувилж чадна. Үүнийг санаа болон бүтээлийн хулгай (plagiarism) [1]гэж хэлдэг. Энэ нь одоо үед ихсэж байна. Цахим баримт бичгүүд нь хууль бусаар хуулбарлагдах аюултай. Хүмүүс ихэвчлэн баримт бичгийг дуурайлган бичих, хуулбарлах, хаанаас иш татсан нь тодорхойгүй байдаг. Технологийн дэвшил нь цахим номын санг бололцоотой болгосон юм. Интернетээр болон Netscape гэх мэт чиглүүлэгчд ийн хэрэглээний өсөлтөөр хэрэглээ нь нэмэгдсэн. Гэсэн хэдий ч эдгээр нь хууль бусаар хуулбарлаж, түгээх аюулыг ихэсгэдэг. Одоогийн технологи нь оюуны өмчийг хамгаалах зохистой хамгаалалт үзүүлдэггүй. Үүний улмаас мэдээлэл түгээгчид ихэвчлэн IEEEE-гээс гаргадаг CD-ROM гэх мэт хаалттай системүүдийг ашиглан үнэ цэнэтэй мэдээлэл түгээх хандлагатай байдаг болсон. Шинэ технологийн тусламжтайгаар хэрэглэгчдийг мэдээллийн урсгалаас чөлөөтэй мэдээлэл авах бололцоог бүрдүүлж, мөн тэдний хууль бусаар мэдээллээ хуулбарлаж түгээхийг зогсоох нь чухал. Энэ асуудлыг шийдвэрлэж болох нэг арга нь оригинал document-ийг бүртгэж, хуулбаруудыг илрүүлэх боломжтой хуулбар илрүүлэх үйлчилгээ нэвтрүүлэх юм. Ихэнх хуулбар илрүүлэгч системүүд нь өгүүлбэрт тулгуурласан харьцуулалтын аргаар боломжит хуулбарласан бүтээгдэхүүнийг бүх бүртгэлтэй document-уудтай харьцуулж хуулбарлалтыг илрүүлдэг. Шууд хуулбарласан, хуулаагүйг нь мэдэхэд хэцүү байдаг, үүнийг мэдэхийн тулд “plagiarism” ийг хэрэглэж байна. Одоо байгаа механизмуудын хамгаалалтын төвшин нь сул, хуулбарласан документ нь илрүүлэлтийг өгүүлбэртээ хэдхэн өгүүлбэрт бага зэрэг өөрчлөлт оруулаад л давтах боломжтой. Ерөнхийдөө эхлээд баримт бичгийг индекс хийж үүнийгээ өмнө нь бүртгэгдсэн, хадгалагдсан бусад баримтуудтай харьцуулж ажилладаг.

АРГA ХЭЛБЭРҮҮД[засварлах | edit source]

Хэлбэрүүд[засварлах | edit source]

  1. Text Based
  2. Attribute-oriented code-based
  3. Structure-oriented code-based system

Текст дээр суурилсан[засварлах | edit source]

Үг өгүүлбэр дээр тоололт хийж, баримт бичиг нь plagiarized байгаа эсэхийг шалгадаг. Олон үг давтагдах тусам ижилхэн байгааг нь илтгэнэ. Энэ арга нь их баримт бичиг дотор хэсэг текст нь бүхлээрээ хуулагдсан байх үед сул талтай. Энэ бүтэц нь 4 хэсгээс бүрддэг цуглуулга(collection), дүн шинжилгээ(analysis), бүтэц, хэлбэр(conformation), шалгалт, судалгаа(investigation).

Attribute-oriented code-based[засварлах | edit source]

Энэ нь зөвхөн гол код болон чанарын тодорхойлолт дээр үнэлгээ хийдэг. Аттрибутуудийн хоорондох ялгаагаар ил байнгаа эсэхийг шалгадаг. Гэхдээ энэ нь тийм сайн арга биш, хэн нэгэн кодыг нь хуулан аваад хувьсагчийн нэрийг нь сольсон бол үүнийг нь шалгадаггүй. Мөн энэ нь том хэмжээний код дээр шалгалт хийхэд мөр мөрөөр нь шалгадаг тул их хугацаа шаардана.

Structure-oriented code-based system[засварлах | edit source]

Энэ нь дээр байгаа 2 төрлийн хослол. Текстэн болон бүтэц аль алинд нь анхаардаг. Жижиг хэсэгт хүртэл хувьсагчийн өөрчлөлт, тайлбар болон бүх бүтцийн хувьд анхаардаг. Энэ нь нөгөө 2 аргаас илүү хэрэгцээтэй юм.

Existing Approaches[засварлах | edit source]

Одоо байгаа аргууд нь 2 ангид хуваагддаг.

  • Extrinsic methods
  • Intrinsic methods

Extrinsic methods ерөнхийдөө сэжигтэй болон жинхэнэ баримт бичгийн харьцуулалт байдаг. Intrinsic нь өөр баримттай харьцуулалт хийдэггүй, хэл шинжлэх арга шиг. Энэ нь үгийн санг ерөнхийдөө хардаг. Догол мөрийн дундаж урт, онцлог үгийн давтамж. Адил байгаа эсэхийн үзүүлэлт нь өөр өөр хэмжигдэхүүн дээр байдаг. Баримт бичгээс нь шалтгаалан нэг эсвэл олон хэмжээс гэж ангилдаг.

ХАРЬЦУУЛАХ АРГУУД НЬ[засварлах | edit source]

Хуулбарлагдсан байх магадлалтай document бүртгэгдсэн документ-тэй харьцуулагдахад бид документ-ийн утгыг тогтоохын тулд мэдээлэл эргүүлж авах аргууд ашигладаг. Энэ арга нь нэгж болон бүлэг документ-уудыг хянахад ашигладаг. Өөрөөр хэлбэл 2 адилхан утга илэрхийлж байгаа зүйлийг олохдоо үүнийг ашигладаг. Өгүүлэгдэхүүн бүр нүүр нүүрээр нарийн харьцуулагдаж зарим өгүүлэгдэхүүн нь таарч байгаа эсэхийг харна. Адил талтай документ-уудыг судалснаар хэрэглэгчид хуулбар илрүүлэх системийг ердөө өгүүлбэрт одоо цаг болгон өөрчлөх гэх мэтээр бага зэргийн өөрчлөлт хийгээд давах боломжгүй гэсэн үг.

String matching procedures[засварлах | edit source]

Энэ нь хамгийн урт адилхан байгаа текстийг хардаг. Үүнээс төвшин нь шийдэгддэг. Төвшинг нь давах үед энэ өгөгдөл нь хулгайлагдсан байна гэж үзүүлнэ. Дагавар сольж бичсэн аргууд(Suffix tree), мөн массив, болон хуулсан мэдээллээ далдал нуусан үед илрүүлэх хэцүү.

Vector space based[засварлах | edit source]

Энэ нь бүх баримт бичигт бичигдсэн нэр томьёнуудийг илүүд үзэн хардаг, үүгээрээ эцсийн үр дүнг гаргадаг. Косинусийн хэмжээг ижил эсэхийг шалгахад ашигладаг. Үгийг ойролцоо, симантик мөн бусад өөрчлөгдсөн нэр томьёог шалгаж чадна.

Fingerprinting[засварлах | edit source]

Энэ нь текстээс олон дэд хэсгүүдийг сонгон хардаг. Дэд хэсгүүдийг fingerprint-үүд гэж хэлдэг мөн элементүүдийг нь minutiae гэж нэрлэдэг. Hash функц нь minutiae-ийг [2][3] харьцуулахад хялбар string төрөл рүү хөрвөдөг.[4] Query ашиглан minutiae бүрийг индекс хийсэн баримттай тулгадаг.

ХАМААРАЛТАЙ АЖИЛУУД[засварлах | edit source]

Одоо ашиглагдаж буй оюуны өмчийг хамгаалах аргууд нь хуулбарлалтаас сэргийлэх болон хуулбарлалт илрүүлэх гэсэн хоёр төрлийн механизмд хамаарна. Хуулбарлалтаас сэргийлэх аргууд нь мэдээллийг зөвхөн зөвшөөрөлтэй хэрэглэгчдэд ашиглах боломжтой болгодог, үүрэг нь документ-уудыг тараахыг нь аль болох барьж байхад оршино.

Хуулбарлалтаас сэргийлэх нэг арга нь “хамгаалалттай принтер”-т суурилсан байдаг. Хэрэглэгч нь мэдээлэл нийлүүлэгчээс document хүссэн үед нийлүүлэгч эхлээд тухайн хэрэглэгч нь документ-ийг ашиглах эрхтэй эсэхийг шалгадаг. Тэрний дараа документ нь олон нийтийн түлхүүрээр кодлогдоно. Кодолсон document ашиглах эрхтэй хэрэглэгчрүү дамжуулагдаж, хэрэглэгч кодыг тайлах тусгай түлхүүртэй принтерээр хэвлэнэ. Тусгай эрхгүй хэрэглэгч нь хулгайлагдсан документ-ийг хэвлэх боломжгүй. Энэхүү системийн сул тал нь хэрэглэгчид документ-ийн талаар тодорхой мэдлэгийг худалдаж авахаасаа өмнө олж авах боломжгүйд оршино.

Хуулбарлалтаас сэргийлэх бас нэгэн арга нь “Идэвхтэй документ”-д суурилсан байдаг. Хэрэглэгчрүү документ-ийг явуулахын оронд мэдээлэл нийлүүлэгч хамгаалалттай документ эвлүүлэх чадвартай document үүсгэгч программруу явуулдаг. Үүнээс гадна документ -ийг ашиглах үед программ мэдээлэл нийлүүлэгчрүү баталгаажуулалт явуулдаг. Энэ арга нь мэдээлэл нийлүүлэгчид document-ийн хэрэглэгч нь эзэмшигчийн эрхтэй эсэхийг шалгахад тусалдаг. Хуулбарлалтаас сэргийлэх системүүдийн үүрэг нь документ-ийг ашиглаж байгаа хэрэглэгч тусгай эрхтэй эсэхийг шалгахад байгаа юм. Хэрэглэгч хууль ёсны хуулбар авсныхаа дараа тухайн документ-ийн хууль бусаар хуулбарлахын эсрэг арга хэмжээнүүд байдаггүй. Үүнээс гадна документ -хэсгээс тасалж аваад хууль бусаар хуулбарлахыг хуулбарлалтын эсрэг программаар зогсоох боломжгүй.

Хуулбарлахаас сэргийлэх программуудыг бодвол хуулбарлалт илрүүлэх программууд илүү чөлөөтэй. Xуулбарлалт илрүүлэх программууд нь хууль бусаар хуулбарлаж нийлүүлэхийн эсрэг арга хэмжээ авдаг. Хуулбарлалт илрүүлэх нэг арга нь хэрэглэгчид өгч байгаа документ-уудыг тэмдэглэж байдаг, энэ тэмдэг нь документ-ийг ашиглаж байгаа хэрэглэгчийг таньдаг. Хэрэв документ-ийг цахим хэлбэрээр хуулбарлагдаж, эсвэл оригинал хувилбарыг оригинал хэрэглэгчээс өөр хүн ашиглаж байгаа нь илэрвэл гэрээ зөрчсөн үйлдэл болж, үүнийг нь тэмдэг нь илрүүлнэ. Энэхүү тэмдэглэгээний гол сул тал нь JPEG-рүү шилжүүлэх гэх мэт “ шахах ” үйлдэл хийвэл тэмдэглэгээ нь арилдаг. Мөн хэсэгчилсэн хуулбарлалтыг тэмдэглэгээгээр илрүүлэх боломжгүй. Энэхүү тэмдэглэгээ хуулбарлалт илрүүлдэг нь нэгэн төрлийн хүний оролцоогүй систем юм.

Анхны идэвхтэй хуулбарлалт илрүүлэгч программууд нь ихэвчлэн программчлалд явагдаж буй хуулбарлалтыг илрүүлэхэд оршдог байсан. Оюутан сурагчид Pascal юм уу C программыг нэг нэгнээсээ хуулж магадгүй. Үүнийг илрүүлэхийн тулд систем нь бүх сэтгэгдэл, хоосон зайнуудыг арилгаад, бүх таних тэмдэгтүүдийг тоогоор орлуулдаг. Хамгийн энгийн программуудаар бага зэргийн өөрчлөлт оруулж хуулбарласан тохиолдолд тэдгээрийг илрүүлээд төсөөтэй хэсгүүдээр хуулж олж болно. Өөрчлөлт орсон байж магадгүй хэмжээ, байрлал, хувилбаруудыг статистикчлаад олох боломжтой. Бусад аргууд нь программын хэр их ажиллагаа шаардсан байгааг тооцоолж болдог. Хоорондоо хэт төстэй программууд энэхүү тооцоонд заагдсан хэмжээнээс хэтэрвэл тэдгээрийг тэмдэглэж хэрэглэгчийг нь хууль бусаар хуулбарласан эсэхийг шалгана. Документ-уудад зориулсан санаануудын хуулбарласан эсэхийг шалгадаг систем нь программын хуулбарлалт шалгадаг системүүдийг өргөн цар хүрээтэй болгож ашигладаг. Компьютерын программууд нь бүтэц сайтай байдаг бөгөөд үйл явцууд , нэмэлтүүд нь программын бүтцийг харуулдаг. Хуулбарлагдсан ч бай хийх ёстой үйлдлээ хийхийн тулд оригиналийн бүтэц үйл явцыг аль болох өөрчлөөгүй байдаг. Үүнтэй адилаар хуулсан программнууд харагдах байдлаараа олон өөрчлөлт орсон ч гэсэн хийж буй үйлдэл нь оригиналтайгаа яг адилхан байж болдог. Хэсэг , бүтэц, үйл явцыг хадгалсан программ өөр бүтэц үйл явцтай документ ч байсан яг адилхан хэвтэй байж болно. Харин үг ,өгүүлбэрт суурилсан систем нь эсрэгээрээ . Учир нь үг, өгүүлбэрийг нь идэвхтэйгээс, идэвхгүй болговол систем, хуулбарлалт илрүүлэгчийг хуурч болно.

CHECK-ийн дэд бүтэц[засварлах | edit source]

Энэхүү хуулбарлалт илрүүлэх программын дэлгэрэнгүй дэд бүтэц нэгдүгээр зурагд дүрсэлж харуулсан байгаа. Хүснэгтэд харуулснаар CHECK гурван үндсэн бүтэцтэй : Document бүртгэгч, document харьцуулагч, document зохицуулалт. Document бүртгэгч анхдагч document-ийг анхдагч гэж үздэг, хэсэг бүлэг document агуулсан database server-т бүртгэдэг. Document харьцуулагч нь оруулсан document-ийн бүртгэгдсэн document-уудтай харьцуулж хууль бусаар хуулбарласан шинж тэмдэг байгаа эсэхийг шалгадаг. Document зохицуулалт нь document болгоныг дотроо нууцалж хадгалан document-ийн бүртгэл харьцуулалттай нягт холбоотой ажилладаг. CHECK системд Oracle database зохицуулалтын систем байгуулдаг. Системийн 3 хэсэг нь 3 энгийн үйлдэлтэй : Анхдагч document-ийн бүртгэл, document баталгаажуулалт, энгийн document-ийн бүртгэл.

Зураг 1. CHECK-ийн архитектур.
  1. Анхдагч document-йин бүртгэл : анхдагч хэмээн үзэж байгаа document-аа CHECK систем бүртгэдэг. Ингэснээр document бүртгэлийн хэсэг document зохицуулалтын хэсгийг идэвхжүүлж document-ийн Oracle database-д нөөцөлдөг. Цаг их авдаг учраас бүртгэгдсэн document-уудай харьцуулалт хийдэггүй. Мэдээж хэрэг тухайн хэрэглэгч нь итгэж болохуйц хүн байна. Иймээс энэхүү үйлдэл нь давуу эрхтэй. Бусад бүх document-ууд нь доор бичсэнчлэн энгийн document бүртгэлийн системээр бүртгэгдэнэ.
  2. Document баталгаажуулалт : хэрэглэгч document-ийг хууль бусаар ашиглах зорилготой document харьцуулагч системийг идэвхжүүлж document-ийг салгаж болно. Хариуд нь document харьцуулагч хэсэг document зохицуулагч хэсгийг ажиллуулж бүтцийн шинжийг тодорхойлно. Бүхий л сэжигтэй document-ууд хэрэглэгчид буцаад мэдэгдэнэ.
  3. Энгийн document бүртгэгч : энэхүү үйлдэл нь ерөнхийдөө document баталгаажуулагч системийг ажиллуулж оруулсан document хууль бусаар хуулбарласан эсэхийг шалгана. Хэрэв сэжигтэй document илрээгүй бол database-д бүртгэгдэнэ. Хэрэв сэжигтэй гэж үзвэл хэрэглэгчид нэмэгдэнэ.

Document зохицуулалт - Document зохицуулалтын хэсэг нь нэгдүгээр зурагт үзүүлсэнчлэн угсраа байрлах 3 үеэс бүрдэнэ. Document таних, тусгай үг хэллэг зөөвөрлөх, бүтцийн хэв байдлыг байгуулах дэд бүтэцтэй.

Зураг 2. Энгийн document болон харгалзах document-ийн мод.

Document таних –Document таних хэсэг нь батлагдсан document-ийг энгийн ASCII document болгож өөрчилдөг. CHECK-ийн одоогийн хувилбар нь зөвхөн s laTEX document-уудыг таньдаг. Бусад document-ууд DVI гэх мэт document-ууд таньдаг бөгөөд ASCII-руу шилжүүлсэн document-ууд бас ажиглагддаг. s latex-ийг ASCII текстрүү шилжүүлэхэд бүтцийг нь эрэмбэлж, зөв дараалалд оруулж түлхүүр үгнүүдийг авна. Иймээс бид ердөө unix-ийг ашиглаж болохгүй. Document-ийн бүтцээр нь эрэмбэлснээр харьцуулалт хийхэд хялбар болно. Энэ нь зарим хэрэгцээгүй харьцуулалтуудыг устгана. Түлхүүр үгс нь жишээлбэл document-д тодоор бичсэн, утга нь document уялдаатай үгнүүд түлхүүр үгсийг ашиглан харьцуулалт хийхэд тусалдаг. S laTEX танигч нь document болгоныг нэг удаа шалгадаг. Энэхүү шалгалт дотор мод шиг бүтэц үүсгэгдэж document-ийн бүтцийг задалдаг. Бүхий л document дотор олон талаас харж дүгнэж, хэсэг хэсгээр нь , гарчгаар нь , хуудсын эрэмбээр тогтоож болдог. 2а болон 2б зурагнууд s latex document-ийг болон document-ийн модны жишээ байгаа. Энэнд document-ийн модны үндэс нь document-ийг дүрсэлж бусад зүйлс нь , жишээлбэл гарчиг нь харилцан уялдаатай байна. Бүх хэсэг нь олон жижиг хэсгүүдээс бүрдсэн байдаг ба тэдгээр нь бүр жижиг хэсгүүдээс бүрднэ. Навч нь л гэхэд document дотор байгаа нэг зүйлийн талаар өгүүлэх ба эднийг document хэсэгчлэхэд ашиглаж болно.

Мөрөөр хайх алгоритм[засварлах | edit source]

Компьютерын шинжлэх ухаанд, мөрөөр хайх алгоритм, заримдаа мөр тохируулах алгоритм гэж нэрлэдэг алгоритм нь нэг болон хэд хэдэн мөрийг том текстээс хайж олох мөр алгоритмын чухал анги юм.

Мөрөөр хайх алгоритмын архитектур.

Naïve string search[засварлах | edit source]

Энгийн боловч үр ашиггүй арга замыг харья нэг мөр нь нөгөөхийн дотор хаана нь тохирч байгааг мэдэхийн тулд тус бүрээр нь шалгана. Тэгэхээр нэг бүхэл эхийн эхний үг нь хуулбар байна уу гэдгийг бид эхлээд харна, хэрэв үгүй бол бид энэ эхийн хоёр дахь үгийг нь мөн хуулбар эсэхийг харна, хэрэв тийм биш бол бид гурав дахь, дөрөв дэх үгийг хархаар эхлэх гэх мэт. Хэвийн тохиолдолд бид тэр эхийн нэг дэх хоёр дахь үгийг нь хараад энэ үг нь буруу байрлалтай гэдгийг нь мэднэ, дундаж тохиолдолд O(n+m) –ийм үйлдэл гаргадаг, n-нь эхийн урт m-нь үгийн урт, гэхдээ хамгийн муу тохиолдолд "aaaaaaaaab" шиг үгээс "aaaab" шиг үгийг хайхад, энэ нь O (nm) авдаг.

Эшлэл[засварлах | edit source]

[1] [2] [3]

[4]

  1. 1.0 1.1 Abdelmoneim, Salah-Eldin (September 30, 2010). Plagiarism What is it? How to avoid it?. 14th Alexandria Anaesthesia & Intensive Care Conference. Alexandria Faculty of Medicine.
  2. 2.0 2.1 Hoad, Timothy & Justin Zobel (2003), "Methods for Identifying Versioned and Plagiarised Documents", Journal of the American Society for Information Science and Technology 54 (3): 203–215, DOI:10.1002/asi.10170, <http://goanna.cs.rmit.edu.au/~jz/fulltext/jasist-tch.pdf>
  3. 3.0 3.1 Stein, Benno (July 2005), "Fuzzy-Fingerprints for Text-Based Information Retrieval", Proceedings of the I-KNOW ‘05, 5th International Conference on Knowledge Management, Graz, Austria, Springer, Know-Center, pp. 572–579, <http://www.uni-weimar.de/medien/webis/publications/papers/stein_2005a.pdf>
  4. 4.0 4.1 Brin, Sergey; James Davis & Hector Garcia-Molina (1995), "Copy Detection Mechanisms for Digital Documents", Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data, ACM, pp. 398–409, ISBN 1-59593-060-4, DOI:10.1145/223784.223855, <http://ilpubs.stanford.edu:8090/112/1/1995-43.pdf>