Hadoop

Чөлөөт нэвтэрхий толь — Википедиагаас
Jump to navigation Jump to search

Техник технологийн хурдацтай хөгжиж буй өнөө үед цаг, минут тутамд асар их өгөгдлүүд шинээр үүсэж байна. 2000 онд компьютерийн хатуу дискний дундаж хэмжээ 10КВ байсан бол өнөөдөр фейсбүүкд өдөрт шинээр 500ТВ өгөгдөл нэмэгдэж байна.

Apache Hadoop
Doug Cutting
Hadoop анхны хөгжүүлэгч
Hadoop анхны хөгжүүлэгч

Боинг 737 онгоц Америкийн Нэгдсэн улсын дээгүүр нэг удаа нислэг үйлдэхэд 240 ТВ хэмжээтэй өгөгдөл үүсдэг байна. 2013 оны байдлаар дэлхий дээрх нийт өгөгдлийн 90 хувь нь сүүлийн 2 жилийн дотор бий болсон байдаг ба үүний 70 хувийг ямар нэгэн аж ахуйн нэгж, байгууллага биш харин хувь хүн бий болгосон гэсэн судалгааг IBM-ээс гаргажээ. Иймээс асар их өгөгдлийг зөв арга технологор боловсруулж, өгөгдөлд агуулагдаж байгаа үнэ цэнэтэй мэдээллийг гаргаж авах нь чухал ач холбогдолтой юм. 1990 оноос өмнө дэлхий даяар бүртгэлийн програм хангамж руу анхаарлаа хандуулдаг байсан бөгөөд үүний үр дүнд хангалттай их өгөгдлийг цуглуулж чадсан. Уг өгөгдөл нь одоо ч маш хурдацтайгаар өсөн нэмэгдсээр байгаа билээ. Өөрөөр хэлбэл бүртгэлийн програм хангамжуудыг хөгжүүлэх ажил маш сайн хийгдсэн бөгөөд одоогийн байдлаар тэдгээрээс цугларсан өгөгдлүүдийг хэрхэн зөв зохион байгуулж хадгалах, хэрхэн хэрэгтэй мэдээлэл, мэдлэг болгон гаргах зэрэгт төвлөрсөн судалгаанууд хийгдсээр байна. Боловсруулалт хийгдээгүй их өгөгдлийн үнэ цэнэ хамгийн бага байх бөгөөд түүнийг нэгтгэн дүгнэх, задлан шинжлэх аргаар мэдээлэл гаргаж авах, цаашид шийдвэр гаргах төвшний мэдлэгийг гаргаж авах тусам түүний үнэ цэнэ өсөж байна. Эндээс үзвэл өгөгдлийг зүгээр цуглуулж хадгалах биш түүнийг цааш нь улам их боловсруулах шаардлагатай байгаа юм.

Их өгөгдөл[засварлах | edit source]

Бүтэцлэгдсэн, хагас бүтэцлэгдсэн болон бүтэцлэгдээгүй эх үүсвэрүүдээс бий болсон төрөл бүрийн өгөгдлийг их өгөгдөл гэнэ. Бүтэцлэгдсэн өгөгдөл нь тодорхой загварын дагуу үүссэн, тогтмол шинжүүдтэй учраас боловсруулахад хялбар, ойлгомжтой байдаг. Ийм төрлийн өгөгдлийг ихэвчлэн SQL -ээр боловсруулдаг. Бүтэцлэгдээгүй өгөгдөл нь урьдчилан зохион байгуулагдаагүй, өгөгдлийн сан удирдах системээр үүсгэгдээгүй текст, мультмедиа төрлийн өгөгдлийг агуулсан файл юм. Харин хагас бүтэцлэгдсэн өгөгдөл нь тодорхой хэмжээгээр зохион байгуулагдсан боловч өгөгдлийн сан удирдах системээр үүсгэгдээгүй юм. Эдгээр өгөгдлүүд нь олон нийтийн мэдээлийн сайтуудад оруулж байгаа сэтгэгдэл, зарлал, вэб сайтын лог, зураг, дуу видео үйлчлүүлэгчдийн худалдан авалтын бүртгэл , гар утас, төрөл бүрийн мэдрэгч төхөөрөмжүүд болон камер, байгууллагын автожуулалтын систем зэргээс үүсэж байгаа бөгөөд ихэнх хувь нь бүтэцлэгдээгүй хэлбэрээр үүсэж байна. Их өгөгдөл нь өөрөө цэгцэрсэн, давхцалгүй, бодит цагийн мэдээлэл байх ёстой. Одоо цагт нийт дата төвүүдийн 5% нь л их хэмжээгээр оролддог. Их өгөгдөл гэдэгт data warehouse, data mining, big data гэсэн гурван ойлголт хамаардаг.

Data warehouse нь мэдээллийн агуулах гэсэн үг. Өөрөөр хэлбэл үнэн, худал болон бодит цагийн (reaл time), өнгөрсөн цагийн гэсэн янз бүрийн төлөв байдалд байгаа датаг хадгалж бааз үүсгэж байдаг.

Data mining нь аналитик хэлбэрээр судалгаа хийх чиглал рүү явдаг. Гэхдээ алины онцлог нь өнгөрсөн цаг дээр судалгаа хийгддэг. Тиймээс шийдвэр гаргаж, трендийг тодорхойлохдоо data mining-г ашиглаж байгаа хэрэг юм.

Их өгөгдлийн хамгийн гол онцлог нь бодит цагийн цэгцэрсэн, давхцалгүй өгөгдөл байдаг. Бодит цагийн гэхээр серверийн дэд бүтцэд миллисекундын зөрүүтэй орж ирж байгаа өгөгдлийг хэлнэ. Монгол улсын төрийн байгууллагад хамгийн анх их өгөгдлөөр хөгжүүлэлт хийж гарч ирсэн зүйл бол ТҮЦ машин юм. Их өгөгдөл бол том хэмжээтэй дататай харьцах тухай цогц ойлголт юм. Өөрөөр хэлбэл уламжлалт дата боловсруулах системүүдийн хэрээс хэтэрсэн асар том хэмжээний дата, түүнтэй холбоотой бүх ойлголтуудыг нэгтгэсэн концепци юм. Үүнд датаг шинжлэх, олж авах, боловсруулах, хайлт хийх, хуваалцах, түгээх, хадгалах, дамжуулах, визуалчлах, нууцлал зэрэг ойлголтууд багтана. Яагаад их өгөгдөл гэдэг нэр томъёо гарч ирэх болсон ойлголтыг дараах баримтуудаар жишээ болгон тайлбарлая.

Их өгөгдөл
Их өгөгдлийг тодорхойлох гурван шинж
Их өгөгдлийг тодорхойлох гурван шинж
  • Датаны өсөлт маш их эрчимтэй явагдаж байгаа ба 2020 он гэхэд манай дэлхийн хүн бүр, секунд тутамд 1.7 мегабайт дата үүсгэж байх болно.
  • Тэр үед өнөөгийн дижитал ертөнцийн нийт дата 4.4 Зеттабайтаас 44 Зеттабайт буюу 44 их наяд Гигабайт болж нэмэгдэнэ.
  • 2015 оны наймдугаар сард , анх удаа 1 тербум хүн нэг өдөр Фейсбүүкт орсон байна.
  • 2020 онд бүх датаны гуравны нэг нь Клоуд орчинд хадгалагдана.
  • Төвлөрсөн биш тооцоолох арга бодит хэрэглээ болно. Google -н нэг хайлтын хүсэлтэнд 0.2 секундээс богино хугацаанд хариу өгөхийн тулд 1000 компьютер зэрэг боловсруулалт хийдэг.

Их өгөгдлийн шинж чанар[засварлах | edit source]

Өгөгдлийн хэмжээ

Өгөгдлийг их өгөгдөл мөн эсэхийг тодорхойлоход түүний эзэлж буй хэмжээ маш чухал. Өгөгдөл анх KB, MB, GB-аар хэмжигддэг байсан бол одоо TB, EB,ZB,YB гэсэн хэмжигдэхүүнээр хэмжигдэхүйц өссөөр байна. Өөрөөр хэлбэл техник технологийн хөгжилтэй шууд хамааралтайгаар өгөгдлийн хэмжээ өссөөр байна.

Өгөгдлийн хурд

Уг шинж нь өгөгдлийн хурдтай холбоотойгоор гарч ирдэг бөгөөд түүнийг хоёр өнцгөөс авч үздэг. Эхнийх нь шинэ өгөгдөл нэмэгдэх үед түүнийг ашиглаж байсан газар, байгууллагууд уг өөрчлөлтийг цаг алдалгүй хийх. Өөрөөр хэлбэл судалгаа, шинжилгээнд ашиглагдаж байгаа өгөгдлийг бодит буюу хугацааны хоцрогдолгүй шинэчлэх нь их өгөгдлийн бас нэг шинж юм. Хоёр дах нь өгөгдлийг боловсруулахад зарцуулах хугацаа гэж ойлгогдож болох бөгөөд их өгөгдөлтэй холбоотойгоор түүнийг хэрхэн хурдан боловсруулах гэсэн асуудал тулгардаг байна.

Их өгөгдөл

Төрөл

Өгөгдөл нь өгөгдлийн сан, excel, тескт, csv гэх мэт олон төрлөөр хадгалагдсан байдаг. Төрөл бүрийн хэлбэрээр оршин байдаг бөгөөд эдгээрээс их өгөгдөл үүсдэг байна. Тиймээс их өгөгдөл нь зөвхөн бүтэцлэгдсэн өгөгдөлд бус бүх төрлийн өгөгдөлд анхаарлаа хандуулдаг.

Цаашид дараах шинж чанарууд Их өгөгдлийн ойлголтод нэмэгдэж яригдах болно.

Хувьсах байдал

Дүрслэл

Үнэ цэнэ

Дээрх шинжүүдтэй холбоотой асуудлуудыг уламжлалт өгөгдлийн сан удирдах системээр шийдвэрлэхэд хэцүү, бүр боломжгүй байдаг учраас Oracle, HP, Microsoft, IBM гэсэн томоохон компаниуд их өгөгдөлтэй холбоотой арга технологиудад анхаарлаа хандуулж байна.

Их өгөгдлийг хэн үүсгэдэг вэ?[засварлах | edit source]

  1. Нийгмийн сүлжээ (бид бүгд өгөгдөл үүсгэдэг)
  2. Шинжлэх ухааны хэрэгсэл (бүх төрлийн өгөгдлийг цуглуулдаг)
  3. Мобайл төхөөрөмжүүд (бүх объектуудыг цаг үргэлж хянадаг)
  4. Мэдрэгч технологи, сүлжээ (бүх төрлийн өгөгдлийг хэмжинэ)

Hadoop ашиглах үндэслэл[засварлах | edit source]

Худалдаа үйлчилгээ, бизнесийг салбарт үр ашигтай мэдээллийг гаргаж авахын тулд маш их өгөгдлийг цуглуулж байдаг бөгөөд өгөгдлийн хэмжээ эрчимтэй өсөх тусам тэрхүү мэдээллийг уламжлалт өгөгдлийн сан удирдах системд хадгалах нь өртөг ихтэй болж байна. Их хэмжээний мэдээлэлтэй ажилладаг Yahoo, Facebook, Google гэх мэт томоохон компаниуд энгийн техник хангамж дээр их өгөгдлийг хадгалах болон боловсруулахад MapReduce аргыг ашигладаг бөгөөд Hadoop нь уг аргыг хэрэгжүүлсэн нь хамгийн их хэрэглэгдэж байгаа алдартай нээлттэй эх бүхий технологи болсон юм.

Hadoop фреймворк[засварлах | edit source]

Hadoop технологийг Apache -аас гаргасан бөгөөд энэ технологи нь найдвартай ажиллагаатай, өргөтгөх боломжтой, тархсан тооцоололд зориулагдсан нээлттэй эх юм. Нэг серверийг мянган машинаар өргөтгөх

Hadoop
Hadoop архитектур
Hadoop архитектур

боломжтойгоор зохиогдсон бөгөөд асар их өгөгдлийг болон тооны машинуудад тархаан байрлуулдаг. Энэ нь тусдаа ажиллаж байгаа машинуудаасс аль нэг нь ажиллагаагүй болоход түүнтэй холбогдож байсан програм хангамж өөр нэг машинтэй холбоо тогтоож үйл ажиллагаагаа хэвийн үргэлжлүүлэх боломжтой болж байгаа юм. Төвлөрсөн биш тооцоолох арга нь бодит хэрэглээ болно. Google -н нэг хайлтын хүсэлтэнд 0.2 секундээс богино хугацаанд хариу өгөхийн тулд 1000 компьютер зэрэг боловсруулалт хийдэг. Ийм тооцоолох аргад зориулагдсан нээлттэй эхийн Hadoop програмын эрэлт жил бүр 58 хувь нэмэгдэж 2020 гэхэд $1 тэрбумын зах зээлтэй болохоор байна. Их өгөгдлийг зөв ашигласнаар эрүүлийг хамгаалах салбар жилд $300 саяыг хэмнэх боломжтой. Өнөөдрийн байдлаар үүсч байгаа нийт датаны дөнгөж 0.5 хувь нь боловсруулагдаад байгаа нь энэ шинэ салбар хэр их ирээдүйтэйг харуулж байна.

Hadoop фреймворкын давуу тал[засварлах | edit source]

Уян хатан :
Hadoop нь олон тооны эх үүсвэрүүдээс бүтэцлэгдсэн болон бүтэцлэгдээгүй өгөгдлүүдийн хүлээн авч чаддаг.
Өргөтгөх боломжтой :
Шаардлага гарвал шинэ зангилаа (өгөгдлийг тархаан байрлуулах зорилготой сервер)
Найдвартай ажиллагаа :
Ямар нэг зангилаа нь ажиллагаагүй болоход системийн үйл ажиллагаа доголдохгүй өгөгдлийн өөр байршилтай холбогдон ажилладаг.
Зэрэгцээ боловсруулалт хийдэг
Компьютерийн хувьд өндөр үзүүлттэй байх шаардлагагүй
Нээлттэй эх зэрэг олон давуу талуудтай юм.

HDFS файл систем[засварлах | edit source]

HDFS нь өгөгдлийг олон газар хувааж тархан байрлуулж нэг цул юм шиг ажиллуулдаг файл систем юм. Их өгөгдлийг үнэтэй том сервер дээр байрлуулахаас илүү өртөг багатай энгийн хэрэглэгчдийн компьютеруудад

HDFS файл систем
HDFS файл системийн үйл ажиллагаа
HDFS файл системийн үйл ажиллагаа

хувааж тархаан байрлуулах нь дээр гэж үзэн уг системийг үүсгэсэн бөгөөд энэ систем нь алдаанд тэсвэртэй ажиллах давуу талтай. HDFS нь өгөгдлийг жижиглэн хуваагаад, тэдгээрийг олон серверүүдэд тархаан байрлуулж, зэрэгцээгээр боловсруулдаг систем юм. Бас нэг давуу тал нь олон газар хуваагдсан файлын хэсэг бүрийг бусад сервер рүү хуулбарлан байрлуулснаар аль нэг серверт алдаа гарахад бусад серверээс өгөгдлийг сэргээн үйл ажиллагааны хэвийн байдлыг хангадаг.

NameNode : HDFS файл системийн цөм нь бөгөөд файл системийн бүх файлуудын мод бүтцийг хадгалдаг. Өөрөөр хэлбэл өгөгдлийг өөрөөр нь хадгалдаггүй харин файлуудыг кластер дээр хаана хаана тархаан байрлуулсан талаарх мэдээллийг хадгалдаг. Хэрэглэгч ямар нэг файлыг олохын тулд NameNode -тэй харьцдаг. NameNode өөрт байгаа файлуудын тухай мэдээллээс DataNode-г олж өгдөг.

DataNode : энэ хэсэгт файлын өгөгдлийг хадгалдаг.

MapReduce програмчлал[засварлах | edit source]

Их өгөгдлийг зэрэгцээгээр боловсруулах програм хангамжийн фрэймворк юм. Энэхүү өгөгдөл боловсруулах арга н Google-ээс үүсэлтэй бөгөөд одоогийн байдлаар Apache Hadoop -с гадна их өгөгдөлтэй ажилладаг

MapReduce
MapReduce -н арга техник, ажиллагаа
MapReduce -н арга техник, ажиллагаа

хэрэгслүүд уг фрэймворкийг ашиглаж байна. MapReduce нт бүтэцлэгдсэн болон бүтэцлэгдээгүй өгөгдлүүдтэй ажиллаж чаддагаараа давуу талтай. MapReduce фрэймворк нь map() болон reduce() гэсэн хоёр үндсэн функцээс бүрддэг. Map() нь процессыг жижиглэн хуваах ба хуваалт бүр нь зэрэг ажилладаг. Reduce() нь хуваасан процесс бүрийн гаргасан үр дүнг нэгтгэж эцсийн үр дүн гаргах үйлдлийг хийдэг.

Hive өгөгдлийн агуулах[засварлах | edit source]

Hadoop технологийг ашиглан өгөгдөл хадгалах гэдэг нь HDFS файл систем рүү хандах бөгөөд файл системээс өгөгдлийг унших, боловсруулах нь өгөгдлийн сан удирдах системээс илүү төвөгтэй болдог. Учир нь та хэрэтэй өгөгдлөө гаргаж авахын тулд файлыг бүхэлд нь уншиж, түүнээс хайлт хийх, дээр нь тооцоолол хийх зэрэг бүх үйлдлээ өөрөө програмчлах шаардлагатай болдог. Үүнийг хялбарчлахын тулд Hadoop дээр суурилсан өгөгдлийн сангийн Hive програмыг ашиглаж боловсруулалтаа хийдэг. Hive програм нь хэрэглэгч HDFS файл систем рүү хандахгүйгээр, HiveQL гэдэг SQL -тэй төсэтй өгөгдлийн санг ашиглан файл системээс хэрэгтэй мэдээллээ хялбархан гаргаж авах боломжтой болсон. Өөрөөр хэлбэл хэрэглэгч Hadoop системээс хялбарханаар мэдээлэл гаргаж авах боломжийг олгох зорилготой, өгөгдлийн агуулах үүсгэх нээлттэй эхийн програм юм. Apache -с 2012 онд Hive -ийн анхны хувилбарыг гаргаж байсан бөгөөд Java VM суусан бүх платформ дээр ажиллах боломжтойгоор давуу юм. Hive нь SQL -тэй адил өгөгдлийн төрөл, хүснэгтийг дамждэг бөгөөд HiveSQL асуулгын хэлийг ашигладаг. Facebook -д 700 ТВ хэмжээтэй өгөгдлийг хадгалахад арван хэдэн мянган хүснэгтийг агуулсан Hive өгөгдлийн агуулахыг ашигладаг бөгөөд сард 200-с олон хэрэглэгч уг агуулахаас шинжлгээ болон тайлан гаргаж авдаг байна. CLI, Web interface, Thrift сервер гэсэн гурван аргаар Hive өгөгдлийн агуулах руу хандаж болно. CLI (Command Line Interface) болон Web interface нь хэрэглэгчийн програм хангамжаар дамжихгүй шууд өгөгдөл рүү хандах боломжийг олгодог бол хэрэглэгч өөрийн зохиосон програмаас Hive өгөгдлийн агуулах руу хандахын тулд эхлээд thrift server -ийг асаасан байх шаардлагатай. Уг сервер нь хэрэглэгчээс ямар нэг програм ашиглан Hive өгөгдлийн агуулах руу HiveQL агуулгыг явуулж мэдээлэл авах боломжийг олгодог. Hadoop системийн үйл ажиллагааг илүү сайжруулахын тулд түүн дээр суурилсан олон шинэ технологиуд бий болсон. Үүний нэг нь Hive өгөгдлийн агуулахын програм юм. Hive өгөгдлийн агуулахыг hive-site.xml файлын тохиргоо хийх файлыг тайлбарлав.

  • Mapred.reduce.tasks

Боломжит reducer -н тоог тохируулдаг бөгөөд анх 1 гэж тохируулагдсан байдаг. Энэ нь reducer -н тоог автоматаар тохируулна гэсэн утгатай.

  • Hive.exec.scratchdir

Hive асуулгад ашиглагдаж байгаа өгөгдлүүдийг түр хадгалах зориулалттай хавтасын замыг зааж өгдөг. Hive асуулга ажиллаж дуусахад уг хавтасын өгөгдлүүд устдаг.

  • Hive.metestore.warehouse.dir

Hive өгөгдлийн агуулахад үүссэн хүснэгтүүдийг хадгалах зориулалттай HDFS файл систем дээрх байрлал

Sqoop өгөгдөл дамжуулах хэрэгсэл[засварлах | edit source]

2012 оны гурван сард Apache -аас Sqoop хэмээх өгөгдөл дамжуулах хэрэгслийг гаргаж ирсэн бөгөөд Sqoop нь Hadoop болон өгөгдлийн сан удирдах системүүдийн хооронд багц өгөгдлийг

Sqoop
Sqoop - н ажиллагааны зарчим
Sqoop - н ажиллагааны зарчим

дамжуулах үүрэгтэй холболтын хэрэгсэл юм. Өгөгдлийн сан удирдах системээс Hadoop систем рүү өгөгдөл оруулах, Hadoop системээс өгөгдлийн сан удирдах систем рүү өгөгдөл гаргах гэсэн хоёр чиглэлтэйгээр ажилладаг. Өөрөөр хэлбэл холбоост өгөгдлийн санд байгаа өгөгдлийг HDFS, Hive болон HBase -рүү ачаалахаас гадна эдгээрт хадгалагдсан өгөгдлийг буцаагаад холбоост өгөгдлийн сан руу зөөдөг юм.

Hadoop хаана ашиглаж байна[засварлах | edit source]

  • IBM
  • Samsung
  • Hp
  • Yahoo
  • Intel
  • Twitter
  • Amazon гэх мэт том компаниуд Hadoop -г ашиглаж байгаа бөгөөд үүнээс 2 компанийг нь авч дэлгэрэнгүй тайлбарлав.
Хэн Hadoop -г ашигладаг вэ?
Hadoop - г ашигладаг компаниуд
Hadoop - г ашигладаг компаниуд

Facebook[засварлах | edit source]

Yahoo, Facebook, Ebay гэх мэт томоохон байгууллагууд нь тайлан тооцоо таамаглал дэвшүүлэх системийнхээ өгөгдлийг Hadoop технологи ашиглан хадгалдаг байна. Эдгээрээс хамгийн том Hadoop кластер ашигладаг байгууллага нь Facebook юм. Facebook компани анх дүн шинжилгээ хийхэд зориулагдсан өгөгдлийг олон машинуудад тархаан байгуулахдаа MySQL өгөгдлийн санг ашигладаг байсан бөгөөд Python скриптээр боловсруулалтыг нь хийдэг байжээ. Гэвч тархаан байрлуулсан өгөгдлүүдийг буцаагаад нэгтгэхэд өгөгдлийн санд ачаалал үүсэх, удах үр дүн муутай байх зэрэг асуудлууд тулгарч эхэлсэн байна. Тиймээс 10ТВ хэмжээтэй [Oracle] өгөгдлийн агуулахыг байгуулсан нь жижиг, дунд байгууллагуудад тохиромжтой шийдэл байсан юм. Учир нь Facebook -д сэтгэгдэл бүртгэгдсэн эхний өдөр гэхэд 400 GB өгөгдөл үүссэн байна. Тиймээс өгөгдөл цуглуулах болон боловсруулах давхаргаа Hadoop кластераар сольсон байна.

Ebay[засварлах | edit source]

Ebay нь 120 сая идэвхитэй хэрэглэгчтэй өдөрт 300 сая хайлт хийгддэг, 350 сая боломжит бүтээгдэхүүнүүдтэй онлайнаар худалдаа явуулдаг олон улсын байгууллага юм. Тиймээс хэрэглэгчийн дарсан даралт болон бүтээгдэхүүн, гүйлгээ, үйлчлүүлэгч, санал хүсэлт, дуудлага худалдааны өгөгдлүүдийг хадгалж боловсруулалт хийхдээ Hadoop технологийг ашигладаг байна. 2007 онд 4 зангилаанаас бүрдсэн кластер үүсгэж байсан бол 2009 онд 28 зангилаа, 2010 онд 532 зангилаа бүхий кластер үүсгэсэн байна. Ebay нь судалгаа шинжилгээнд хэрэглэгдэх өгөгдлийг Hadoop технологи ашиглан хадгалдаг бөгөөд Facebook -н адилаар Hive өгөгдлийн агуулахад шаардлагатай өгөгдлүүдийг нэгтгэн цуглуулдаг боловч нэг онцлог нь OLAP куб ашиглан өгөгдлийг хялбар аргаар хандаж авдаг байна.

Hadoop суулгах[засварлах | edit source]

Алхам 1. Жава JDK суулгах
magnai@ubuntu:~$ sudo apt-get update
magnai@ubuntu:~$ sudo apt-get upgrade
magnai@ubuntu:~$ sudo apt-get install default-jdk
magnai@ubuntu:~$ sudo java -version (суусан жавагийн хувилбар харах)
magnai@ubuntu:~$ sudo whereis java (суусан жавагийн замыг харах)
Алхам 2. SSH суулгах
magnai@ubuntu:~$ sudo apt-get install ssh
magnai@ubuntu:~$ sudo apt-get install rsync
magnai@ubuntu:~$ sudo ssh -keygen -t dsa -P -f ~/.ssh/id_dsa
Алхам 3. Хэрэглэгчийн шинэ бүлэг нэмэх
magnai@ubuntu:~$ sudo addgroup hadoop
magnai@ubuntu:~$ sudo adduser --ingroup hadoop hduser
Алхам 4. Hadoop суулгах
hduser@ubuntu:~$ sudo wget www.us.apache.org/dist/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
hduser@ubuntu:~$ sudo tar xfz hadoop-2.6.0.tar.gz
hduser@ubuntu:~$ sudo mv hadoop-2.6.0 /usr/local/hadoop
hduser@ubuntu:~$ sudo chown hduser:hadoop -R /usr/local/hadoop
hduser@ubuntu:~$ sudo update-alternatives--config java

Алхам 5. Hadoop системийг суурилуулах явцад дараах тохиргоог заавал хийх шаардлагатай. Энэ тохиргоо нь суурилуулсны дараа Hadoop -г асаах унтраах гэх мэт үйлдлүүдийг Hadoop CLI програмаас ажиллуулах боломжийг олгодог.

Алхам 5. Hadoop суурилуулалтын тохиргоо
hduser@ubuntu:~$ sudo nano ~/.bashrc
#HADOOP VARIABLES START
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
#HADOOP_VARIABLES END
hduser@ubuntu:~$ sudo source ~/.bashrc
Алхам 6. Hadoop системийн жава хэрэгжүүлэлтийн тохиргоо
hduser@ubuntu:~$ sudo nano /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
Алхам 7. Hadoop системд хандах замын тохиргоо
hduser@ubuntu:~$ sudo nano /usr/local/hadoop/etc/hadoop/core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
Алхам 8. Yarn тохиргоо буюу HDFS файл системийн тохиргоо
hduser@ubuntu:~$ sudo nano /usr/local/hadoop/etc/hadoop/yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.shuffleHandler</value>
</property>
Алхам 9. MapReduce зэрэгцээ боловсруулалтын тохиргоо
hduser@ubuntu:~$ sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

Алхам 10. Энэ тохиргоо нь HDFS файл системийн цөм нь бөгөөд файл системийн бүх файлуудын мод бүтцийг хадгалдаг. Өөрөөр хэлбэл өгөгдлийг өөрийг нь хадгалдаггүй харин файлуудыг кластер дээр хаана хаана тархаан байрлуулсан талаарх мэдээллийг хадгалах боломжийг олгодог чухал тохиргоо юм. Хэрэглэгч ямар нэг файлыг олохын тулд NameNode- тэй харьцдаг. NameNode өөрт байгаа файлуудын тухай мэдээллээс DataNode-г олж өгдөг. DataNode-д байгаа өгөгдлийг NameNode зааж өгдөг гэсэн үг юм. HDFS файл системд шинээр файл хадгалах үед түүнийг хэдэн удаа хуулбарлан хадгалахыг dfs.replication -р тохируулж өгдөг.

Алхам 10. HDFS файл системийн тохиргоо
hduser@ubuntu:~$ sudo mkdir -p /usr/local/hadoop_store/hdfs/namenode
hduser@ubuntu:~$ sudo mkdir -p /usr/local/hadoop_store/hdfs/datanode
hduser@ubuntu:~$ sudo chown -R hduser:hadoop /usr/local/hadoop2/store
hduser@ubuntu:~$ sudo nano /usr/local/hadoop/etc/hadoop/hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop_store/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop_store/hdfs/datanode</value>
</property>
Алхам 11. Hadoop хувилбар харах
hduser@ubuntu:~$ sudo hadoop version
hduser@ubuntu:~$ sudo hadoop namenode -format
Алхам 12. Hadoop -г эхлүүлэх
hduser@ubuntu:~$ sudo start-all.sh эсвэл (start-dfs.sh бас start-yarn.sh)

Алхам 13. JPS команд нь жава програмчлалын хэл дээр бичигдсэн бөгөөд жава виртуал машин дээр ажиллаж байгааа процессуудын статусыг харуулдаг.

Алхам 13. Hadoop -н ажиллагааг шалгах
hduser@ubuntu:~$ sudo jps
Алхам 14. Hadoop -г зогсоох
hduser@ubuntu:~$ sudo stop-all.sh эсвэл (stop-dfs.sh бас stop-yarn.sh)

Нэмж унших[засварлах | edit source]