Dom trendovi Što je $ @! je hadoop?

Što je $ @! je hadoop?

Sadržaj:

Anonim

Svi pričaju o Hadoopu, novoj vrućoj tehnologiji koja je visoko cijenjena među programerima i koja bi mogla (opet) promijeniti svijet. Ali samo što je to, uostalom? Je li to programski jezik? Baza podataka? Sustav za obradu? Ugodan indijski čaj?


Široki odgovor: Hadoop je sve to (osim čaja ugodno) i još mnogo toga. To je programska knjižnica koja pruža programski okvir za jeftinu, korisnu obradu nove moderne riječi: velikih podataka.

Odakle Hadoop?

Apache Hadoop dio je Zakladnog projekta Fondacije Apache Software, neprofitne organizacije čija je misija "pružanje softvera za javno dobro". Kao takva, Hadoop knjižnica je besplatni softver otvorenog koda dostupan svim programerima.


Temeljnu tehnologiju koja upravlja Hadoopom zapravo je izumio Google. Već u ranim danima, ne baš divovskoj tražilici bio je potreban način da indeksira ogromne količine podataka koje su prikupljali s Interneta i pretvorio ih u značajne, relevantne rezultate za svoje korisnike. Budući da na tržištu nema ništa što bi moglo udovoljiti njihovim zahtjevima, Google je izgradio vlastitu platformu.


Te su inovacije objavljene u otvorenom projektu Nutch, koji je Hadoop kasnije koristio kao temelj. U osnovi, Hadoop primjenjuje moć Googlea na velike podatke na način koji je pristupačan tvrtkama svih veličina.

Kako djeluje Hadoop?

Kao što smo već spomenuli, Hadoop nije jedna stvar - to su mnoge stvari. Hadoop-ova softverska knjižnica sastoji se od četiri osnovna dijela (modula) i niza dodatnih rješenja (poput baza podataka i programskih jezika) koji poboljšavaju njegovu uporabu u stvarnom svijetu. Četiri modula su:

  • Hadoop Common: Ovo je zbirka zajedničkih alata (zajedničke biblioteke) koja podržava Hadoop module.
  • Hadoop distribuirani datotečni sustav (HDFS): Robustan distribuirani datotečni sustav bez ograničenja na pohranjene podatke (što znači da podaci mogu biti strukturirani ili nestrukturirani i bez sheme, gdje će mnogi DFS pohraniti samo strukturirane podatke) koji omogućuje pristup visokoj propusnosti s redundancijom ( HDFS omogućuje pohranjivanje podataka na više strojeva - pa ako jedan stroj ne uspije, dostupnost se održava na ostalim strojevima).
  • Hadoop PRIJAVA: Ovaj je okvir odgovoran za raspoređivanje poslova i upravljanje resursima klastera; pazi da su podaci dovoljno raspoređeni na više strojeva za održavanje suvišnosti. YARN je modul koji Hadoop-u čini pristupačnim i ekonomičnim načinom za obradu velikih podataka.
  • Hadoop MapReduce: Ovaj sustav temeljen na YARN-u, izgrađen na Google tehnologiji, provodi paralelnu obradu velikih skupova podataka (strukturiranih i nestrukturiranih). MapReduce se može naći i u većini današnjih okvira za obradu podataka, uključujući MPP i NoSQL baze podataka.
Svi ovi moduli koji rade zajedno stvaraju distribuiranu obradu za velike skupove podataka. Hadoop okvir koristi jednostavne modele programiranja koji se repliciraju na klasterima računala, što znači da se sustav može povećati s jednog poslužitelja na tisuće strojeva za veću moć obrade, a ne oslanjajući se samo na hardver.


Hardver koji može podnijeti količinu procesorske snage koja je potrebna za rad s velikim podacima, skupo je, najblaže rečeno. Ovo je istinska inovacija tvrtke Hadoop: sposobnost da se razbije ogromna količina procesorske snage na više manjih strojeva, svaki sa svojim lokaliziranim računanjem i pohranom, zajedno s ugrađenom redundantnošću na razini aplikacije kako bi se spriječili kvarovi.

Što radi Hadoop?

Jednostavno rečeno, Hadoop velike podatke čini dostupnim i upotrebljivim svima.


Prije Hadoopa, tvrtke koje su koristile velike podatke učinile su to uglavnom s relacijskim bazama podataka i skladištima podataka poduzeća (koja koriste ogromne količine skupog hardvera). Iako su ovi alati izvrsni za obradu strukturiranih podataka - a to su podaci koji su već sortirani i organizirani na upravljiv način - kapacitet za obradu nestrukturiranih podataka bio je izuzetno ograničen, toliko da ih praktično nije bilo. Da bi bili upotrebljivi, podaci su prvo morali biti strukturirani tako da se uredno uklapaju u tablice.


Hadoop okvir mijenja taj zahtjev i to čini jeftino. Pomoću Hadoopa ogromne količine podataka od 10 do 100 gigabajta i više, strukturirane i nestrukturirane, mogu se obraditi korištenjem običnih (robnih) poslužitelja.


Hadoop donosi potencijalne velike podatkovne aplikacije za tvrtke svih veličina, u svakoj industriji. Okvir otvorenog koda omogućava financijskim tvrtkama da izrade sofisticirane modele za procjenu portfelja i analizu rizika, ili mrežnim trgovcima za precizno prilagođavanje njihovih odgovora na pretraživanje i usmjeravanje kupaca prema proizvodima za koje je vjerojatnije da će ih kupiti.


Kod Hadoopa su mogućnosti doista neograničene.

Što je $ @! je hadoop?