Dom trendovi 7 Što treba znati o hadoopu

7 Što treba znati o hadoopu

Sadržaj:

Anonim

Što je Hadoop? To je žuti slon od igračaka. Nije ono što ste očekivali? Kako bi bilo o ovome: Doug Cutting - ko-tvorac ovog softverskog projekta s otvorenim kodom - ime je posudio od svog sina koji je slučajno nazvao svog igračkog slona Hadoopa. Ukratko, Hadoop je programski okvir razvijen od strane Apache Software Foundation koji se koristi za razvoj raspodijeljenog računanja koji zahtijeva podatke. A ključna je komponenta u drugom čitatelju buzzword-a koji nikada ne može dobiti dovoljno: velikih podataka. Evo sedam stvari koje biste trebali znati o ovom jedinstvenom, besplatno licenciranom softveru.

Kako je Hadoop započeo?

Prije dvanaest godina Google je izgradio platformu za manipulaciju ogromnim količinama podataka koje je prikupljao. Kao što to tvrtka često čini, i Google je svoj dizajn učinio dostupnim javnosti u obliku dvaju radova: Google File System i MapReduce.


U isto vrijeme, Doug Cutting i Mike Cafarella radili su na Nutchu, novoj tražilici. Njih dvoje su se također borili kako obrađivati ​​velike količine podataka. Tada su dvojica istraživača dobili vijest o Googleovim radovima. Taj sretan presjek promijenio je sve uvodeći Cutting i Cafarella u bolji datotečni sustav i način za praćenje podataka, što je na kraju dovelo do stvaranja Hadoopa.

Što je toliko važno u vezi s Hadoopom?

Danas je prikupljanje podataka lakše nego ikad. Imati sve ove podatke pruža mnogo mogućnosti, ali postoje i izazovi:

  • Ogromne količine podataka zahtijevaju nove metode obrade.
  • Podaci koji se snimaju u nestrukturiranom su obliku.
Da bi riješili izazove manipulacije ogromnim količinama nestrukturiranih podataka, Cutting i Cafarella smislili su dvodijelno rješenje. Da bi riješio problem s količinom podataka, Hadoop zapošljava distribuirano okruženje - mrežu robnih poslužitelja - stvarajući klaster paralelne obrade, koji donosi više snage obrade u odnosu na dodijeljeni zadatak.


Zatim su morali rješavati nestrukturirane podatke ili podatke u formatima koji standardni sustavi relacijskih baza podataka nisu mogli obraditi. Cutting i Cafarella dizajnirali su Hadoop za rad s bilo kojom vrstom podataka: strukturiranim, nestrukturiranim, slikama, audio datotekama, čak i tekstom. Ovaj Cloudera (Hadoop integrator) bijeli papir objašnjava zašto je to važno:

    "Čineći sve svoje podatke upotrebljivim, a ne samo ono što se nalazi u vašim bazama podataka, Hadoop vam omogućuje otkrivanje skrivenih odnosa i otkriva odgovore koji su uvijek bili nedostupni. Možete početi donositi više odluka na temelju teških podataka, umjesto lova i gledati na kompletnim skupima podataka, a ne samo uzoraka i sažetaka. "

Što je shema na čitanju?

Kao što je već spomenuto, jedna od prednosti Hadoopa je njegova sposobnost da obrađuje nestrukturirane podatke. U određenom smislu, to je "udaranje limenke niz cestu." Podaci na kraju trebaju neku vrstu strukture da bi ih mogli analizirati.


Tu se pojavljuje shema čitanja. Čitana shema je rješavanje u kojem se formatu podaci nalaze, gdje možete pronaći podatke (zapamtite da su podaci raštrkani na nekoliko poslužitelja) i što treba učiniti s podacima - nije jednostavan zadatak. Govorilo se da manipulacija podacima u Hadoop sustavu zahtijeva vještine poslovnog analitičara, statističara i Java programera. Nažalost, nema puno ljudi s tim kvalifikacijama.

Što je košnica?

Ako bi Hadoop uspio, rad s podacima morao je biti pojednostavljen. Dakle, grupa otvorenog koda je započela s radom i stvorila košnicu:

    "Hive pruža mehanizam za strukturiranje tih podataka i ispitivanje podataka koristeći jezik sličan SQL-u pod nazivom HiveQL. Istovremeno, ovaj jezik također omogućuje tradicionalnim programerima za mapiranje / smanjivanje da uključe svoje prilagođene preslikače i reduktore kada je to nezgodno ili neučinkovito za izražavanje ove logike u HiveQLu. "

Hive omogućuje najbolje iz oba svijeta: osoblje baze podataka upoznato sa SQL naredbama može manipulirati podacima, a programeri upoznati sa shemom u procesu čitanja još uvijek mogu kreirati prilagođene upite.

Kakve podatke analizira Hadoop?

Web analitika je prvo što vam padne na pamet, analiza web dnevnika i web prometa radi optimizacije web stranica. Facebook, na primjer, definitivno se bavi web analitikom, koristeći Hadoop za razvrstavanje terabajta podataka koje tvrtka skuplja.


Tvrtke koriste Hadoop klastere za analizu rizika, otkrivanje prijevara i segmentaciju na osnovi kupaca. Komunalne tvrtke koriste Hadoop za analizu podataka senzora iz njihove električne mreže, omogućujući im da optimiziraju proizvodnju električne energije. Velike tvrtke poput Target, 3M i Medtronics koriste Hadoop za optimizaciju distribucije proizvoda, procjene poslovnog rizika i segmentacije na osnovi kupaca.


I u Hadoop se ulažu sveučilišta. Brad Rubin, izvanredni profesor na Sveučilišnom St. Thomas diplomskom programu iz softvera, spomenuo je da njegova stručnost Hadoop pomaže sortirati kroz obilne podatke prikupljene od strane istraživačkih skupina na sveučilištu.

Možete li dati primjer Hadoopa u stvarnom svijetu?

Jedan od poznatijih primjera je TimesMachine. New York Times ima zbirku TIFF slika na cijelim stranicama novina, povezanih metapodataka i teksta članka od 1851. do 1922. godine, što iznosi terabajt podataka. Derek Gottfrid na NYT-u, koji koristi EC2 / S3 / Hadoop sustav i specijalizirani kod:

    "Uneseno je 405.000 vrlo velikih TIFF slika, 3.3 milijuna članaka u SGML-u i 405.000 xml datoteka koji preslikavaju članke u pravokutne regije u TIFF-ovima. Ovi podaci pretvoreni su u web-prihvatljivije 810.000 PNG slika (sličice i pune slike) i 405.000 JavaScript datoteka. "

Koristeći poslužitelje u oblaku Amazon Web Services, Gottfrid je spomenuo da su mogli obraditi sve podatke potrebne za TimesMachine za manje od 36 sati.

Je li Hadoop već zastario ili se samo pretvara?

Hadoop postoji već više od desetljeća. Mnogi kažu da je zastario. Jedan stručnjak, dr. David Rico, rekao je da su "IT proizvodi kratkotrajni. U paskim godinama Googleovi proizvodi su oko 70, dok je Hadoop 56."


Možda postoji istina o onome što Rico kaže. Čini se da je Hadoop prošao kroz glavni remont. Kako bih saznao više o tome, Rubin me pozvao na sastanak korisničke grupe Twin Cities Hadoop, a tema razgovora bila je Uvod u PRIJAVU:

    "Apache Hadoop 2 uključuje novi MapReduce motor koji ima niz prednosti u odnosu na prethodnu implementaciju, uključujući bolju skalabilnost i korištenje resursa. Nova implementacija izgrađena je na općem sustavu upravljanja resursima za pokretanje distribuiranih aplikacija koji se zove YARN."
Hadoop dobiva puno zujanja u krugovima za upravljanje bazama podataka i sadržajem, ali još uvijek postoji mnogo pitanja oko toga i kako se najbolje može koristiti. Ovo je samo nekoliko. Ako ih imate više, pošaljite ih našim putem. Odgovorit ćemo najboljima na Techopedia.com.

7 Što treba znati o hadoopu