Dom trendovi Kako hadoop pomaže u rješavanju problema s velikim podacima

Kako hadoop pomaže u rješavanju problema s velikim podacima

Sadržaj:

Anonim

Veliki podaci su … pa … velike veličine! Točno koliko se podaci mogu klasificirati kao veliki podaci nije baš jasno, pa se nemojmo zamarati u toj raspravi. Za malu tvrtku koja se koristi s podacima u gigabajtima, 10 TB podataka bilo bi VELIKO. No za tvrtke poput Facebooka i Yahooa petabajti su veliki.


Upravo veličina velikih podataka onemogućuje ih (ili barem previsoke troškove) za pohranu u tradicionalnu pohranu, poput baza podataka ili uobičajenih datoteka. Govorimo o troškovima za pohranu gigabajta podataka. Korištenje tradicionalnih datoteka za pohranu može koštati mnogo novca za pohranu velikih podataka.


Ovdje ćemo pogledati velike podatke, njihove izazove i kako Hadoop može pomoći u njihovom rješavanju. Prvo, najveći izazovi velikih podataka.


Veliki podaci su nestrukturirani ili polustrukturirani

Mnogo je velikih podataka nestrukturirano. Na primjer, podaci dnevnika strujanja klika mogu izgledati:


vremenska oznaka, user_id, stranica, reference_page


Nedostatak strukture čini da relacijske baze podataka nisu baš prikladne za pohranu velikih podataka. Osim toga, nema mnogo baza podataka može se nositi s pohranjivanjem milijardi redaka podataka.

Nema smisla čuvati velike podatke ako ih ne možemo obraditi

Spremanje velikih podataka dio je igre. Moramo ga obraditi da bismo iz njega iskoristili inteligenciju. Tradicionalni skladišni sustavi prilično su "glupi" u smislu da samo pohranjuju bitove. Ne nude nikakvu moć obrade.


Tradicionalni model obrade podataka sadrži podatke pohranjene u skladišnom klasteru, koji se kopiraju u računalni klaster za obradu. Rezultati se vraćaju na skladište.


Ovaj model, međutim, ne djeluje baš na velike podatke jer kopiranje toliko podataka u računalni klaster može biti predugo ili nemoguće. Pa, što je odgovor?


Jedno rješenje je obrada velikih podataka na mjestu, primjerice u klasteru za pohranu, udvostručenim kao računski klaster.


Kao što smo vidjeli gore, veliki podaci prkose tradicionalnoj pohrani. Pa kako postupiti s velikim podacima?

Kako Hadoop rješava problem s velikim podacima

Hadoop je stvoren da radi na grupi strojeva

Počnimo s primjerom. Recimo da trebamo pohraniti puno fotografija. Počet ćemo s jednim diskom. Kad premašimo jedan disk, na stroju možemo upotrijebiti nekoliko diskova. Kada maksimiziramo sve diskove na jednom stroju, trebamo nabaviti gomilu strojeva, svaki s hrpom diskova.


Upravo tako je izgrađen Hadoop. Hadoop je dizajniran da radi na grupi strojeva od početka.



Hadoop nakupine horizontalno se skaliraju

Veća pohrana i računska snaga može se postići dodavanjem više čvorova u Hadoop skupinu. To eliminira potrebu za kupnjom sve snažnijeg i skupljeg hardvera.


Hadoop može obraditi nestrukturirane / polustrukturirane podatke

Hadoop ne nameće shemu podataka koje pohranjuje. Može upravljati proizvoljnim tekstom i binarnim podacima. Tako Hadoop može lako probaviti sve nestrukturirane podatke.


Hadoop klasteri pružaju pohranu i računanje

Vidjeli smo kako odvajanje zasebnih klastera za pohranu i obradu ne najbolje odgovara velikim podacima. Hadoop klasteri, međutim, nude pohranu i raspodijeljeno računanje sve u jednom.

Poslovni slučaj za Hadoop

Hadoop nudi pohranu velikih podataka uz razumne troškove

Spremanje velikih podataka pomoću tradicionalne pohrane može biti skupo. Hadoop je izgrađen oko robnog hardvera, tako da može osigurati prilično veliku pohranu za razumne troškove. Hadoop se koristio na terenu u skali petabajta.


Jedno istraživanje Cloudere sugerira da poduzeća obično troše oko 25 000 do 50 000 USD po terabajtu godišnje. Kod Hadoopa ovaj trošak pada na nekoliko tisuća dolara po terabajtu godišnje. Kako hardver postaje sve jeftiniji i jeftiniji, taj trošak i dalje opada.


Hadoop omogućuje snimanje novih ili više podataka

Ponekad organizacije ne bilježe vrstu podataka jer ih je previše koštalo pohranjivanje. Budući da Hadoop nudi pohranu po razumnim troškovima, ova vrsta podataka može se snimiti i pohraniti.


Jedan primjer bi bili dnevnici klikova na web mjestu. Kako je količina ovih zapisnika vrlo velika, nije ih zabilježilo mnogo organizacija. Sada je s Hadoopom moguće snimanje i spremanje trupaca.


Pomoću Hadoopa možete duže pohraniti podatke

Za upravljanje količinom pohranjenih podataka tvrtke povremeno pročišćavaju starije podatke. Na primjer, mogu se pohraniti samo dnevnici za posljednja tri mjeseca, dok su stariji dnevnici izbrisani. S Hadoopom je moguće duže pohranjivanje povijesnih podataka. To omogućava izradu nove analitike na starijim povijesnim podacima.


Na primjer, uzmite zapise o klikovima s web lokacije. Prije nekoliko godina ti su zapisi bili pohranjeni na kratko vrijeme kako bi se izračunali statistički podaci poput popularnih stranica. S Hadoopom je izvedivo spremanje ovih zapisnika o klikom duže vrijeme.


Hadoop pruža skalabilnu analitiku

Nema smisla pohranjivati ​​sve ove podatke ako ih ne možemo analizirati. Hadoop ne samo da nudi distribuiranu pohranu, već i distribuiranu obradu, što znači da možemo paralelno drobiti veliku količinu podataka. Okvir računanja Hadoopa naziva se MapReduce. MapReduce je dokazano na skali od petabajta.


Hadoop pruža bogatu analitiku

Native MapReduce podržava Java kao primarni programski jezik. Također se mogu koristiti i drugi jezici poput Ruby, Python i R.


Naravno, pisanje prilagođenog MapReduce koda nije jedini način za analizu podataka u Hadoopu. Dostupno je smanjenje karte na višoj razini. Na primjer, alat nazvan Svinja preuzima engleski jezik kao protok podataka i prevodi ih u MapReduce. Drugi alat, Hive, uzima SQL upite i izvodi ih koristeći MapReduce.


Alati poslovne inteligencije (BI) mogu pružiti još višu razinu analize. Postoje alati i za ovu vrstu analize.


Sadržaj je izvađen iz "Hadoop Illuminated" Marka Kerznera i Sujee Maniyam. Omogućeno je putem Creative Commons Attribution-NonCom Commercial-ShareAlike 3.0 neporažene licence.

Kako hadoop pomaže u rješavanju problema s velikim podacima