Sadržaj:
- Kako se koriste veliki podaci
- Gdje je prava vrijednost?
- Ponekad mali podaci čine veći (i manje skuplji) učinak
Veliki podaci je debela riječ koja se koristi za obradu s velikim količinama podataka. Svi razumijemo da što je veća količina podataka, ona postaje složenija. Tradicionalna rješenja baza podataka često ne uspijevaju pravilno upravljati velikim količinama podataka zbog njihove složenosti i veličine. Stoga je upravljanje velikim količinama podataka i dobivanje stvarnog uvida težak zadatak. Isti koncept vrijednosti vrijedi i za male podatke.
Kako se koriste veliki podaci
Konvencionalna rješenja baza podataka utemeljena na RDBMS konceptu mogu vrlo dobro upravljati transakcijskim podacima i naširoko se koriste u različitim aplikacijama. Ali kada je u pitanju rukovanje velikim nizom podataka (podaci koji su arhivirani i nalaze se u terabajtima ili petabajtima), ova rješenja baze podataka često ne uspijevaju. Ti su skupovi podataka preveliki i većinu vremena se ne uklapaju u arhitekturu tradicionalnih baza podataka. Ovih su dana veliki podaci postali isplativ pristup obradi većih skupina podataka. S organizacijskog stajališta, upotreba velikih podataka može se podijeliti u sljedeće kategorije, gdje stvarna vrijednost velikih podataka leži:- Analitička uporaba
Analitičari velikih podataka otkrili su mnoge važne skrivene aspekte podataka koji su previše skupi za obradu. Na primjer, ako moramo provjeriti trend zanimanja učenika za određenu novu temu, to možemo učiniti analizom dnevnih evidencija o pohađanju i drugim društvenim i geografskim činjenicama. Te se činjenice bilježe u bazi podataka. Ako ne možemo pristupiti tim podacima na učinkovit način, ne možemo vidjeti rezultate.
- Omogući nove proizvode
U nedavnoj prošlosti puno novih web kompanija, poput Facebooka, počele su koristiti velike podatke kao rješenje za pokretanje novih proizvoda. Svi znamo koliko je Facebook popularan - uspješno je pripremio korisničko iskustvo visokih performansi koristeći velike podatke.
Gdje je prava vrijednost?
Različita rješenja velikih podataka razlikuju se u pristupu pohrane podataka, ali na kraju, oni pohranjuju podatke u ravnu strukturu datoteka. Općenito, Hadoop se sastoji od datotečnog sustava i nekih apstrakcija podataka na razini operacijskog sustava. To uključuje MapReduce motor i Hadoop Distribuirani datotečni sustav (HDFS). Jednostavan Hadoop klaster uključuje jedan glavni čvor i nekoliko radnih čvorova. Glavni čvor sastoji se od sljedećeg:- Tragač zadataka
- Tragač za poslom
- Naziv čvora
- Čvor podataka
- Tragač zadataka
- Čvor podataka
Neke implementacije imaju samo čvor podataka. Čvor podataka je stvarno područje na kojem se nalaze podaci. HDFS pohranjuje velike datoteke (u rasponu od terabajta do petabajta) distribuirane na više strojeva. Pouzdanost podataka na svakom čvoru postiže se umnožavanjem podataka na svim domaćinima. Dakle, podaci su dostupni čak i kad je jedan od čvorova dolje. Ovo pomaže u postizanju bržeg odgovora na upite. Ovaj je koncept vrlo koristan u slučaju ogromnih aplikacija poput Facebooka. Kao korisnik, na primjer, gotovo odmah se dobije odgovor na naš zahtjev za chat. Razmislite o scenariju u kojem korisnik mora dugo čekati dok razgovara. Ako se poruka i sljedeći odgovor ne dostave odmah, koliko će ljudi zapravo koristiti te alate za razgovor?
Povratak na implementaciju Facebooka, ako se podaci ne kopiraju na klasterima, neće biti moguće primamljiva implementacija. Hadoop podatke distribuira na strojevima u većem klasteru i pohranjuje datoteke u redoslijed blokova. Ti su blokovi identične veličine osim zadnjeg bloka. Veličina bloka i faktora replikacije mogu se prilagoditi prema potrebi. Datoteke u HDFS strogo slijede pristup pisanja jednom te ih istovremeno može pisati ili uređivati samo jedan korisnik. Odluke o replikaciji blokova donose imenski čvor. Čvor naziva prima izvješća i odgovore pulsa iz svakog od čvorova podataka. Reakcije impulsa osiguravaju dostupnost odgovarajućeg čvora podataka. Izvješće sadrži detalje blokova na čvoru podataka.
Druga velika implementacija podataka, Cassandra, također koristi sličan koncept distribucije. Cassandra distribuira podatke na temelju zemljopisnog položaja. Stoga se u Cassandri podaci segregiraju na temelju zemljopisnog položaja uporabe podataka.
Ponekad mali podaci čine veći (i manje skuplji) učinak
Prema Rufusu Pollocku iz Fondacije Otvoreno znanje, nema smisla stvarati hipere oko velikih podataka, dok mali podaci i dalje predstavljaju mjesto na kojem leži prava vrijednost.
Kao što ime sugerira, mali podaci su skup podataka ciljanih iz većeg skupa podataka. Mali podaci namjeravaju preusmjeriti težište s upotrebe podataka, a također imaju cilj suprotstaviti se trendu kretanja prema velikim podacima. Pristup malih podataka pomaže u prikupljanju podataka na temelju specifičnih zahtjeva uz manje napora. Kao rezultat, to je učinkovitija poslovna praksa tijekom primjene poslovne inteligencije.
U osnovi se pojam malih podataka vrti oko poduzeća koja zahtijevaju rezultate koji zahtijevaju daljnje postupke. Ti bi se rezultati trebali brzo pronaći, a naredne akcije također bi trebale biti brzo izvedene. Na taj način možemo eliminirati vrste sustava koji se obično koriste u analizi velikih podataka.
Općenito, ako razmotrimo neke specifične sustave koji su potrebni za prikupljanje velikih podataka, tvrtka bi mogla uložiti u postavljanje velikog broja skladišnih poslužitelja, koristiti sofisticirane servere visokog cenovnog razreda i najnovije aplikacije za vađenje podataka za obradu različitih bita podataka, uključujući datume i vrijeme korisničkih radnji, demografske i druge informacije. Cijeli ovaj skup podataka premješta se u središnje skladište podataka, gdje se složeni algoritmi koriste za razvrstavanje i obradu podataka za prikaz u obliku detaljnih izvještaja.
Svi znamo da su ta rješenja imala koristi mnogim poduzećima u smislu skalabilnosti i dostupnosti; postoje organizacije koje otkrivaju da je za prihvaćanje ovih pristupa potreban značajan napor. Istina je i da se u nekim slučajevima slični rezultati postižu korištenjem manje robusne strategije vađenja podataka.
Mali podaci pružaju mogućnost organizacijama da se odvoje od opsjednutosti najnovijim i najnovijim tehnologijama koje podržavaju sofisticiranije poslovne procese. Tvrtke koje promoviraju male podatke tvrde da je s poslovnog stajališta važno koristiti svoje resurse na učinkovit način, tako da se u određenoj mjeri može izbjeći prekomjerna potrošnja tehnologije.
Mnogo smo razgovarali o velikim podacima i malim stvarnostima podataka, ali moramo razumjeti da je odabir ispravne platforme (velikih podataka ili malih podataka) za ispravnu upotrebu najvažniji dio cijele vježbe. I istina je da iako veliki podaci mogu pružiti mnogo prednosti, to nije uvijek najbolje.