Sadržaj:
- Mit: Svi su ispred nas u prihvaćanju velikih podataka.
- Mit: Imamo toliko podataka; ne trebamo brinuti o svakoj maloj manjkavosti podataka.
- Mit: Velika podatkovna tehnologija eliminirat će potrebu za integracijom podataka.
- Mit: Korištenje skladišta podataka za naprednu analitiku je besmisleno.
- Mit: Data lakes zamijenit će skladište podataka.
- Velika podatkovna djela - nove metode manipulacije podacima mogu
Još u svibnju 2014., Forrester Research izdao je dva izvještaja izvodeći određene zaključke o hypeu oko velikih podataka. Istraživačka tvrtka anketirala je više od 250 rukovoditelja marketinga i poslovnog razvoja. Prema autorima izvješća, velika retorika podataka uvijek je na najvišoj razini, a dobavljači tehnologije oglašavaju proizvode uz nevjerojatne tvrdnje.
Gartner se slaže s Forrester Researchom; značajan hype okružuje velike podatke. U izvješću iz rujna 2014. Gartner objavljuje pet najvećih mitova o podacima, a Gartner analitičari nude svoje mišljenje o tome što je pogrešno shvaćeno u vezi s velikim podacima i njihovom manipulacijom. Pa koji su najveći mitovi velikih podataka? Pogledajmo.
Mit: Svi su ispred nas u prihvaćanju velikih podataka.
Gartner kaže da je zanimanje za velike podatke neprestano visoko. Usprkos tome, slabih 13 posto ispitanih ima radne sustave. Razlog: većina tvrtki još nije utvrdila kako izmamiti bilo kakvu vrijednost iz velikih spremišta podataka. Ovdje je Gartnerova anketa optimističnija od Forresterovog izvješća, koja je otkrila da je samo 9 posto sudionika ankete reklo da planira primijeniti tehnologiju velikih podataka tijekom sljedeće godine. (Veliki podaci nude vam puno toga. Saznajte više u 5 stvarnih problema. Veliki podaci se mogu riješiti.)Mit: Imamo toliko podataka; ne trebamo brinuti o svakoj maloj manjkavosti podataka.
Gartner je zabrinut zbog podnošljivosti koju ljudi imamo: "Imamo toliko, malo što je loše, neće biti važno." Ted Friedman, potpredsjednik i ugledni analitičar iz Gartnera smatra da je to pogrešan način sagledavanja situacije.
"U stvarnosti, iako svaki pojedinačni nedostatak ima mnogo manji utjecaj na cijeli skup podataka nego što je bio slučaj kad je bilo manje podataka, postoji više nedostataka nego prije jer postoji više podataka", rekao je Friedman. "Stoga, ukupni utjecaj nekvalitetnih podataka na cijeli skup podataka ostaje isti."
Friedman dodaje još jedan razlog za zabrinutost. Zakup velikih podataka često uključuje podatke izvan tvrtke, koji su, dakle, nepoznate strukture i porijekla. To povećava mogućnost pogreške.
Mit: Velika podatkovna tehnologija eliminirat će potrebu za integracijom podataka.
Postoje dvije ključne strategije analize podataka koje se mogu primijeniti na velike podatke: "shema pri pisanju" ili "shema pri čitanju". Donedavno je jedina metoda korištena shema pisanja. Shema on read (Trenutna shema) u upravljanju bazama podataka. Za razliku od sheme pri pisanju, koja zahtijeva strukturirani format, podaci se učitavaju u baze podataka koje se čitaju na shemi u svom neobrađenom obliku. Tada programeri - koristeći nestrukturirane platforme baze podataka poput Hadoopa - odvode različite podatke u upotrebljiv format. Shema čitanja ima očite prednosti, ali kako Gartner spominje, integracija podataka se mora dogoditi u nekom trenutku.Mit: Korištenje skladišta podataka za naprednu analitiku je besmisleno.
Trošenje vremena za stvaranje skladišta podataka čini se besmislenim za mnoge upravitelje informacija, posebno kada se novozahvaćeni podaci razlikuju od podataka u skladištu podataka. Međutim, Gartner opet upozorava da će čak i napredna analiza podataka upotrijebiti skladišta podataka i nove podatke, što znači da integratori podataka moraju:- Pročistite nove vrste podataka kako bi ih učinili prikladnima za analizu
- Odlučite koji su podaci relevantni i koja je potrebna kvaliteta podataka
- Odredite kako objediniti podatke
- Shvatite da se preciziranje podataka može dogoditi na drugim mjestima osim skladišta podataka
Mit: Data lakes zamijenit će skladište podataka.
Jezera podataka su skladišta različitih podataka za razliku od skladišta podataka u kojima su podaci u strukturiranom formatu. Stvaranje podatkovnog jezera zahtijeva malo napretka (nema potrebe za formatiranjem podataka) u usporedbi sa skladištima podataka, zbog čega su podatkovna jezera od interesa.
Gartner naglašava da vlasništvo podataka nije smisao - poenta je da se manipulira snimljenim podacima radi informiranog odlučivanja. Štoviše, upotreba (pomalo nedokazanih) podataka za olakšavanje donošenja odluka je problematična.
"Skladišta podataka već imaju mogućnost za podršku širokom rasponu korisnika kroz organizaciju", rekao je Nick Heudecker, direktor istraživanja u Gartneru. "Čelnici za upravljanje informacijama ne moraju čekati da dođe do iskrcavanja podataka." (Saznajte više o prihvaćanju velikih podataka o 7 stvari koje morate znati o velikim podacima prije usvajanja.)
Velika podatkovna djela - nove metode manipulacije podacima mogu
Razlog zbog kojeg je Gartner rekao da su "mitovi o najvećim podacima" umjesto "mitovi s velikim podacima" postaje jasan nakon čitanja izvještaja. Gartner se ne usuđuje s velikim podacima. Gartner se nasmije onima koji osjećaju da su novije metode manipulacije velikim podacima spremne za "prime time".