P:
Može li ikad biti previše podataka u velikim podacima?
A:Odgovor na pitanje odjekuje DA. U velikom projektu podataka može apsolutno biti previše podataka.
Postoje brojni načini na koje se to može dogoditi i razni razlozi zbog kojih profesionalci trebaju ograničiti i očistiti podatke na bilo koji broj načina da bi postigli prave rezultate. (Pročitajte 10 velikih mitova o velikim podacima.)
Općenito, stručnjaci govore o razlikovanju "signala" od "buke" u modelu. Drugim riječima, u moru velikih podataka relevantne uvidne podatke postaje teško ciljati. U nekim slučajevima tražite iglu u sijenu.
Na primjer, pretpostavimo da tvrtka pokušava koristiti velike podatke za generiranje konkretnih uvida u segment klijentske baze i njihove kupnje u određenom vremenskom okviru. (Pročitajte što rade veliki podaci?)
Uzimanje ogromne količine podataka može rezultirati unosom slučajnih podataka koji nisu relevantni, ili čak može proizvesti pristranost koja podatke skenira u jednom ili drugom smjeru.
To također usporava proces dramatično, jer se računalni sustavi moraju boriti sa sve većim i većim nizovima podataka.
U toliko mnogo različitih projekata, inženjerima podataka izuzetno je važno obraditi podatke u ograničenim i posebnim skupima podataka - u gornjem će slučaju to biti samo podaci za taj segment klijenata koji se proučavaju, samo podaci za to vrijeme okvir koji se proučava i pristup koji otklanja dodatne identifikatore ili pozadinske informacije koje mogu zbuniti stvari ili usporiti sustave. (Uloga ReadJob: Inženjer podataka.)
Za više, pogledajmo kako to djeluje na granici strojnog učenja. (Pročitajte strojno učenje 101.)
Stručnjaci za strojno učenje govore o nečemu što se naziva "prekomjerno opremanje" gdje pretjerano složen model dovodi do manje učinkovitih rezultata kada je program strojnog učenja labav na novim proizvodnim podacima.
Prekomjerno uklapanje događa se kada složeni skup podataka podataka dobro odgovara početnom setu treninga i ne dopušta programu da se lako prilagodi novim podacima.
Tehnički gledano, prekomjerno opremanje uzrokovano nije postojanjem previše uzoraka podataka, već koronacijom previše točaka podataka. Ali možete tvrditi da i previše podataka može biti faktor koji doprinosi ovoj vrsti problema. Suočavanje s prokletstvom dimenzionalnosti uključuje neke iste tehnike koje su rađene u ranijim projektima velikih podataka kao što su profesionalci pokušali odrediti čime se hrane IT sustavi.
Suština je da veliki podaci mogu biti od velike pomoći tvrtkama ili mogu postati veliki izazov. Jedan aspekt toga je ima li tvrtka prave podatke u igri. Stručnjaci znaju da nije preporučljivo jednostavno baciti sva sredstva podataka u spremnik i na taj način smisliti uvide - u novim izvornim oblacima i sofisticiranim podatkovnim sustavima postoji napor da se kontrolira i upravlja i obrađuje podatke kako bi se dobili precizniji i jasniji podaci učinkovita uporaba sredstava podataka.