Među tehnološkim startapima, znanstvenik podataka sve je češći naziv koji se koristi za označavanje geekova podataka koji su u stanju premostiti tradicionalno odvojena funkcionalna područja podataka. Znanstvenik podataka je osoba koja ugodno provodi nekoliko (ako ne i svih) aspekata projekata podataka:
- Nabava podataka: To bi moglo značiti pisanje prilagođenih analizatora i web indeksiranja ili skripti koje ciljaju određene web usluge ili API-je za netradicionalne izvore podataka.
- Upravljanje podacima: ETL, manipuliranje, ispitivanje i održavanje podataka u bazama podataka, trgovinama ključeva i vrijednosti ili Hadoop.
- Vizualizacija informacija: Otkrivanje obrazaca korištenjem statičkih alata za vizualizaciju i / ili interaktivnih platformi temeljenih na Flash-u, JavaScript-u ili obradi.
- Analitika: ovo se može kretati od jednostavnih do složenih tehnika u multivarijantnoj statistici, strojnom učenju i NLP-u.
- Uvid: izdvojiti, sažeti i predstaviti ključna otkrića širokoj publici.
Mnogo je alata, vještina i tehničkih detalja, a možete provesti godine savladavajući svaku od gore navedenih stavki. Iako znanstvenik s podacima možda ne posjeduje istinsko stručno znanje u bilo kojem od područja, udoban je preskakati napred i nazad i izvršavati osnovne zadatke u svim njima. Rezultat je izvid podataka koji je dovoljno spretan da brzo istraži podatkovni projekt i proizvede odgovore na (visoka) pitanja uprave. (o znanstvenicima podataka u časopisu Data Scientist: Nove rock zvijezde svijeta tehnologije.)
Za njegovanje podataka, tvrtke se moraju više usredotočiti na kulturu i organizacijsku strukturu. Mnogi podatkovni radnici imaju dovoljno vještina i obuke za brzu produktivnost u mnogim područjima podataka. Problem je što većina ne radi u okruženjima koja ih potiču da postanu znanstvenici. Zaglavljeni su u silosu i ograničeni na jedno ili dva područja podataka. Često im je ograničeno korištenje alata koje su "menadžeri" odobrili.