P:
Kako je struganje podataka za strojnim učenjem postalo najuzbiljnije usko grlo od ručnog unosa podataka u naslijeđenu migraciju?
A:Jedan od praktičnih problema s kojima se kompanije mogu susresti pri pokušaju pokretanja projekta strojnog učenja (ML) je izazov nabave inicijalnih skupova podataka o obuci. To može uključivati radno intenzivne procese poput mrežnog strugotine ili drugih podataka.
Pojmovi mrežno struganje i struganje podataka uglavnom se odnose na automatizirane aktivnosti računalnog softvera, ali za mnoge projekte ML-a postojat će slučajevi kada računala nemaju sofisticiranost za prikupljanje ispravnih ciljanih podataka, pa će to morati biti učinjeno "ručno." Ovo biste mogli nazvati "struganje ljudskog weba / podataka" i to je nezahvalan posao. To obično uključuje izlazak i traženje podataka ili slika za "hranjenje" ML programa kroz trening programe. Često je prilično iterativan, što ga čini napornim, tromim i zahtjevnim radom.
Besplatno preuzimanje: Strojno učenje i zašto je to važno |
Izrada podataka za setove ML-a predstavlja jedinstveno problematično usko mjesto u strojnom učenju, dijelom i zato što je toliko mnogo drugog rada vrlo konceptualno i ne ponavljano. Mnogi ljudi mogu smisliti novu aplikaciju koja obavlja zadatke strojnog učenja, ali matice i vijci te praktični rad mogu biti puno teži. Konkretno, delegiranje rada na sastavljanju kompleta za trening zapravo može biti jedan od najtežih dijelova ML-projekta, što je u potpunosti istraženo u TV emisiji Mike Judgea „Silicijska dolina“. U četvrtoj sezoni epizode, početnik poduzetnik prvo maltretira partnera u obavljanju napornog posla, a zatim to pokušava prenijeti studentima na koledžima, pretvarajući ga u domaći zadatak.
Ovaj je primjer poučan jer pokazuje koliko ne volim i naizgled beznačajno ručno struganje podataka. Međutim, također pokazuje da je ovaj postupak potreban za širok spektar proizvoda strojnog učenja. Iako većina ljudi mrzi unos podataka, skupovi treninga moraju se sastaviti na neki način. Stručnjaci za taj postupak često preporučuju korištenje usluge mrežnog grebanja - u osnovi samo prenošenje ovog vrlo napornog rada na vanjske strane, ali to bi moglo imati sigurnosne posljedice i uzrokovati druge probleme. Ponovno treba voditi računa o tome da rad ručnog prikupljanja podataka bude predviđen za postupak koji je često vrlo ručan i dugotrajan proces.
Na neki način, „struganje ljudskih podataka“ za strojno učenje izgleda kao ručni unos podataka koji se ponekad morao učiniti u starom preseljenju. Kako je oblak postajao sve popularniji, a tvrtke stavljaju svoje procese i radne tijekove u oblak, neke su otkrile da nisu proradile praktične aspekte kako u korporativne podatke iz izoliranog nasljeđenog sustava prebaciti u aplikacije utemeljene na oblaku. Kao rezultat, neki ljudi koji su inače znanstvenici podataka ili kreativni ljudi s ključnim informatičkim vještinama našli su se da rade neugodne zadatke za unos podataka.
Isto se vjerojatno događa s strojnim učenjem. Možda ćete čuti znanstvenika s podacima koji se žali kako sam "kreativna osoba" ili "na strani sam razvoja" - ali netko mora obaviti prljav posao.
Ponovno, ako kreativni tijek ne odgovara praktičnom procjenom delegiranja radnog tijeka, postojat će nesklad u načinu usmjeravanja zadataka. Kad tvrtka nema ljude koji bi obavljali poslove brisanja podataka u prikupljanju skupova podataka, nedostaje ključni dio lanca postupka za uspješan projekt. Vrijedno je to imati na umu u svakom trenutku kad tvrtka pokuša napraviti dobru ideju koja se temelji na razvoju novih aplikacija za strojno učenje.