Dom zvučni Zašto pakiranje u strojnom učenju smanjuje varijancu?

Zašto pakiranje u strojnom učenju smanjuje varijancu?

Anonim

P:

Zašto pakiranje u strojnom učenju smanjuje varijancu?

A:

Agregiranje početnog pokretanja ili "pakiranje" u strojnom učenju smanjuje varijancu izgradnjom naprednijih modela složenih skupova podataka. Konkretno, pristup pakiranju stvara podskupove koji se često preklapaju kako bi se podaci modelirali na aktivniji način.

Jedna zanimljiva i jasna ideja o načinu nanošenja vreća je uzimanje skupa slučajnih uzoraka i ekstrakcija jednostavne srednje vrijednosti. Zatim, koristeći isti skup uzoraka, stvorite desetke podskupova izgrađenih kao stabla odluka kako biste manipulirali eventualnim rezultatima. Druga sredina trebala bi pokazati istinitiju sliku međusobnog odnosa tih pojedinačnih uzoraka. Ista ideja može se primijeniti na bilo koje svojstvo bilo kojeg skupa podataka.

Besplatno preuzimanje: Strojno učenje i zašto je to važno

Budući da ovaj pristup objedinjuje otkriće u više definirane granice, smanjuje varijancu i pomaže pri prekomjernom uklapanju. Pomislite na rasipanje vode s pomalo raspodijeljenim podatkovnim točkama; Primjenom metode pakiranja inženjeri "smanjuju" složenost i usmjeravaju linije otkrivanja na glatke parametre.

Neki govore o vrijednosti vreća kao "podijeli i osvoji" ili vrsti "potpomognute heuristike". Ideja je da pomoću modeliranja ansambla, poput korištenja slučajnih šuma, oni koji koriste vreće kao tehniku ​​mogu dobiti rezultate podataka koji su niži u varijanti. U smislu smanjenja složenosti, pakiranje također može pomoći u prekomjernom opremanju. Zamislite model s previše podataka: recimo, povežite točke sa 100 neusklađenih točaka. Rezultirajuća linija vizualnih podataka bit će nazubljena, dinamična, isparljiva. Potom varijantu "izgladite" sastavljanjem skupa ocjena. U ansamblovom učenju ovo se često misli kao spajanje nekoliko "slabih učenika" kako bi se postigao zajednički rezultat "jakog učenja". Rezultat je glatnija, više konturirana linija podataka i manje divlja varijanca u modelu.

Lako je vidjeti kako se ideja pakiranja može primijeniti na IT informatičke sustave. Poslovni lideri često žele "pogled iz ptičje perspektive" na ono što se događa s proizvodima, kupcima itd. Prenaponski model može vratiti manje probavljive podatke i više "raspršenih" rezultata, gdje pakiranje može "stabilizirati" model i učiniti ga korisnijim krajnjim korisnicima.

Zašto pakiranje u strojnom učenju smanjuje varijancu?