Sadržaj:
Definicija - Što znači Outlier Detection?
Detekcija vanjštine je postupak otkrivanja i naknadnog isključivanja odmetnika iz danog skupa podataka.
Vanjski oblik može se definirati kao podatak ili opažanje koji drastično odstupa od zadane norme ili prosjeka skupa podataka. Vanjski oblik može biti uzrokovan samo slučajno, ali može ukazivati i na pogrešku u mjerenju ili da navedeni skup podataka ima raspodjelu s velikim rezom.
Ovdje je jednostavan scenarij u otkrivanju vanjskih dijelova, postupak mjerenja dosljedno proizvodi očitanja između 1 i 10, ali u nekim rijetkim slučajevima dobivamo mjerenja veća od 20.
Ova rijetka mjerenja koja su izvan norme nazivaju se izvanzemaljcima jer "leže izvan" normalne krivulje raspodjele.
Tehopedia objašnjava Outlier Detection
Doista ne postoji standardizirana i kruta matematička metoda za određivanje vanjske veličine jer ona zapravo varira ovisno o skupu podataka ili grupi podataka, pa njegovo određivanje i otkrivanje u konačnici postaje subjektivno. Kontinuiranim uzorkovanjem u određenom podatkovnom polju mogu se uspostaviti karakteristike vanjske skupine kako bi se olakšalo otkrivanje.
Postoje metode utemeljene na modelu za otkrivanje izdanaka i oni pretpostavljaju da su svi podaci uzeti iz normalne distribucije i da će identificirati opažanja ili točke, za koje se smatra da su malo vjerojatne na temelju srednje ili standardne devijacije, kao odmetnici. Postoji nekoliko metoda za otkrivanje vanjskih dijelova:
- Grubb-ov test za odmetnike - To se temelji na pretpostavci da su podaci normalne distribucije i uklanja jedno odijelo u vrijeme, pri čemu se test ponavlja, sve dok se ne mogu pronaći više odmetnici.
- Dixonov Q test - Također temeljen na normalnosti skupa podataka, ova metoda testira loše podatke. Primijećeno je da se u skupu podataka to treba koristiti štedljivo, a ne više puta.
- Chauvenetov kriterij - koristi se za analizu je li odbojnik lažan ili je još uvijek unutar granica i smatra li se dijelom skupa. Uzmu se srednje i standardno odstupanje te se izračunava vjerojatnost pojave vanjskog oblika. Rezultati će odrediti treba li je uključiti ili ne.
- Pierceov kriterij - Granica pogreške postavljena je za niz promatranja, izvan kojih će se sva opažanja odbaciti jer već uključuju tako veliku pogrešku.