Sadržaj:
- Definicija - Što znači vađenje tekstualnih podataka?
- Techopedia objašnjava rudanje tekstualnih podataka
Definicija - Što znači vađenje tekstualnih podataka?
Isključivanje tekstualnih podataka uključuje češljanje kroz tekstualni dokument ili resurs kako bi se dobili vrijedne strukturirane informacije. To zahtijeva sofisticirane analitičke alate koji obrađuju tekst kako bi se dobili točno određeni ključni podaci ili ključne podatkovne točke iz onih koji se smatraju relativno sirovim ili nestrukturiranim formatima.
Isključivanje tekstualnih podataka također je poznato i kao vađenje teksta ili analiza teksta.
Techopedia objašnjava rudanje tekstualnih podataka
U iskopavanju tekstualnih podataka inženjerski sustavi koriste stvari poput taksonomije i leksičke analize kako bi odredili koji su dijelovi teksta teksta vrijedni kao minirani podaci. Statistički modeli obično su korisni, a sustavi mogu koristiti heuristiku ili algoritamsko nagađanje kako bi pokušali odrediti koji su dijelovi teksta važni. Ostali upravljački sustavi uključuju označavanje i analizu ključnih riječi, gdje alati traže određene odgovarajuće imenice ili druge oznake i ključne riječi kako bi shvatili o čemu se piše.
Druga jedinstvena komponenta vađenja teksta često se naziva analizom osjećaja. U analizi osjećaja, koja je općenito mnogo teža od statističke analize, analitički alati pokušavaju odgonetnuti raspoloženje ili osjećaj iza pisanog teksta i drugih aspekata onoga čemu se obraćaju na vrlo subjektivnoj i intuitivnoj razini. Pojavom alata za umjetnu inteligenciju učinjen je značajan napredak u analizi osjećaja, tako da je moderno vađenje tekstualnih podataka više nego samo prikupljanje kvantitativnih referenci i uključivanje donošenja konceptualnih modela na visokoj razini za vađenje teksta kako bi se otkrili novi i jedinstveni načini za prikupljanje vrijednih podataka.
