Dannelse, Videregående utdanning og skoler
Nærmeste nabo metode: eksempel på arbeid
nærmeste nabo-metoden er den enkleste metrisk klassifiseringsenhet som er basert på evaluering av likheten av forskjellige gjenstander.
Analysert gjenstand hører til klassen som de tilhører emner av trening prøven. La oss finne ut noe som er nærmeste nabo. Prøv å forstå den kompliserte saken, eksempler på ulike teknikker.
hypotese metode
nærmeste nabo metode kan betraktes som den mest vanlige algoritmen som brukes for klassifisering. Objekt under klassifisering tilhører klassen y_i, som det nærmeste objektet lære x_i prøven.
Spesifisitet av metoder nærmeste naboer
k nærmeste nabo metoden kan forbedre nøyaktigheten av klassifiseringen. Analysert gjenstand tilhører den samme klasse som hoveddelen av sine naboer, det vil si k nær det gjenstander av den analyserte prøven x_i. I å løse problemer med to klasser av antall naboer vil være rart å unngå en situasjon med tvetydighet, hvis samme antall naboer vil tilhøre forskjellige klasser.
Teknikken med senkede naboer
PostgreSQL-analysert metode tsvector nærmeste naboer brukes når antall klasser minst tre, og du kan ikke bruke et oddetall. Men tvetydighet oppstår også i disse tilfellene. Deretter i-te nabo får w_i vekt, noe som minsker med naboen rang i. Det refererer til den klasse av objektet, noe som vil ha en maksimal totalvekt blant nære naboer.
Hypotesen om kompakthet
I hjertet av alle de ovennevnte fremgangsmåter er hypotesen om kompakthet. Det tyder på en sammenheng mellom mål på likheten av objekter og deres tilhører samme klasse. I denne situasjon, er grensen mellom de forskjellige typene av en enkel form, og skape klasser av gjenstander i rommet, kompakt mobil område. Under slike områder på matematisk analyse ment å bety et lukket avgrenset sett. Denne hypotesen er ikke relatert til den daglige oppfatning av ordet.
Den grunnleggende formel
La oss undersøke mer nærmeste nabo. Hvis den foreslåtte trening prøvetypen "objekt-reaksjon» X ^ m = \ {(x_1, y_1), \ prikker, (x_m, y_m) \}; hvis en flerhet av gjenstander for å definere avstanden funksjonen \ rho (x, x '), som er representert i form av en tilfredsstillende modell likheten av objekter ved å øke verdien av funksjonen reduseres likheten mellom objekter x, x'.
For et objekt, vil u bygge en trening prøve objekter x_i med økende avstand til u:
\ Rho (u, X_ {1; u}) \ lekv \ rho (u, X_ {2; u}) \ lekv \ cdots \ lekv \ rho (u, X_ {m; u}),
hvor X_ {i; u} karakteriserer gjenstanden læring prøven, som er i-te nabo kildeobjekt u. Slik notasjon og bruk for å svare på i-te nabo: y_ {i; u}. Som et resultat, finner vi at ethvert objekt u provoserer omnummerering egen prøve.
Fastsettelse av antall k av naboer
nærmeste nabo metode når k = 1 er i stand til å gi et feilaktig klassifisering, ikke bare på objekter-utslipp, men også for andre klasser som er i nærheten.
Hvis vi tar k = m, vil algoritmen være så stabil og vil degenerere til en konstant verdi. Det er derfor pålitelighet er viktig for å unngå ekstreme indekser k.
I praksis, som den optimale indeksen k som brukes kriterium glidende kontroll.
filmvisninger utslipp
Gjenstander av studien er i stor grad ulik, men blant dem er det de som har egenskapene til en klasse og er referert til som standard. I nærhet av motivet som den ideelle modellen av sin høye sannsynligheten for å tilhøre denne klassen.
Hvordan rezultativen metode for nærmeste naboer? Et eksempel kan ses på bakgrunn av perifere og ikke-informative kategorier av gjenstander. Det forutsettes tett miljø av objektet andre representanter for denne klassen. Når du fjerner dem fra klassifisering av prøvetaking kvaliteten vil ikke lide.
Få inn et visst antall prøver kan støy bursts som er "på bakken" av en klasse. Fjerning av ialt vesentlig positiv innvirkning på kvaliteten av klassifiseringen.
Hvis prøven tatt fra uninformative og eliminere støy-objekt, kan du regne med noen positive resultater på samme tid.
Den første interpoleringsmetode for nærmeste nabo klassifisering gjør det mulig å forbedre kvaliteten, redusere mengden av lagrede data, redusere tiden for klassifisering, som er brukt på valget av de neste standarder.
Bruken av ultra store prøver
nærmeste nabo metoden er basert på den virkelige lagring av læringsobjekter. Å lage svært store prøver ved hjelp av et teknisk problem. Målet er ikke bare for å spare en betydelig mengde informasjon, men også i det minimum av tid til å ha tid til å finne et objekt u k blant de nærmeste naboene.
For å takle denne oppgaven, er to metoder som brukes:
- fortynnede prøven gjennom en utløps ikke-dataobjekter;
- effektiv bruk spesiell datastruktur og koder for øyeblikkelig søk på de nærmeste naboene.
Regler for seleksjonsmetoder
Ovennevnte klassifiseringen ble vurdert. Nærmeste nabo metoden er brukt i løse praktiske problemer, som er kjent på forhånd på avstand funksjonen \ rho (x, x '). I beskrivelsen av gjenstander numeriske vektorer bruke en euklidsk metrisk. Dette valget har ingen spesiell begrunnelse, men innebærer måling av alle tegn "i samme skala." Hvis denne faktoren ikke er tatt hensyn til, så det metriske vil dominere funksjonen ha høyeste tallverdier.
Hvis det er en betydelig mengde av funksjoner, beregne avstanden som summen av avvikene på spesifikke symptomer alvorlig problem dimensjon.
I høy dimensjonale rommet fjernt fra hverandre vil alle stedene. Til syvende og sist vil alle prøve å være ved siden av objektet som studeres k naboer. valgt et lite antall informative funksjoner for å eliminere dette problemet. Algoritmer for å beregne anslag bygger på grunnlag av ulike sett av tegn, og for hver enkelt bygge sin nærhet funksjon.
konklusjon
Matematiske beregninger ofte innebære bruk av en rekke teknikker som har sine egne særtrekk, fordeler og ulemper. Vist nærmeste nabo metoden kan løse ganske alvorlig problem, på grunn av egenskapene til matematiske objekter. Den eksperimentelle konsept, basert på det analyserte metoden brukes aktivt i kunstig intelligens.
I ekspertsystemer er det nødvendig ikke bare for å klassifisere objekter, men også vise brukeren en forklaring på klassifiseringen i spørsmålet. I denne fremgangsmåten blir en forklaring på dette fenomen uttrykt i forhold til det objekt av en bestemt klasse, så vel som dens plassering i forhold til prøven som brukes. Juridiske bransjespesialister, geologer, leger, ta denne "presedens" logikk aktivt bruke det i sin forskning.
For å bli analysert metode var den mest pålitelig og effektiv, noe som gir de ønskede resultater, må man ta et minimum figur k, og samtidig unngå utslipp blant de analyserte stedene. Det er derfor bruk av standarder og valgmetoden, samt optimalisering beregninger.
Similar articles
Trending Now