Trace Id is missing
Gå til hovedindhold

Algoritmer til maskinel indlæring

En introduktion til matematikken og logikken bag maskinel indlæring.

Hvad er algoritmer til maskinel indlæring?

Algoritmer til maskinel indlæring er kodestykker, der hjælper brugerne med at udforske, analysere og finde mening i komplekse datasæt. Hver enkelt algoritme er et afgrænset sæt af utvetydige trinvise instruktioner, som en maskine kan følge for at opnå et bestemt mål. I en model til maskinel indlæring er målet at oprette eller registrere mønstre, som kan bruges til at skabe forudsigelser eller kategorisere oplysninger. Hvad er maskinel indlæring?

Algoritmer til maskinel indlæring anvender parametre, der er baseret på træningsdata – et undersæt af data, der repræsenterer det overordnede sæt. Efterhånden som træningsdataene udvides for at repræsentere verden på en mere realistisk måde, beregner algoritmen mere nøjagtige resultater.

Forskellige algoritmer analyserer data på forskellige måder. De er ofte grupperet af de teknikker til maskinel indlæring, som de bruges til: overvåget læring, uovervåget læring og styrket indlæring. De mest almindelige algoritmer anvender regression og klassificering til at forudsige målkategorier, finde usædvanlige datapunkter, forudsige værdier og opdage ligheder.

Teknikker til maskinel indlæring

Efterhånden som du lærer mere om algoritmer til maskinel indlæring, vil du opleve, at de typisk ligger inden for en af tre teknikker til maskinel indlæring:


Overvåget læring

I forbindelse med overvåget læring foretager algoritmer forudsigelser baseret på et sæt af mærkede eksempler, som du angiver. Denne teknik er praktisk, når du ved, hvordan resultatet bør se ud.
 

Du angiver f.eks. et datasæt, der indeholder befolkningstal i byer efter år for de seneste 100 år, og du vil gerne vide, hvad befolkningstallet for en bestemt by vil være om fire år. Resultatet anvender mærkater, der allerede findes i datasættet: befolkningstal, by og år.
 

Ikke-overvåget læring

I forbindelse med en uovervåget læring er datapunkterne ikke mærket – algoritmen mærker dem for dig ved at organisere dataene eller beskrive deres struktur. Denne teknik er nyttig, når du ikke ved, hvordan resultatet bør se ud.

 

Du angiver f.eks. kundedata og vil oprette segmenter af kunder, der kan lide de samme produkter. De data, du angiver, er ikke mærket, og mærkaterne i resultatet genereres på baggrund af de ligheder, der blev fundet mellem datapunkterne.

 

Styrket læring

Styrket læring anvender algoritmer, der lærer fra resultater og bestemmer, hvilken handling der derefter skal udføres. Efter hver enkelt handling modtager algoritmen feedback, der hjælper med at afgøre, om det trufne valg var korrekt, neutralt eller forkert. Det er en god teknik at anvende i automatiserede systemer, hvor der skal træffes mange små beslutninger uden menneskelig vejledning.

 

Du designer f.eks. en selvkørende bil, og du vil sikre dig, at den overholde loven, og er sikker for mennesker. I takt med at bilen får erfaring og en historik for styrke, lærer den, hvordan den kan holde sin vognbane, køre efter hastighedsbegrænsningerne og bremse for fodgængere.

Det kan du bruge algoritmer til maskinel indlæring til

Algoritmer til maskinel indlæring hjælper dig med at besvare spørgsmål, der er for komplekse til at blive besvaret ved hjælp af manuelle analyser. Der er mange forskellige algoritmetyper til maskinel indlæring, men brugseksempler for algoritmer til maskinel indlæring er typisk placeret i en af disse kategorier.

Forudsig en målkategori

Algoritmer med toklassesklassifikation (binær) deler dataene i to kategorier. De er nyttige i forbindelse med spørgsmål, der kun har to mulige svar, som gensidigt udelukker hinanden, herunder ja/nej-spørgsmål. Eksempel:

  • Vil dette hjul falde af inden for de næste 1.000 miles: ja eller nej?
  • Hvad giver flest kunder: en kredit på USD$ 10 eller en rabat på 15 %?

 

Algoritmer med multiklasseklassifikation (multinomiel) deler dataene i tre eller flere kategorier. De er nyttige i forbindelse med spørgsmål, der har tre eller flere mulige svar, som gensidigt udelukker hinanden. Eksempel:

  • I hvilken måned køber de fleste rejsende flybilletter?
  • Hvilken følelse udviser personen på dette foto?

Find usædvanlige datapunkter

Algoritmer til registrering af uregelmæssigheder identificerer datapunkter, der falder uden for de definerede parametre for, hvad der er "normalt". Du kan f.eks. bruge algoritmer til registrering af uregelmæssigheder til at besvare spørgsmål som f.eks.:

  • Hvor er de defekte dele i dette batch?
  • Hvilke køb via kreditkort er måske falske?

Forudsig værdier

Regressionsalgoritmer forudsiger værdien af det nye datapunkt på baggrund af historiske data. De kan hjælpe dig med at besvare spørgsmål som f.eks.:

  • Hvor meget vil en gennemsnitlig toværelses bolig koste i min by næste år?
  • Hvor mange patienter behandles i klinikken på tirsdag?

Se, hvordan værdier ændrer sig med tiden

Tidsseriealgoritmer viser, hvordan en given værdi ændrer sig over tid. Ved hjælp af tidsserieanalyse og tidsserieprognoser indsamles data regelmæssigt med tiden og bruges til at skabe forudsigelser og identificere tendenser, sæsonudsving, cyklusser og uregelmæssigheder. Tidsseriealgoritmer bruges til at besvare spørgsmål som f.eks.:

  • Er det sandsynligt, at prisen på en bestemt aktie stiger eller falder i det kommende år?
  • Hvad vil mine udgifter være næste år?

Opdag ligheder

Algoritmer til clustering deler dataene i flere grupper ved at bestemme niveauet af ensartethed mellem datapunkter. Algoritmer til clustering fungerer godt i forbindelse med spørgsmål som f.eks.:

  • Hvilke seere kan lide de samme typer film?
  • Hvilke printermodeller fejler på samme måde?

Klassifikation

Klassifikationsalgoritmer bruger forudsigelige beregninger til at tildele data til foruddefinerede kategorier. Klassifikationsalgoritmer oplæres ved hjælp af inputdata og bruges til at besvare spørgsmål som f.eks.:

  • Er denne mail spam?
  • Hvad er synspunktet (positivt, negativt eller neutralt) for en given tekst?

Algoritmer til lineær regression viser eller forudsiger relationen mellem to variable eller faktorer ved at tilpasse en kontinuerlig ret linje til dataene. Linjen beregnes ofte ved hjælp af funktionen Kvadreret fejlomkostning. Lineær regression er en af de mest populære former for regressionsanalyse.

Algoritmer til logistisk regression tilpasser en kontinuerlig S-formet kurve til dataene. Logistisk regression er en anden af de populære former for regressionsanalyse.

Naïve Bayes -algoritmer beregner sandsynligheden for, at en hændelse vil opstå, på baggrund af forekomsten af en relateret hændelse.
Understøttende vektormaskiner tegner en hyperplan mellem de to tætteste datapunkter. Dette marginaliserer klasserne og maksimerer afstandene mellem dem for at skelne mere tydeligt mellem dem.
Beslutningstræ -algoritmer deler dataene i to eller flere homogene sæt. De bruger reglerne "hvis-så" til at adskille dataene på baggrund af den mest betydelige differentiering mellem datapunkter.
K-Nærmeste nabo -algoritmer gemmer alle tilgængelige datapunkter og klassificerer hvert nyt datapunkt på baggrund af de datapunkter, der er tættest på det, målt efter en afstandsfunktion.
Vilkårlig domæneskov -algoritmer er baseret på beslutningstræer, men frem for at oprette ét træ, opretter de en skov af træer og randomiserer derefter træerne i den pågældende skov. Derefter samler de stemmer fra forskellige tilfældige formationer af beslutningstræer for at bestemme testobjektets endelige klasse.
Gradvis boosting -algoritmer producerer en forudsigelsesmodel, der bundter svage forudsigelsesmodeller – typisk beslutningstræer – via en samlende proces, der forbedrer modellens overordnede ydeevne.
K-Means -algoritmer klassificerer data i klynger – hvor K er lig antallet af klynger. Datapunkterne i hver klynge er homogene, og de er heterogene med datapunkter i andre klynger.

Hvad er biblioteker til maskinel indlæring?

Et bibliotek til maskinel indlæring er et sæt funktioner, strukturer, moduler og rutiner, der er skrevet på et bestemt sprog. Udviklere bruger koden i biblioteker til maskinel indlæring som byggesten til at skabe løsninger til maskinel indlæring, der kan udføre komplekse opgaver. I stedet for at skulle kode alle algoritmer og formler i en løsning til maskinel indlæring manuelt, kan udviklere finde de funktioner og moduler, de har brug for, i et af de mange tilgængelige biblioteker til maskinel indlæring og bruge dem til at skabe en løsning, der opfylder deres behov.

Begynd at eksperimentere med Azure Machine Learning

Se, hvordan forskellige algoritmer analyserer data ved at oprette og udrulle dine egne modeller til maskinel indlæring ved hjælp af Azure Machine Learning.