Hvad er Computer Vision?
Få mere at vide om, hvad Computer Vision er, hvordan det fungerer, og hvad det kan bruges til.
Computer Vision
Computer Vision er et område af computervidenskaben, der fokuserer på at gøre det muligt for computere at identificere og forstå objekter og personer på billeder og i videoer. Ligesom andre typer kunstig intelligens kan Computer Vision udføre og automatisere opgaver, der replikerer menneskelige egenskaber. I dette tilfælde vil Computer Vision blive ved med at replikere både den måde, mennesker ser på, og den måde, mennesker forstår, hvad de ser.
Udvalget af praktiske anvendelsesformål for Computer Vision-teknologi gør det til en vigtig del af mange moderne innovationer og løsninger. Computer Vision kan køre i skyen eller i det lokale miljø.
Sådan fungerer Computer Vision
Computer Vision-applikationer bruger input fra registreringsenheder, kunstig intelligens, maskinel indlæring og Deep Learning til at replikere den måde, det menneskelige syn fungerer på. Computer Vision-applikationer kører på algoritmer, der trænes ved hjælp af enorme mængder visuelle data eller billeder i cloudmiljøet. De genkender mønstre i disse visuelle data og bruger disse mønstre til at vurdere indholdet af andre billeder.
Sådan analyseres et billede med Computer Vision
-
En registreringsenhed optager et billede. Registreringsenheden er ofte bare et kamera, men det kan også være et videokamera, en medicinsk billedenhed eller enhver anden type enhed, der optager et billede til analyse.
-
Derefter sendes billedet til en fortolkningsenhed. Fortolkningsenheden anvender mønstergenkendelse til at analysere billedet, sammenligne mønstrene i billedet med sit bibliotek af kendte mønstre og fastslå, om noget af indholdet i billedet er et match. Mønsteret kan være noget generelt, f.eks. en bestemt objekttypes udseende, eller være baseret på entydige kendetegn såsom ansigtstræk.
-
En bruger anmoder om specifikke oplysninger om et billede, og fortolkningsenheden leverer de oplysninger, der anmodes om, ud fra dens analyse af billedet.
Deep Learning og Computer Vision
-
Moderne Computer Vision-applikationer går væk fra statistiske metoder til billedanalyse og anvender i stigende grad det, der er kendt som Deep Learning. Med Deep Learning kører en Computer Vision-applikation på en type algoritme, der kaldes et neuralt netværk, som gør det muligt at levere endnu mere præcise analyser af billeder. Derudover giver Deep Learning et Computer Vision-program mulighed for at gemme oplysningerne fra alle billeder, der analyseres – så programmet bliver mere og mere præcist, jo mere det bruges.
Computer Vision-funktioner
Der er tre hovedfunktioner for, hvordan Computer Vision-programmer behandler billeder og returnerer oplysninger:
Systemet klassificerer objekterne på et billede ud fra en defineret kategori. Ved objektklassificering kan en computer f.eks. skelne mellem personer og objekter på et foto og finde ud af, hvor mange personer der vises på billedet.
Systemet identificerer et bestemt objekt i et foto, en video eller et billede. Hvis man f.eks. bruger objektidentifikation, kan systemet ikke alene skelne mellem personer på et foto, men også analysere deres udseende for at bestemme disse personers identitet eller karaktertræk.
Systemet analyserer en video for at behandle placeringen af et objekt i bevægelse over tid. I forbindelse med objektsporing kan f.eks. et overvågningskamera på en parkeringsplads identificere biler og levere oplysninger om de pågældende bilers placering og bevægelser over tid.
Systemet identificerer bogstaver og tal på billeder og konverterer teksten til maskinkodet tekst, der kan læses af andre computerprogrammer eller redigeres af brugerne.
Det anvendes Computer Vision til
Computer Vision er en effektiv funktion og kan kombineres med mange typer programmer og registreringsenheder, der understøtter en lang række anvendelsesformål. Her er nogle forskellige anvendelsestyper for Computer Vision:
Organisering af indhold
Computer Vision kan bruges til at identificere personer eller objekter på fotos og organisere dem ud fra denne identifikation. Programmer til billedgenkendelse som dette bruges ofte til billedlagring og applikationer på sociale medier.
Tekstudtrækning
Optisk tegngenkendelse kan bruges til at forbedre indholdsregistreringen i forbindelse med oplysninger, der er indeholdt i store mængder tekst, og til at muliggøre automatiseringsscenarier med robotstyret dokumentbehandling.
Augmented reality
Fysiske objekter registreres og spores i realtid med Computer Vision. Disse oplysninger bruges derefter til på en realistisk måde at placere virtuelle objekter i et fysisk miljø.
Landbrug
Billeder af afgrøder, som er taget fra satellitter, droner eller fly, kan analyseres for at overvåge høst, registrere ukrudt eller påvise mangel på næringsstoffer.
Selvkørende køretøjer
Selvkørende biler anvender objektidentifikation og sporing i realtid til at indsamle oplysninger om, hvad der sker omkring bilen, og styrer bilen ud fra disse oplysninger.
Sundhedsvæsenet
Billeder eller billeder, der er taget af andre medicinske enheder, kan analyseres for at hjælpe læger med at identificere problemer og stille hurtigere og mere præcise diagnoser.
Sport
Objektregistrering og -sporing anvendes til spil- og strategianalyse.
Produktion
Computer Vision kan overvåge produktionsmaskiner i forbindelse med vedligeholdelse. Det kan også bruges til at overvåge produktkvalitet og -emballering på en produktionslinje.
Spatial analyse
Systemet identificerer personer eller objekter såsom biler i et rum og registrerer deres bevægelse inden for dette rum.
Ansigtsgenkendelse
Computer Vision kan bruges til at identificere personer.
Gennemse Azures Computer Vision-løsninger
Opdag Azure AI Services – en omfattende serie af tjenester med kunstig intelligens og kognitive API'er, der gør det nemmere at bygge intelligente apps med Computer Vision-funktioner.
Betalt efter forbrug
Kom i gang med priser, der betales efter forbrug. Der er ingen forudgående forpligtelser – du kan annullere når som helst.
Udforsk Computer Vision i Azure
Boost registrering af indhold, få hurtigere tekstudtrækning, og opret produkter, som flere personer kan bruge, ved at integrere synsfunktionalitet i dine programmer.