Hva er visuelt innhold?
Finn ut hva visuelt innhold er, hvordan visuelt innhold fungerer, og hva visuelt innhold brukes til.
Visuelt innhold
Visuelt innhold er et felt i datavitenskapen som fokuserer på å gjøre det mulig for datamaskiner å identifisere og forstå objekter og personer i bilder og videoer. I likhet med andre typer kunstig intelligens prøver visuelt innhold å utføre og automatisere oppgaver som replikerer menneskelig funksjonalitet. I dette tilfellet prøver visuelt innhold å replikere både hvordan mennesker ser, og hvordan mennesker forstår hva de ser.
De mange bruksområdene teknologien for visuelt innhold har, gjør den til en viktig komponent i mange moderne innovasjoner og løsninger. Visuelt innhold kan kjøres i skyen eller lokalt.
Slik fungerer visuelt innhold
Programmer for visuelt innhold bruker inndata fra sensorenheter, kunstig intelligens, maskinlæring og dyp læring til å replikere måten menneskets synssystem fungerer på. Programmer for visuelt innhold kjøres på algoritmer som er lært opp på enorme mengder visuelle data eller bilder i skyen. De gjenkjenner mønstre i disse visuelle dataene, og bruker disse mønstrene til å fastslå innholdet i andre bilder.
Slik analyseres et bilde med visuelt innhold
-
En sensorenhet tar et bilde. Sensorenheten er ofte bare et kamera, men kan også være et videokamera, en medisinsk bildeenhet eller en annen type enhet som tar bilder for analyse.
-
Bildet sendes deretter til en tolkningsenhet. Tolkningsenheten bruker mønstergjenkjenning til å dele opp bildet, analysere mønstrene i det mot biblioteket over kjente mønstre og avgjøre om noe av innholdet i bildet samsvarer med disse. Mønsteret kan være noe generelt, som utseendet til en bestemt objekttype, eller det kan være basert på unike identifikatorer som ansiktstrekk.
-
En bruker ber om spesifikk informasjon om et bilde, og tolkningsenheten leverer den forespurte informasjonen basert på sin analyse av bildet.
Dyp læring og visuelt innhold
-
Moderne programmer for visuelt innhold er i ferd med å gå bort fra statistiske metoder for bildeanalyse, og bruker stadig oftere det som kalles dyp læring. Dyp læring går ut på at et program for visuelt innhold kjøres på en type algoritme kalt et nevralt nettverk som gjør det mulig å levere en enda mer presis analyse av bildene. I tillegg gjør dyp læring det mulig for et program for visuelt innhold å bevare informasjonen fra hvert bilde det analyserer, og dermed blir det mer og mer nøyaktig desto mer det brukes.
Funksjonalitet for visuelt innhold
Programmer for visuelt innhold behandler bilder og returnerer informasjon på tre hovedmåter:
Systemet klassifiserer objektene i et bilde i henhold til en definert kategori. Med objektklassifisering kan en datamaskin for eksempel skille mellom mennesker og objekter i et bilde, og fastslå hvor mange personer som vises i bildet.
Systemet identifiserer et bestemt objekt i et fotografi, en video eller et bilde. Med objektidentifisering kan systemet for eksempel ikke bare peke ut personer i et bilde, men også analysere utseendet deres for å fastslå identiteten eller ansiktstrekkene til disse personene.
Systemet analyserer en video for å behandle posisjonen til et objekt i bevegelse over tid. Med objektsporing kan et overvåkningskamera for eksempel identifisere biler på en parkeringsplass, og gi informasjon om posisjonen og bevegelsene til disse bilene over tid.
Systemet identifiserer bokstaver og tall i bilder, og konverterer teksten til maskinkodet tekst som kan leses av andre dataprogrammer eller redigeres av brukere.
Hva visuelt innhold brukes til
Visuelt innhold er en effektiv funksjon, som kan kombineres med mange typer programmer og sensorenheter til støtte for mange ulike praktiske anvendelser. Her er bare noen få ulike typer av programmer for visuelt innhold:
Innholdsorganisering
Visuelt innhold kan brukes til å identifisere personer eller objekter i fotografier og organisere dem basert på identifiseringen. Denne typen bildegjenkjenningsprogrammer brukes ofte til bildelagring og i programmer for sosiale medier.
Tekstuttrekking
Optisk tegngjenkjenning kan brukes til å gjøre informasjon i store mengder tekst mer tilgjengelig, og til å muliggjøre dokumentbehandling i scenarioer for automatisering med robotteknologi.
Utvidet virkelighet
Fysiske objekter oppdages og spores i sanntid med visuelt innhold. Denne informasjonen brukes deretter til å plassere virtuelle objekter i et fysisk miljø på en realistisk måte.
Jordbruk
Bilder av avlinger tatt fra satellitter, droner eller fly kan analyseres for å overvåke innhøstingen, påvise ugressutbrudd eller identifisere næringsstoffmangler i avlingene.
Autonome kjøretøy
Selvkjørende biler bruker objektidentifisering og -sporing i sanntid, for å samle inn informasjon om hva som skjer rundt bilen, og styre bilen i henhold til dette.
Helsevesen
Fotografier eller bilder fra andre medisinske enheter, kan analyseres for å hjelpe legene med å identifisere problemer og sette raskere og mer nøyaktige diagnoser.
Sport
Objektregistrering og -sporing brukes til spill- og strategianalyse.
Produksjon
Visuelt innhold kan overvåke produksjonsmaskiner med tanke på vedlikehold. Teknologien kan også brukes til å overvåke produktkvalitet og -pakking på en produksjonslinje.
Avstandsanalyse
Systemet identifiserer personer eller objekter, for eksempel biler, på et sted og sporer bevegelsene deres på dette stedet.
Ansiktsgjenkjenning
Visuelt innhold kan brukes til å identifisere enkeltpersoner.
Bla gjennom Azures løsninger for visuelt innhold
Se nærmere på Azure AI Services – en omfattende serie med tjenester for kunstig intelligens og API-er for kognitivt innhold, som gjør det enklere å utvikle intelligente programmer med funksjonalitet for visuelt innhold.
Gratis konto
Prøv Azure-tjenester for databehandling i skyen gratis i opptil 30 dager.
Bruksbasert
Kom i gang med forbruksbetaling. Ingen forhåndsforpliktelser – avbryt når som helst.
Se nærmere på visuelt innhold i Azure
Gjør det lettere for innholdet å bli oppdaget, akselerer tekstuttrekking, og skap produkter som flere kan bruke, ved å bygge inn funksjonalitet for visuelt innhold i appene.