Hopp over navigasjon

Hva er visuelt innhold?

Få mer informasjon om hva visuelt innhold er, hvordan det fungerer, og hva det brukes til.

Visuelt innhold

Visuelt innhold er et felt i datavitenskapen som fokuserer på å gjøre det mulig for datamaskiner å identifisere og forstå objekter og mennesker i bilder og videoer. I likhet med andre typer kunstig intelligens prøver visuelt innhold å utføre og automatisere oppgaver som replikerer menneskelig funksjonalitet. I dette tilfellet prøver visuelt innhold å replikere både hvordan mennesker ser, og hvordan mennesker forstår hva de ser.

De mange bruksområdene teknologien for visuelt innhold har gjør den til en viktig komponent i mange moderne innovasjoner og løsninger. Visuelt innhold kan kjøres i skyen eller lokalt.

Slik fungerer visuelt innhold

Programmer for visuelt innhold bruker inndata fra sensorenheter, kunstig intelligens, maskinlæring og dyp læring til å replikere måten menneskets synssystem fungerer på. Programmer for visuelt innhold kjøres på algoritmer som er lært opp på enorme mengder visuelle data eller bilder i skyen. De gjenkjenner mønstre i disse visuelle dataene og bruker mønstrene til å fastsette innholdet i andre bilder.

Slik analyseres et bilde med visuelt innhold

  • En sensorenhet tar et bilde. Sensorenheten er ofte et kamera, men kan også være et videokamera, en enhet for bildediagnostikk eller en annen type enhet som tar bilder for analyse.
  • Bildet sendes deretter til en tolkningsenhet. Tolkningsenheten bruker mønstergjenkjenning til å dele opp bildet, analysere mønstrene i det mot biblioteket over kjente mønstre og avgjøre om noe av innholdet i bildet samsvarer med disse. Mønsteret kan være noe generelt, som utseendet til en bestemt objekttype, eller det kan være basert på unike identifikatorer som ansiktstrekk.
  • En bruker ber om spesifikk informasjon om et bilde, og tolkningsenheten leverer informasjonen basert på sin analyse av bildet.

Dyp læring og visuelt innhold

Moderne programmer for visuelt innhold er i ferd med å gå bort fra statistiske metoder for bildeanalyse og bruker stadig oftere det som kalles dyp læring. Dyp læring går ut på at et program for visuelt innhold kjøres på en type algoritme kalt et nevralt nettverk som gjør det mulig å levere en enda mer presis analyse av bildene. I tillegg gjør dyp læring det mulig for programmer for visuelt innhold å bevare informasjonen fra bildene som analyseres, og dermed bli mer og mer nøyaktig jo mer de brukes.

Funksjonalitet for visuelt innhold

Programmer for visuelt innhold behandler bilder og returnerer informasjon på tre hovedmåter:

Systemet klassifiserer objektene i et bilde i henhold til en definert kategori. Med objektklassifisering kan for eksempel en datamaskin skille mellom mennesker og objekter i et bilde og fastsette hvor mange mennesker som er i bildet.

Systemet identifiserer et bestemt objekt i et fotografi, en video eller et bilde. Med objektidentifisering kan for eksempel systemet ikke bare peke ut personer i et bilde, men også analysere utseendet deres for å fastsette identiteten eller trekkene til disse personene.

Systemet analyserer en video for å behandle posisjonen til et objekt i bevegelse over tid. Med objektsporing kan for eksempel et overvåkningskamera identifisere biler på en parkeringsplass og gi informasjon om plasseringen og bevegelsene til disse bilene over tid.

Systemet identifiserer bokstaver og tall i bilder og konverterer teksten til maskinkodet tekst som kan leses av andre dataprogrammer eller redigeres av brukere.

Hva brukes visuelt innhold til?

Visuelt innhold er en effektiv funksjon som kan kombineres med mange typer programmer og sensorenheter i mange ulike praktiske anvendelser. Her er noen få måter visuelt innhold kan brukes på:

Innholdsorganisering

Visuelt innhold kan brukes til å identifisere personer eller objekter i fotografier og ordne dem basert på identifiseringen. Denne typen bildegjenkjenning brukes ofte til bildelagring og i sosiale medier.

Tekstuttrekking

Optisk tegngjenkjenning kan brukes til å gjøre informasjon i store mengder tekst mer tilgjengelig og til å muliggjøre dokumentbehandling i scenarioer for automatisering med robotteknologi.

Utvidet virkelighet

Fysiske objekter oppdages og spores i sanntid med visuelt innhold. Denne informasjonen brukes deretter til å plassere virtuelle objekter i et fysisk miljø på en realistisk måte.

Jordbruk

Bilder av avlinger tatt fra satellitter, droner eller fly kan analyseres for å overvåke innhøstingen, påvise ugressutbrudd eller identifisere næringsstoffmangler i avlingene.

Selvkjørende biler

Selvkjørende biler bruker objektidentifisering og -sporing i sanntid for å samle inn informasjon om hva som skjer rundt bilen, og styre bilen i henhold til dette.

Helsesektoren

Fotografier eller bilder fra andre medisinske enheter kan analyseres for å hjelpe legene med å identifisere problemer og sette raskere og mer nøyaktige diagnoser.

Sport

Objektregistrering og -sporing brukes til spill- og strategianalyse.

Produksjon

Visuelt innhold kan overvåke produksjonsmaskiner med tanke på vedlikehold. Teknologien kan også brukes til å overvåke produktkvalitet og -pakking på en produksjonslinje.

Spatial analyse

Systemet identifiserer personer eller objekter, for eksempel biler, på et sted og sporer bevegelsene deres på dette stedet.

Ansiktsgjenkjenning

Visuelt innhold kan brukes til å identifisere enkeltpersoner.

Bla gjennom Azures løsninger for visuelt innhold

Se nærmere på Azure Cognitive Services – en omfattende serie med tjenester for kunstig intelligens og API-er for kognitivt innhold som gjør det enklere å utvikle intelligente apper med funksjonalitet for visuelt innhold.

Se nærmere på visuelt innhold i Azure

Gjør det lettere for innholdet å bli oppdaget, akselerer tekstuthenting, og lag produkter som flere kan bruke, ved å bygge inn funksjonalitet for visuelt innhold i appene.

Finn ut mer
Kan vi hjelpe deg?