Vad är visuellt innehåll?

Lär dig mer om visuellt innehåll, hur visuellt innehåll fungerar och vad visuellt innehåll används till.

Visuellt innehåll

Visuellt innehåll är ett datavetenskapsområde som fokuserar på att göra det möjligt för datorer att identifiera och förstå objekt och personer i bilder och videor. Precis som andra typer av AI försöker visuellt innehåll att utföra och automatisera uppgifter som härmar den mänskliga kapaciteten. I det här fallet söker visuellt innehåll att efterlikna både hur människor ser och hur människor tolkar vad de ser.

Utbudet av praktiska program för teknik för visuellt innehåll gör det till en central komponent i många moderna innovationer och lösningar. Visuellt innehåll kan köras i molnet eller lokalt.

Hur visuellt innehåll fungerar

Program för visuellt innehåll använder indata från sensorenheter, artificiell intelligens, maskininlärning och djupinlärning för att replikera hur människors syn fungerar. Program för visuellt innehåll körs på algoritmer som tränas på enorma mängder visuella data eller bilder i molnet. De identifierar mönster i dessa visuella data och använder mönstren för att fastställa innehållet i andra bilder.

Hur en bild analyseras med visuellt innehåll

  • En sensorenhet fångar en bild. Sensorenheten är ofta bara en kamera, men det kan vara en videokamera, medicinsk bildtagningsenhet eller någon annan typ av enhet som samlar in en bild för analys.
  • Bilden skickas sedan till en tolkningsenhet. Tolkningsenheten använder mönsterigenkänning för att bryta ned bilden, jämföra mönstren i bilden mot sitt bibliotek med kända mönster och avgöra om något av innehållet i bilden är en matchning. Mönstret kan vara något allmänt, precis som utseendet på en viss typ av objekt, eller så kan det baseras på unika identifierare som ansiktsdrag.
  • En användare begär information om en bild, och tolkningsenheten tillhandahåller den information som begärs baserat på dess analys av bilden.

Djupinlärning och visuellt innehåll

Moderna program för visuellt innehåll håller på att lämna statistiska metoder för att analysera bilder och förlitar sig allt mer på vad som kallas för djupinlärning. Med djupinlärning körs ett program för visuellt innehåll på en typ av algoritm som kallas ett neuralt nätverk, vilket gör det möjligt att leverera ännu mer exakta analyser av bilder. Dessutom kan djupinlärningen göra det möjligt för ett program för visuellt innehåll att lagra informationen från varje bild som analyseras, så att den blir mer och mer exakt ju mer den används.

Funktioner för visuellt innehåll

Det finns tre huvudfunktioner för hur program för visuellt innehåll bearbetar bilder och returnerar information:

Systemet klassificerar objekten i en bild enligt en definierad kategori. Med objektklassificering kan en dator till exempel särskilja personer från objekt på ett foto och bestämma hur många personer som visas på fotot.

Systemet identifierar ett visst objekt i ett foto, en video eller en bild. Med objektidentifiering kan systemet till exempel inte bara särskilja personer i ett foto, utan även analysera deras utseende för att fastställa identiteten eller egenskaperna för dessa personer.

Systemet analyserar en video för att bearbeta platsen för ett rörligt objekt över tid. Med objektspårning kan exempelvis en övervakningskamera för parkering identifiera bilar på en parkeringsplats och ange information om bilarnas plats och rörelser över tid.

Systemet identifierar bokstäver och siffror i bilder och konverterar texten till maskinkodad text som kan läsas av andra datorprogram eller redigeras av användare.

Vad visuellt innehåll används till

Visuellt innehåll är en kraftfull funktion som kan kombineras med många typer av program och sensorenheter för att stödja ett antal praktiska användningsfall. Här är några olika typer av program för visuellt innehåll:

Innehållsorganisation

Visuellt innehåll kan användas för att identifiera personer eller objekt i foton och organisera dem baserat på den identifieringen. Program för fotoigenkänning som detta används ofta vid fotolagring och i sociala medier.

Textextrahering

Optisk teckenläsning kan användas för att öka identifieringen av innehåll för information som finns i stora mängder text och för att möjliggöra dokumentbearbetning för scenarier med robotbearbetningsautomatisering.

Förhöjd verklighet

Fysiska objekt identifieras och spåras i realtid med visuellt innehåll. Den här informationen används sedan för att på ett verklighetstroget sätt placera virtuella objekt i en fysisk miljö.

Jordbruk

Bilder av grödor som tas från satelliter, drönare eller flygplan kan analyseras för att övervaka skördar, identifiera uppkomst av ogräs eller identifiera brist på näringsämnen.

Autonoma fordon

Självkörande bilar använder objektidentifiering och spårning i realtid för att samla in information om vad som händer kring en bil och dirigera bilen utifrån det.

Sjukvård

Foton eller bilder som samlas in av andra medicinska enheter kan analyseras för att hjälpa läkare att identifiera problem och göra diagnoser snabbare och korrekt.

Sport

Objektidentifiering och -spårning används för uppspelnings- och strategianalyser.

Tillverkning

Visuellt innehåll kan övervaka tillverkningsutrustning i underhållssyfte. Det kan också användas för att övervaka produktkvalitet och förpackning i en produktionslinje.

Rumslig analys

Systemet identifierar personer eller objekt, till exempel bilar, i ett utrymme och spårar deras rörelser inom det utrymmet.

Ansiktsigenkänning

Visuellt innehåll kan användas för att identifiera individer.

Bläddra bland lösningar för visuellt innehåll i Azure

Upptäck Azure Cognitive Services – en omfattande familj av AI-tjänster och kognitiva API:er som gör det enklare att skapa smarta appar med funktioner för visuellt innehåll.

Utforska visuellt innehåll i Azure

Öka innehållets identifierbarhet, påskynda extraheringen av text och skapa produkter som fler personer kan använda genom att bädda in visuella funktioner i dina appar.

Läs mer