Omitir navegación

Computer Vision API

Extraiga información enriquecida de las imágenes para clasificar y procesar datos visuales, así como para realizar una moderación de las imágenes asistida por máquina para facilitar el mantenimiento de los servicios.

Analizar una imagen

Esta característica devuelve información sobre el contenido visual de una imagen. Use etiquetado, descripciones y modelos específicos del dominio para identificar el contenido y etiquetarlo con confianza. Aplique la configuración para adultos para habilitar la restricción automatizada de contenido adulto. Identifique los tipos y los esquemas de color de las imágenes.

Véala en acción

Nombre de la característica: Valor
Descripción { "tags": [ "train", "platform", "station", "building", "indoor", "subway", "track", "walking", "waiting", "pulling", "board", "people", "man", "luggage", "standing", "holding", "large", "woman", "yellow", "suitcase" ], "captions": [ { "text": "people waiting at a train station", "confidence": 0.833099365 } ] }
Etiquetas [ { "name": "train", "confidence": 0.9975446 }, { "name": "platform", "confidence": 0.995543063 }, { "name": "station", "confidence": 0.9798007 }, { "name": "indoor", "confidence": 0.927719653 }, { "name": "subway", "confidence": 0.838939846 }, { "name": "pulling", "confidence": 0.431715637 } ]
Formato de la imagen "Jpeg"
Dimensiones de la imagen 462 x 600
Tipo de imagen prediseñada 0
Tipo de dibujo lineal 0
Blanco y negro false
Contenido para adultos false
Puntuación de adulto 0.0147124995
Subido de tono false
Puntuación de subido de tono 0.0162802152
Categorías [ { "name": "trans_trainstation", "score": 0.98828125 } ]
Caras []
Color predominante de fondo
"Black"
Color predominante de primer plano
"Black"
Color de énfasis
#484C83

¿Desea crear esto?

Lectura de texto de las imágenes

El reconocimiento óptico de caracteres (OCR) detecta texto de una imagen y extrae las palabras reconocidas en una secuencia de caracteres que se puede leer en una máquina. Analice las imágenes para detectar texto incrustado, generar secuencias de caracteres y habilitar la búsqueda. Realice fotos del texto en lugar de copiarlo para ahorrar tiempo y esfuerzo.

Véala en acción

  1. Versión preliminar
  2. JSON

IF WE DID

ALL

THE THINGS

WE ARE

CAPABLÉ•

OF DOING,

WE WOULD

LITERALLY

ASTOUND

QURSELV*S.

{
  "textAngle": 0.0,
  "orientation": "NotDetected",
  "language": "en",
  "regions": [
    {
      "boundingBox": "316,47,284,340",
      "lines": [
        {
          "boundingBox": "319,47,182,24",
          "words": [
            {
              "boundingBox": "319,47,42,24",
              "text": "IF"
            },
            {
              "boundingBox": "375,47,44,24",
              "text": "WE"
            },
            {
              "boundingBox": "435,47,66,23",
              "text": "DID"
            }
          ]
        },
        {
          "boundingBox": "316,74,204,69",
          "words": [
            {
              "boundingBox": "316,74,204,69",
              "text": "ALL"
            }
          ]
        },
        {
          "boundingBox": "318,147,207,24",
          "words": [
            {
              "boundingBox": "318,147,63,24",
              "text": "THE"
            },
            {
              "boundingBox": "397,147,128,24",
              "text": "THINGS"
            }
          ]
        },
        {
          "boundingBox": "316,176,125,23",
          "words": [
            {
              "boundingBox": "316,176,44,23",
              "text": "WE"
            },
            {
              "boundingBox": "375,176,66,23",
              "text": "ARE"
            }
          ]
        },
        {
          "boundingBox": "319,194,281,44",
          "words": [
            {
              "boundingBox": "319,194,281,44",
              "text": "CAPABLÉ•"
            }
          ]
        },
        {
          "boundingBox": "318,243,181,29",
          "words": [
            {
              "boundingBox": "318,243,43,23",
              "text": "OF"
            },
            {
              "boundingBox": "376,243,123,29",
              "text": "DOING,"
            }
          ]
        },
        {
          "boundingBox": "316,271,170,24",
          "words": [
            {
              "boundingBox": "316,272,44,23",
              "text": "WE"
            },
            {
              "boundingBox": "375,271,111,24",
              "text": "WOULD"
            }
          ]
        },
        {
          "boundingBox": "317,300,200,24",
          "words": [
            {
              "boundingBox": "317,300,200,24",
              "text": "LITERALLY"
            }
          ]
        },
        {
          "boundingBox": "316,328,157,24",
          "words": [
            {
              "boundingBox": "316,328,157,24",
              "text": "ASTOUND"
            }
          ]
        },
        {
          "boundingBox": "318,357,214,30",
          "words": [
            {
              "boundingBox": "318,357,214,30",
              "text": "QURSELV*S."
            }
          ]
        }
      ]
    }
  ]
}

Al cargar datos para esta demostración, acepta que Microsoft puede guardarlos y usarlos para mejorar los servicios Microsoft, entre los que se encuentra esta API. A fin de facilitar la protección de la privacidad, se adoptan medidas para desperzonalizar los datos y protegerlos. Los datos no se publicarán ni se permitirá que terceros los usen.

¿Desea crear esto?

Versión preliminar: Lea texto manuscrito de imágenes

Esta tecnología (OCR de escritura manual) permite detectar y extraer texto manuscrito de notas, cartas, ensayos, pizarras, formularios, etc. Funciona con diferentes superficies y fondos, como papel blanco, notas adhesivas amarillas y pizarras.

El reconocimiento de texto manuscrito ahorra tiempo y esfuerzo, y puede ayudarle a ser más productivo porque permite tomar imágenes del texto en lugar de tener que transcribirlo. Puede digitalizar notas y, después, hacer búsquedas de forma rápida y sencilla. También reduce el desorden de papeles.

Nota: Esta tecnología está actualmente en versión preliminar y solo está disponible para texto en inglés.

Si quiere probar esta demostración de reconocimiento óptico de caracteres, cargue una imagen que tenga almacenada en su equipo local o proporcione la dirección URL de una imagen. No almacenamos las imágenes que usted proporcione para esta demostración a menos que nos dé permiso para ello.

Véala en acción

  1. Versión preliminar
  2. JSON

Our greatest glory is not

in never failing ,

but in rising every

time we fall

{
  "status": "Succeeded",
  "succeeded": true,
  "failed": false,
  "finished": true,
  "recognitionResult": {
    "lines": [
      {
        "boundingBox": [
          67,
          204,
          668,
          210,
          667,
          272,
          66,
          267
        ],
        "text": "Our greatest glory is not",
        "words": [
          {
            "boundingBox": [
              47,
              206,
              161,
              205,
              157,
              274,
              43,
              275
            ],
            "text": "Our"
          },
          {
            "boundingBox": [
              179,
              205,
              350,
              204,
              346,
              273,
              175,
              274
            ],
            "text": "greatest"
          },
          {
            "boundingBox": [
              381,
              204,
              509,
              203,
              505,
              272,
              377,
              273
            ],
            "text": "glory"
          },
          {
            "boundingBox": [
              526,
              203,
              588,
              203,
              584,
              272,
              522,
              272
            ],
            "text": "is"
          },
          {
            "boundingBox": [
              588,
              203,
              680,
              202,
              676,
              271,
              584,
              272
            ],
            "text": "not"
          }
        ]
      },
      {
        "boundingBox": [
          540,
          289,
          900,
          302,
          897,
          374,
          538,
          360
        ],
        "text": "in never failing ,",
        "words": [
          {
            "boundingBox": [
              507,
              300,
              553,
              300,
              564,
              376,
              518,
              376
            ],
            "text": "in"
          },
          {
            "boundingBox": [
              579,
              300,
              693,
              300,
              704,
              376,
              590,
              376
            ],
            "text": "never"
          },
          {
            "boundingBox": [
              712,
              300,
              872,
              300,
              883,
              376,
              723,
              376
            ],
            "text": "failing"
          },
          {
            "boundingBox": [
              864,
              300,
              902,
              300,
              913,
              376,
              875,
              376
            ],
            "text": ","
          }
        ]
      },
      {
        "boundingBox": [
          139,
          416,
          572,
          433,
          570,
          491,
          136,
          474
        ],
        "text": "but in rising every",
        "words": [
          {
            "boundingBox": [
              125,
              417,
              213,
              418,
              200,
              491,
              112,
              490
            ],
            "text": "but"
          },
          {
            "boundingBox": [
              217,
              418,
              273,
              418,
              260,
              491,
              204,
              491
            ],
            "text": "in"
          },
          {
            "boundingBox": [
              297,
              418,
              433,
              419,
              420,
              492,
              284,
              491
            ],
            "text": "rising"
          },
          {
            "boundingBox": [
              461,
              419,
              589,
              420,
              576,
              492,
              448,
              492
            ],
            "text": "every"
          }
        ]
      },
      {
        "boundingBox": [
          622,
          413,
          967,
          410,
          968,
          470,
          623,
          472
        ],
        "text": "time we fall",
        "words": [
          {
            "boundingBox": [
              612,
              407,
              718,
              409,
              709,
              470,
              603,
              468
            ],
            "text": "time"
          },
          {
            "boundingBox": [
              753,
              409,
              825,
              410,
              815,
              471,
              743,
              470
            ],
            "text": "we"
          },
          {
            "boundingBox": [
              863,
              410,
              973,
              412,
              964,
              472,
              853,
              471
            ],
            "text": "fall"
          }
        ]
      }
    ]
  }
}

¿Desea crear esto?

Reconocimiento de celebridades y puntos de referencia

Los modelos de celebridades y puntos de referencia son ejemplos de modelos específicos del dominio. Nuestro modelo de reconocimiento identifica 200 000 celebridades de los negocios, la política, el deporte y el espectáculo. Nuestro modelo de reconocimiento de puntos de referencia identifica 9000 puntos de referencia naturales y realizados por el hombre en todo el mundo. Los modelos específicos del dominio son una característica de Computer Vision API en constante evolución.

Véala en acción

{
  "categories": [
    {
      "name": "people_",
      "score": 0.86328125,
      "detail": {
        "celebrities": [
          {
            "name": "Satya Nadella",
            "faceRectangle": {
              "left": 240,
              "top": 294,
              "width": 135,
              "height": 135
            },
            "confidence": 0.99999558925628662
          }
        ],
        "landmarks": null
      }
    }
  ],
  "adult": null,
  "tags": [
    {
      "name": "person",
      "confidence": 0.99956613779067993
    },
    {
      "name": "suit",
      "confidence": 0.98934584856033325
    },
    {
      "name": "man",
      "confidence": 0.98844343423843384
    },
    {
      "name": "outdoor",
      "confidence": 0.860062301158905
    }
  ],
  "description": {
    "tags": [
      "person",
      "suit",
      "man",
      "necktie",
      "outdoor",
      "building",
      "clothing",
      "standing",
      "wearing",
      "business",
      "looking",
      "holding",
      "black",
      "front",
      "hand",
      "dressed",
      "phone",
      "field"
    ],
    "captions": [
      {
        "text": "Satya Nadella wearing a suit and tie",
        "confidence": 0.9903275009959599
      }
    ]
  },
  "requestId": "61b43060-6f18-4787-9bd7-1856d5514500",
  "metadata": {
    "width": 600,
    "height": 900,
    "format": "Jpeg"
  },
  "faces": [
    {
      "age": 48,
      "gender": "Male",
      "faceRectangle": {
        "left": 240,
        "top": 294,
        "width": 135,
        "height": 135
      }
    }
  ],
  "color": {
    "dominantColorForeground": "Black",
    "dominantColorBackground": "Black",
    "dominantColors": [
      "Black",
      "Grey"
    ],
    "accentColor": "7B5E50",
    "isBWImg": false
  },
  "imageType": {
    "clipArtType": 0,
    "lineDrawingType": 0
  }
}

¿Desea crear esto?

Analice vídeo prácticamente tiempo real

Analice vídeo casi en tiempo real. Utilice cualquiera de las Computer Vision API con sus archivos de vídeo mediante la extracción de fotogramas del vídeo del dispositivo y el envío posterior de dichos fotogramas a las llamadas API que prefiera. Obtenga resultados de sus vídeos más rápido.

Utilice nuestro ejemplo en GitHub para empezar y crear su propia aplicación.

Más información

Véala en acción

¿Desea crear esto?

Generar una miniatura

Genere una miniatura de almacenamiento eficaz de alta calidad basada en cualquier imagen de entrada. Use la generación de miniaturas para modificar las imágenes que mejor se adapten a sus necesidades de tamaño, forma y estilo. Aplique recorte inteligente para generar miniaturas distintas de la relación de aspecto de su imagen original, conservando la región de interés.

Véala en acción

Al cargar datos para esta demostración, acepta que Microsoft puede guardarlos y usarlos para mejorar los servicios Microsoft, entre los que se encuentra esta API. A fin de facilitar la protección de la privacidad, se adoptan medidas para desperzonalizar los datos y protegerlos. Los datos no se publicarán ni se permitirá que terceros los usen.

¿Desea crear esto?

Vea las API de Cognitive Services

Computer Vision API

Condense información de aplicación práctica a partir de imágenes

Content Moderator

Moderación automatizada de imágenes, texto y vídeo

Emotion API VERSIÓN PRELIMINAR

Personalizar las experiencias de usuario con el reconocimiento de emociones

API de reconocimiento facial

Detecte, identifique, analice, organice y etiquete caras en las fotos

Video Indexer VERSIÓN PRELIMINAR

Obtenga conocimiento de sus vídeos

Custom Vision Service VERSIÓN PRELIMINAR

Personalice fácilmente los novedosos modelos de visión artificial para adaptarlos a su caso particular

Text Analytics API

Evaluar fácilmente las opiniones y temas para comprender lo que los usuarios quieren

Web Language Model API VERSIÓN PRELIMINAR

Aprovechar el potencial de los modelos de lenguaje predictivos entrenados con datos de escala web

Language Understanding (LUIS)

Enseñe a las aplicaciones a entender los comandos de sus usuarios

Bing Spell Check API

Detecte y corrija errores ortográficos en las aplicaciones

Translator Text API

Realice fácilmente una traducción automática con una llamada a la API de REST sencilla

Linguistic Analysis API VERSIÓN PRELIMINAR

Simplifique los conceptos complejos del lenguaje y analice texto con Linguistic Analysis API.

Bing Speech API

Convertir voz en texto y viceversa para comprender la intención del usuario

Speaker Recognition API VERSIÓN PRELIMINAR

Use la voz para identificar y autenticar a los hablantes individuales

Custom Speech Service VERSIÓN PRELIMINAR

Elimine las barreras del reconocimiento de voz, como el estilo de habla, el ruido de fondo y el vocabulario

Translator Speech API

Realice fácilmente una traducción de voz en tiempo real con una llamada a la API de REST sencilla

QnA Maker API

Convierta la información en respuestas de conversación de fácil navegación

Custom Decision Service

Una API basada en la nube para la toma de decisiones en contexto que mejora con la experiencia

Project Gesture

Controles basados en gestos

Project Knowledge Exploration

Anteriormente llamada "Knowledge Exploration Service API"

Project Event Tracking

Evento asociado con entradas de Wikipedia

Project Academic Knowledge

Anteriormente llamada "Academic Knowledge"

Project Local Insights

Conocimiento de lugares

Project Entity Linking

Anteriormente llamada "Entity Linking Intelligence Service API"

¿Preparado para aumentar el potencial de su aplicación?