Computer Vision API

이미지에서 다양한 정보를 추출하여 시각적 데이터를 분류 및 처리하고 이미지의 기계 지원 수정을 통해 서비스 조정을 지원합니다.

이미지 분석

이 기능은 이미지에서 찾은 시각적 콘텐츠에 대한 정보를 반환합니다. 태그 지정, 설명 및 도메인 특정 모델을 사용하여 자신 있게 콘텐츠를 파악하고 레이블을 지정하세요. 성인 콘텐츠를 자동으로 제한할 수 있도록 성인/외설 설정을 적용합니다. 사진의 이미지 형식과 색 구성표를 파악합니다.

실제 동작 확인

성별 Male
연령 36
기능 이름:
설명 { "tags": [ "water", "swimming", "sport", "pool", "person", "man", "frisbee", "ocean", "blue", "bird", "riding", "top", "standing", "wave", "young", "body", "large", "game", "glass", "pond", "playing", "board", "catch", "clear", "boat", "white" ], "captions": [ { "text": "a man swimming in a pool of water", "confidence": 0.8909298 } ] }
태그 [ { "name": "water", "confidence": 0.9997857 }, { "name": "swimming", "confidence": 0.955619633 }, { "name": "sport", "confidence": 0.953807831 }, { "name": "pool", "confidence": 0.9515978 }, { "name": "person", "confidence": 0.889862537 }, { "name": "water sport", "confidence": 0.664259 } ]
이미지 형식 "Jpeg"
이미지 차원 462 x 600
클립 아트 유형 0
선 그리기 형식 0
흑백 false
성인 콘텐츠 false
성인 점수 0.07518345
외설 false
외설 점수 0.1814024
범주 [ { "name": "people_swimming", "score": 0.98046875 } ]
얼굴 [ { "age": 36, "gender": "Male", "faceRectangle": { "top": 133, "left": 298, "width": 121, "height": 121 } } ]
주요 색상 배경
"White"
주요 색상 전경
"Grey"
강조 색
#19A4B2

이 내용을 빌드할까요?

이미지의 텍스트 읽기

OCR(광학 인식)에서는 이미지에서 텍스트를 감지하고 인식된 단어를 기계에서 읽을 수 있는 문자 스트림으로 추출합니다. 이미지를 분석하여 포함된 텍스트를 감지하고 문자 스트림을 생성하고 검색을 지원합니다. 텍스트를 복사하는 대신 사진을 찍어 시간과 노력을 절약합니다.

실제 동작 확인

  1. 미리 보기
  2. JSON

IF WE DID

ALL

THE THINGS

WE ARE

CAPABLÉ•

OF DOING,

WE WOULD

LITERALLY

ASTOUND

QURSELV*S.

{
  "textAngle": 0.0,
  "orientation": "NotDetected",
  "language": "en",
  "regions": [
    {
      "boundingBox": "316,47,284,340",
      "lines": [
        {
          "boundingBox": "319,47,182,24",
          "words": [
            {
              "boundingBox": "319,47,42,24",
              "text": "IF"
            },
            {
              "boundingBox": "375,47,44,24",
              "text": "WE"
            },
            {
              "boundingBox": "435,47,66,23",
              "text": "DID"
            }
          ]
        },
        {
          "boundingBox": "316,74,204,69",
          "words": [
            {
              "boundingBox": "316,74,204,69",
              "text": "ALL"
            }
          ]
        },
        {
          "boundingBox": "318,147,207,24",
          "words": [
            {
              "boundingBox": "318,147,63,24",
              "text": "THE"
            },
            {
              "boundingBox": "397,147,128,24",
              "text": "THINGS"
            }
          ]
        },
        {
          "boundingBox": "316,176,125,23",
          "words": [
            {
              "boundingBox": "316,176,44,23",
              "text": "WE"
            },
            {
              "boundingBox": "375,176,66,23",
              "text": "ARE"
            }
          ]
        },
        {
          "boundingBox": "319,194,281,44",
          "words": [
            {
              "boundingBox": "319,194,281,44",
              "text": "CAPABLÉ•"
            }
          ]
        },
        {
          "boundingBox": "318,243,181,29",
          "words": [
            {
              "boundingBox": "318,243,43,23",
              "text": "OF"
            },
            {
              "boundingBox": "376,243,123,29",
              "text": "DOING,"
            }
          ]
        },
        {
          "boundingBox": "316,271,170,24",
          "words": [
            {
              "boundingBox": "316,272,44,23",
              "text": "WE"
            },
            {
              "boundingBox": "375,271,111,24",
              "text": "WOULD"
            }
          ]
        },
        {
          "boundingBox": "317,300,200,24",
          "words": [
            {
              "boundingBox": "317,300,200,24",
              "text": "LITERALLY"
            }
          ]
        },
        {
          "boundingBox": "316,328,157,24",
          "words": [
            {
              "boundingBox": "316,328,157,24",
              "text": "ASTOUND"
            }
          ]
        },
        {
          "boundingBox": "318,357,214,30",
          "words": [
            {
              "boundingBox": "318,357,214,30",
              "text": "QURSELV*S."
            }
          ]
        }
      ]
    }
  ]
}

이 데모에 대한 데이터를 업로드하면 Microsoft가 해당 데이터를 저장하고 이 API를 비롯한 Microsoft 서비스를 개선하는 데 해당 데이터를 사용할 수 있다는 것에 동의하게 됩니다. 개인 정보를 보호하기 위해 데이터를 익명으로 처리하고 안전하게 유지하는 단계를 거칩니다. 데이터를 게시하거나 다른 사람이 사용하게 하지 않습니다.

이 내용을 빌드할까요?

미리 보기: 이미지에서 필기한 텍스트 읽기

이 기술(필기한 OCR)을 통해 노트, 편지, 에세이, 화이트보드, 양식 등에서 필기한 텍스트를 감지하여 추출할 수 있습니다. 이 기술은 흰색 종이, 노란색 스티커 메모 및 화이트보드와 같은 다양한 표면 및 배경에서 작동합니다.

필기한 텍스트 인식은 시간과 노력을 줄여주며 텍스트를 기록할 필요 없이 텍스트 이미지를 촬영할 수 있게 하여 생산성을 높여줄 수 있습니다. 이 기술을 통해 노트를 디지털화할 수 있습니다. 그러면 빠르고 쉬운 검색을 구현할 수 있습니다. 또한 종이 문서를 줄여줍니다.

참고: 이 기술은 현재 미리 보기로 제공되며 영어 텍스트에만 사용할 수 있습니다.

이 광학 인식 데모를 체험하려면 로컬에 저장된 이미지를 업로드하거나 이미지 URL을 제공하세요. Microsoft에서는 사용자가 허락하지 않는 한 이 데모를 위해 제공한 이미지를 저장하지 않습니다.

실제 동작 확인

  1. 미리 보기
  2. JSON

Our greatest glory is not

in never failing

but in rising every

time we fall

{
  "status": "Succeeded",
  "succeeded": true,
  "failed": false,
  "finished": true,
  "recognitionResult": {
    "lines": [
      {
        "boundingBox": [
          202,
          618,
          2047,
          643,
          2046,
          840,
          200,
          813
        ],
        "text": "Our greatest glory is not",
        "words": [
          {
            "boundingBox": [
              204,
              627,
              481,
              628,
              481,
              830,
              204,
              829
            ],
            "text": "Our"
          },
          {
            "boundingBox": [
              585,
              628,
              1067,
              630,
              1066,
              832,
              585,
              831
            ],
            "text": "greatest"
          },
          {
            "boundingBox": [
              1190,
              630,
              1539,
              631,
              1539,
              833,
              1189,
              832
            ],
            "text": "glory"
          },
          {
            "boundingBox": [
              1643,
              631,
              1785,
              632,
              1784,
              834,
              1642,
              834
            ],
            "text": "is"
          },
          {
            "boundingBox": [
              1832,
              632,
              2068,
              632,
              2067,
              835,
              1831,
              834
            ],
            "text": "not"
          }
        ]
      },
      {
        "boundingBox": [
          1612,
          903,
          2744,
          935,
          2738,
          1139,
          1607,
          1107
        ],
        "text": "in never failing",
        "words": [
          {
            "boundingBox": [
              1611,
              934,
              1707,
              933,
              1708,
              1147,
              1613,
              1147
            ],
            "text": "in"
          },
          {
            "boundingBox": [
              1822,
              932,
              2132,
              930,
              2133,
              1144,
              1824,
              1146
            ],
            "text": "never"
          },
          {
            "boundingBox": [
              2217,
              930,
              2673,
              927,
              2674,
              1140,
              2218,
              1143
            ],
            "text": "failing"
          }
        ]
      },
      {
        "boundingBox": [
          426,
          1271,
          1748,
          1330,
          1738,
          1519,
          416,
          1462
        ],
        "text": "but in rising every",
        "words": [
          {
            "boundingBox": [
              424,
              1273,
              635,
              1273,
              635,
              1500,
              424,
              1500
            ],
            "text": "but"
          },
          {
            "boundingBox": [
              683,
              1273,
              811,
              1273,
              811,
              1500,
              683,
              1500
            ],
            "text": "in"
          },
          {
            "boundingBox": [
              924,
              1274,
              1284,
              1274,
              1284,
              1501,
              923,
              1501
            ],
            "text": "rising"
          },
          {
            "boundingBox": [
              1437,
              1275,
              1749,
              1275,
              1749,
              1502,
              1436,
              1502
            ],
            "text": "every"
          }
        ]
      },
      {
        "boundingBox": [
          1900,
          1261,
          2954,
          1254,
          2956,
          1437,
          1902,
          1443
        ],
        "text": "time we fall",
        "words": [
          {
            "boundingBox": [
              1911,
              1250,
              2197,
              1252,
              2176,
              1437,
              1890,
              1435
            ],
            "text": "time"
          },
          {
            "boundingBox": [
              2326,
              1253,
              2524,
              1255,
              2503,
              1440,
              2305,
              1438
            ],
            "text": "we"
          },
          {
            "boundingBox": [
              2670,
              1256,
              2979,
              1259,
              2958,
              1444,
              2649,
              1441
            ],
            "text": "fall"
          }
        ]
      }
    ]
  }
}

이 내용을 빌드할까요?

유명인 및 랜드마크 인식

유명인 및 랜드마크 모델은 도메인 특정 모델의 예입니다. Microsoft의 유명인 인식 모델은 비즈니스, 정치, 스포츠 및 연예계의 유명인 200,000명을 인식합니다. Microsoft의 랜드마크 인식 모델은 전 세계의 자연 및 인공 랜드마크를 9000개 인식합니다. 도메인 특정 모델은 Computer Vision API 내에서 계속 진화하고 있는 기능입니다.

실제 동작 확인

{
  "categories": [
    {
      "name": "people_",
      "score": 0.86328125,
      "detail": {
        "celebrities": [
          {
            "name": "Satya Nadella",
            "faceRectangle": {
              "left": 239,
              "top": 293,
              "width": 138,
              "height": 138
            },
            "confidence": 0.9999974
          }
        ],
        "landmarks": null
      }
    }
  ],
  "adult": null,
  "tags": [
    {
      "name": "person",
      "confidence": 0.99956613779067993
    },
    {
      "name": "suit",
      "confidence": 0.98934584856033325
    },
    {
      "name": "man",
      "confidence": 0.98844343423843384
    },
    {
      "name": "outdoor",
      "confidence": 0.860062301158905
    }
  ],
  "description": {
    "tags": [
      "person",
      "suit",
      "man",
      "necktie",
      "outdoor",
      "building",
      "clothing",
      "standing",
      "wearing",
      "business",
      "looking",
      "holding",
      "black",
      "front",
      "hand",
      "dressed",
      "phone",
      "field"
    ],
    "captions": [
      {
        "text": "Satya Nadella wearing a suit and tie",
        "confidence": 0.99033389849736619
      }
    ]
  },
  "requestId": "58047b5d-7e98-40eb-8a96-83bfb0fdbce8",
  "metadata": {
    "width": 600,
    "height": 900,
    "format": "Jpeg"
  },
  "faces": [
    {
      "age": 49,
      "gender": "Male",
      "faceRectangle": {
        "left": 239,
        "top": 293,
        "width": 138,
        "height": 138
      }
    }
  ],
  "color": {
    "dominantColorForeground": "Black",
    "dominantColorBackground": "Black",
    "dominantColors": [
      "Black",
      "Grey"
    ],
    "accentColor": "7B5E50",
    "isBWImg": false
  },
  "imageType": {
    "clipArtType": 0,
    "lineDrawingType": 0
  }
}

이 내용을 빌드할까요?

실시간으로 비디오 분석

거의 실시간으로 비디오 분석 장치에서 비디오 프레임을 추출하고 추출한 프레임을 원하는 API 호출로 보내 비디오 파일에 Computer Vision API를 사용하세요. 비디오에서 결과를 더 빠르게 얻을 수 있습니다.

GitHub의 샘플을 사용하여 시작하고 고유한 앱을 빌드하세요.

자세한 정보

실제 동작 확인

이 내용을 빌드할까요?

축소판 그림 생성

입력 이미지를 기반으로 저장소를 적게 소모하는 고품질 미리 보기를 생성합니다. 미리 보기 구성을 사용하여 이미지의 크기, 모양 및 스타일을 필요에 맞게 수정합니다. 스마트 자르기를 사용하여 원래 이미지와 가로 세로 비율은 다르지만 관심 영역은 그대로인 미리 보기를 생성합니다.

실제 동작 확인

이 데모에 대한 데이터를 업로드하면 Microsoft가 해당 데이터를 저장하고 이 API를 비롯한 Microsoft 서비스를 개선하는 데 해당 데이터를 사용할 수 있다는 것에 동의하게 됩니다. 개인 정보를 보호하기 위해 데이터를 익명으로 처리하고 안전하게 유지하는 단계를 거칩니다. 데이터를 게시하거나 다른 사람이 사용하게 하지 않습니다.

이 내용을 빌드할까요?

Cognitive Services API 살펴보기

Computer Vision API

이미지에서 실용적인 정보를 추출

Face API

사진에서 얼굴을 감지, 식별, 분석, 구성 및 태그 지정

Content Moderator

자동화된 이미지, 텍스트 및 비디오 조정

Emotion API 미리 보기

감정 인식으로 환경을 개인화

Video API 미리 보기

지능형 비디오 처리

Custom Vision Service 미리 보기

자신만의 사용 사례에 맞게 최신 컴퓨터 비전 모델을 쉽게 사용자 지정할 수 있습니다.

Video Indexer 미리 보기

비디오 통찰력 활용하기

Language Understanding Intelligent Service 미리 보기

앱이 사용자의 명령을 인식하도록 학습

Text Analytics API 미리 보기

의미 및 주제를 간단히 평가하여 사용자가 무엇을 원하는지 파악

Bing Spell Check API

앱에서 맞춤법 오류 감지 및 수정

Translator Text API

간단한 REST API 호출로 기계 번역을 손쉽게 수행

Web Language Model API 미리 보기

웹 규모 데이터에서 학습한 예측 언어 모델 활용

Linguistic Analysis API 미리 보기

Linguistic Analysis API를 사용하여 복잡한 언어 개념을 단순화하고 텍스트를 구문 분석합니다.

Translator Speech API

간단한 REST API 호출로 실시간 음성 번역을 손쉽게 수행하세요.

Speaker Recognition API 미리 보기

음성을 사용하여 개별 화자를 식별하고 인증

Bing Speech API

음성을 텍스트로 변환하고 다시 음성으로 변환하여 사용자 의도 이해

Custom Speech Service 미리 보기

말하기 스타일, 배경 소음 및 어휘와 같은 음성 인식 장벽을 극복하세요.

Recommendations API 미리 보기

고객이 원하는 품목 예측 및 추천

Academic Knowledge API 미리 보기

Microsoft Academic Graph의 다양한 교육 콘텐츠 활용

Knowledge Exploration Service 미리 보기

자연어 입력을 통해 구조적 데이터에 대한 대화형 검색 환경을 구현합니다.

QnA Maker API 미리 보기

정보를 탐색하기 쉬운 대화형 답변으로 추출합니다.

Entity Linking Intelligence Service API 미리 보기

명명된 엔터티 인식 및 명확성을 통해 앱 데이터 링크 기능을 강화합니다.

Custom Decision Service 미리 보기

사용할수록 더욱 개선되는 클라우드 기반의 상황에 따른 의사 결정 API

Project Prague

제스처 기반 제어

Project Cuzco

Wikipedia 항목과 관련된 이벤트

Project Nanjing

등시성 계산

Project Abu Dhabi

거리 매트릭스

Project Johannesburg

경로 로지스틱

Project Wollongong

위치 인사이트

앱을 강화할 준비가 되셨나요?