Computer Vision

画像から豊富な情報を抽出して、視覚データを分類および処理します。また、機械による画像のモデレートを実施して、サービスのキュレーションを支援します。

画像の分析

この機能では、画像内にあるビジュアル コンテンツに関する情報が返されます。タグ付け、ドメイン固有モデル、4 言語での説明を使用してコンテンツを特定し、確実にラベル付けします。オブジェクトの検出を使用して、画像内の何千ものオブジェクトの場所を取得します。成人向け/わいせつな描写に対する設定を適用すれば、成人向けである可能性のあるコンテンツを検出するのに役立ちます。画像の種類や写真内の配色を特定します。

アクションからご覧ください

person
person
subway train
特徴名:
オブジェクト [ { "rectangle": { "x": 93, "y": 178, "w": 115, "h": 237 }, "object": "person", "confidence": 0.764 }, { "rectangle": { "x": 0, "y": 229, "w": 101, "h": 206 }, "object": "person", "confidence": 0.624 }, { "rectangle": { "x": 161, "y": 31, "w": 439, "h": 423 }, "object": "subway train", "parent": { "object": "train", "parent": { "object": "Land vehicle", "parent": { "object": "Vehicle", "confidence": 0.926 }, "confidence": 0.923 }, "confidence": 0.917 }, "confidence": 0.801 } ]
タグ [ { "name": "train", "confidence": 0.9975446 }, { "name": "platform", "confidence": 0.995543063 }, { "name": "station", "confidence": 0.9798007 }, { "name": "indoor", "confidence": 0.9277198 }, { "name": "subway", "confidence": 0.838939548 }, { "name": "clothing", "confidence": 0.504376 }, { "name": "pulling", "confidence": 0.4317156 } ]
説明 { "tags": [ "train", "platform", "station", "building", "indoor", "subway", "track", "walking", "waiting", "pulling", "board", "people", "man", "luggage", "standing", "holding", "large", "woman", "yellow", "suitcase" ], "captions": [ { "text": "people waiting at a train station", "confidence": 0.8330993 } ] }
画像形式 "Jpeg"
画像サイズ 462 x 600
クリップ アートの種類 0
線画の種類 0
モノクロ false
成人向けコンテンツ false
成人スコア 0.009112834
わいせつ性 false
わいせつスコア 0.0143244695
カテゴリ [ { "name": "trans_trainstation", "score": 0.98828125 } ]
[]
背景のドミナント カラー
"Black"
前景のドミナント カラー
"Black"
アクセント カラー
#484C83

使ってみたいですか?

一般提供に関する情報画像内の印字されたテキストと手書きのテキストの両方の読み取り

読み取り操作で最先端の光学式文字認識 (OCR) を使用して、埋め込み、印字、また手書きのテキストを検出し、認識された語句をマシンが読み取り可能な文字ストリームに抽出して、検索を有効にします。テキストをコピーする代わりに写真を撮ることで、時間と労力を節約できます。

アクションからご覧ください

  1. プレビュー
  2. JSON

Sorry!

Have a

Oops!

nice day !

See you soon !

Bye !

{
  "status": "Succeeded",
  "succeeded": true,
  "failed": false,
  "finished": true,
  "recognitionResults": [
    {
      "page": 1,
      "clockwiseOrientation": 353.71,
      "width": 1138,
      "height": 825,
      "unit": "pixel",
      "lines": [
        {
          "boundingBox": [
            124,
            126,
            399,
            90,
            407,
            199,
            140,
            229
          ],
          "text": "Sorry!",
          "words": [
            {
              "boundingBox": [
                137,
                121,
                397,
                89,
                410,
                198,
                150,
                229
              ],
              "text": "Sorry!"
            }
          ]
        },
        {
          "boundingBox": [
            591,
            173,
            908,
            124,
            921,
            207,
            604,
            256
          ],
          "text": "Have a",
          "words": [
            {
              "boundingBox": [
                598,
                173,
                812,
                140,
                824,
                224,
                610,
                256
              ],
              "text": "Have"
            },
            {
              "boundingBox": [
                834,
                136,
                894,
                127,
                906,
                212,
                846,
                221
              ],
              "text": "a"
            }
          ]
        },
        {
          "boundingBox": [
            199,
            379,
            424,
            365,
            423,
            476,
            209,
            488
          ],
          "text": "Oops!",
          "words": [
            {
              "boundingBox": [
                205,
                377,
                420,
                364,
                426,
                475,
                212,
                488
              ],
              "text": "Oops!"
            }
          ]
        },
        {
          "boundingBox": [
            583,
            267,
            973,
            224,
            982,
            305,
            592,
            348
          ],
          "text": "nice day !",
          "words": [
            {
              "boundingBox": [
                584,
                271,
                762,
                251,
                771,
                330,
                593,
                344
              ],
              "text": "nice"
            },
            {
              "boundingBox": [
                810,
                245,
                940,
                229,
                949,
                310,
                819,
                325
              ],
              "text": "day"
            },
            {
              "boundingBox": [
                954,
                227,
                973,
                225,
                982,
                306,
                963,
                308
              ],
              "text": "!"
            }
          ]
        },
        {
          "boundingBox": [
            166,
            628,
            662,
            599,
            667,
            683,
            170,
            712
          ],
          "text": "See you soon !",
          "words": [
            {
              "boundingBox": [
                172,
                628,
                295,
                624,
                300,
                704,
                178,
                712
              ],
              "text": "See"
            },
            {
              "boundingBox": [
                312,
                623,
                446,
                618,
                449,
                692,
                316,
                702
              ],
              "text": "you"
            },
            {
              "boundingBox": [
                463,
                617,
                620,
                611,
                620,
                680,
                465,
                691
              ],
              "text": "soon"
            },
            {
              "boundingBox": [
                636,
                610,
                659,
                609,
                658,
                677,
                636,
                679
              ],
              "text": "!"
            }
          ]
        },
        {
          "boundingBox": [
            824,
            498,
            1003,
            489,
            1014,
            594,
            834,
            607
          ],
          "text": "Bye !",
          "words": [
            {
              "boundingBox": [
                830,
                497,
                961,
                489,
                967,
                598,
                837,
                606
              ],
              "text": "Bye"
            },
            {
              "boundingBox": [
                982,
                488,
                1004,
                486,
                1011,
                595,
                989,
                597
              ],
              "text": "!"
            }
          ]
        }
      ]
    }
  ]
}

デモの結果は説明のみを目的としています。画像は多少操作されているため、実際の API の結果は異なる可能性があります。

使ってみたいですか?

著名人およびランドマークの認識

ビジネス、政治、スポーツ、エンターテインメント分野での 1,000,000 人の著名人のほか、世界各国 9,000 の自然物や人工物のランドマークを認識します。

アクションからご覧ください

{
  "categories": [
    {
      "name": "people_",
      "score": 0.86328125,
      "detail": {
        "celebrities": [
          {
            "name": "Satya Nadella",
            "faceRectangle": {
              "left": 240,
              "top": 294,
              "width": 135,
              "height": 135
            },
            "confidence": 0.99984323978424072
          }
        ],
        "landmarks": null
      }
    }
  ],
  "adult": null,
  "tags": [
    {
      "name": "person",
      "confidence": 0.99956613779067993
    },
    {
      "name": "suit",
      "confidence": 0.98934584856033325
    },
    {
      "name": "man",
      "confidence": 0.98844343423843384
    },
    {
      "name": "tie",
      "confidence": 0.95905411243438721
    },
    {
      "name": "human face",
      "confidence": 0.95430314540863037
    },
    {
      "name": "clothing",
      "confidence": 0.86057531833648682
    },
    {
      "name": "smile",
      "confidence": 0.8601078987121582
    },
    {
      "name": "outdoor",
      "confidence": 0.860062301158905
    },
    {
      "name": "glasses",
      "confidence": 0.68438893556594849
    }
  ],
  "description": {
    "tags": [
      "person",
      "suit",
      "man",
      "necktie",
      "outdoor",
      "building",
      "clothing",
      "standing",
      "wearing",
      "business",
      "looking",
      "holding",
      "black",
      "front",
      "hand",
      "dressed",
      "phone",
      "field"
    ],
    "captions": [
      {
        "text": "Satya Nadella wearing a suit and tie",
        "confidence": 0.99032750982666984
      }
    ]
  },
  "requestId": "cfea3158-f821-40af-b5cd-7f5bdaa65230",
  "metadata": {
    "width": 600,
    "height": 900,
    "format": "Jpeg"
  },
  "faces": [
    {
      "age": 49,
      "gender": "Male",
      "faceRectangle": {
        "left": 240,
        "top": 294,
        "width": 135,
        "height": 135
      }
    }
  ],
  "color": {
    "dominantColorForeground": "Black",
    "dominantColorBackground": "Black",
    "dominantColors": [
      "Black",
      "Grey"
    ],
    "accentColor": "7B5E50",
    "isBWImg": false
  },
  "imageType": {
    "clipArtType": 0,
    "lineDrawingType": 0
  }
}

使ってみたいですか?

ほぼリアルタイムでビデオを分析

ほぼリアルタイムでビデオを分析。ご使用のデバイスでビデオのフレームを抽出し、それらのフレームをお好きな API 呼び出しに送信することで、任意の Computer Vision API をビデオ ファイルに使用できます。ビデオの結果はすぐに返ってきます。

まず GitHub のサンプルを使用して、アプリを構築しましょう。

詳細についてはこちら (英語) をご覧ください

アクションからご覧ください

使ってみたいですか?

サムネイルの生成

あらゆる画像をベースに高品質でストレージ効率の高いサムネイルを生成したり、サイズ、形、スタイルのニーズに最も合ったものに画像を変更したりできます。スマート トリミングを適用すれば、元の画像とは異なる縦横比であるものの、関心領域を維持したサムネイルを生成できます。

アクションからご覧ください

使ってみたいですか?

Cognitive Services APIs を詳しく見る

Computer Vision

Distill actionable information from images

Face

Detect, identify, analyze, organize, and tag faces in photos

Ink Recognizer プレビュー

An AI service that recognizes digital ink content, such as handwriting, shapes, and ink document layout

Video Indexer

Unlock video insights

Custom Vision

Easily customize your own state-of-the-art computer vision models for your unique use case

Form Recognizer プレビュー

The AI-powered document extraction service that understands your forms

Text Analytics

Easily evaluate sentiment and topics to understand what users want

Translator Text

Easily conduct machine translation with a simple REST API call

Bing Spell Check

Detect and correct spelling mistakes in your app

QnA Maker

Distill information into conversational, easy-to-navigate answers

Language Understanding

Teach your apps to understand commands from your users

Speech Services

Unified speech services for speech-to-text, text-to-speech and speech translation

Speaker Recognition プレビュー

Use speech to identify and verify individual speakers

Content Moderator

Automated image, text, and video moderation

Anomaly Detector プレビュー

Easily add anomaly detection capabilities to your apps.

Personalizer プレビュー

An AI service that delivers a personalized user experience

アプリをパワーアップさせる準備はできていますか?