コンピューター ビジョンとは

コンピューター ビジョンとは何か、コンピューター ビジョンのしくみ、コンピューター ビジョンの用途について説明します。

コンピューター ビジョン

コンピューター ビジョンは、コンピューターが画像やビデオ内の物体や人物を識別および理解できるようにすることに焦点を置いたコンピューター サイエンスの分野です。他の種類の AI と同様に、コンピューター ビジョンでは、人間の能力を再現するタスクを実行および自動化することを目指しています。コンピューター ビジョンの場合は、人間が見る方法と、人間が見たものを理解する方法の両方を再現しようとしています。

コンピューター ビジョン テクノロジの実用的なアプリケーションは多岐にわたるため、多くの最新のイノベーションとソリューションの中心的なコンポーネントになっています。コンピューター ビジョンはクラウドまたはオンプレミスで実行できます。

コンピューター ビジョンのしくみ

コンピューター ビジョン アプリケーションでは、検知デバイス、人工知能、機械学習、ディープ ラーニングからの入力を使用して、人間の視覚システムのしくみが再現されます。コンピューター ビジョン アプリケーションは、クラウドにある大量のビジュアル データや画像でトレーニングされたアルゴリズムで実行されます。アプリケーションによってこのビジュアル データのパターンが認識され、それらのパターンを使用して他の画像の内容が判断されます。

コンピューター ビジョンによる画像の分析方法

  • 検知デバイスによって画像がキャプチャされます。検知デバイスは、単なるカメラであることが多いですが、ビデオ カメラ、医療画像デバイス、または分析用に画像をキャプチャするその他の種類のデバイスの場合もあります。
  • 次に、画像が解釈を行うデバイスに送信されます。解釈を行うデバイスによって、パターン認識を使用した画像の分析が行われ、画像内のパターンが既知のパターンのライブラリと比較されて、画像内のいずれかの内容が一致しているかどうかが判断されます。パターンは、特定の種類の物体の外見といった一般的なものである場合もあれば、顔の特徴のような固有の識別子に基づいている場合もあります。
  • ユーザーが画像に関する具体的な情報を要求すると、解釈を行うデバイスによって、要求された情報が画像の分析に基づいて提供されます。

ディープ ラーニングとコンピューター ビジョン

最新のコンピューター ビジョン アプリケーションにおいては、画像分析のための統計的な方法からシフトし、ディープ ラーニングと呼ばれるものにますます頼るようになっています。ディープ ラーニングを使用すると、コンピューター ビジョン アプリケーションはニューラル ネットワークと呼ばれる種類のアルゴリズムで実行されるため、さらにいっそう正確な画像分析を実現できます。さらに、ディープ ラーニングにより、コンピューター ビジョン プログラムは、分析する各画像の情報を保持できるため、使用すればするほど、より正確になります。

コンピューター ビジョンの機能

コンピューター ビジョン プログラムによって画像が処理されて情報が返される方法としては、主に 3 つの機能があります。

システムによって、定義されたカテゴリに従って画像内の物体が分類されます。たとえば、物体分類を使用すると、コンピューターで写真内の人物を物体と区別し、写真に写った人の数を特定できます。

システムによって、写真、ビデオ、または画像内の特定の物体が識別されます。たとえば、物体識別を使用すると、写真内の人物の区別だけでなく、外見の分析によるそれらの人の身元や特徴の特定もシステムでできるようになります。

システムによって、ビデオが分析されて、移動する物体の位置が経時的に処理されます。たとえば、物体追跡を使用すると、駐車場の監視カメラによって駐車場の自動車の識別や、それらの自動車の位置や動きに関する情報の経時的な提供が可能になります。

システムによって画像内の文字と数字が識別され、そのテキストがコンピューターでエンコードされたテキストに変換されます。このテキストは、他のコンピューター アプリケーションで読み取ったり、ユーザーが編集したりできます。

コンピューター ビジョンの用途

コンピューター ビジョンは強力な機能であり、さまざまな種類のアプリケーションや検知デバイスと組み合わせて、多数の実用的なユース ケースをサポートすることができます。さまざまな種類のコンピューター ビジョン アプリケーションのごく一部を以下に示します。

コンテンツの整理

コンピューター ビジョンを使用して、写真内の人物や物体を識別し、その識別に基づいてそれらを整理することができます。このような写真認識アプリケーションは、写真のストレージやソーシャル メディア アプリケーションでよく使用されます。

テキスト抽出

光学式文字認識を使用すると、大量のテキストに含まれる情報の内容の見つけやすさを高め、ロボティック プロセス オートメーションのシナリオにおいてドキュメントの処理を実現できます。

拡張現実

物理的な物体がコンピューター ビジョンによってリアルタイムで検出および追跡されます。そしてこの情報が、物理的環境に仮想物体を現実的に配置するために使用されます。

農業

人工衛星、ドローン、または飛行機から撮影された農作物の画像を分析して、収穫期を監視したり、雑草の発生を検出したり、農作物の栄養不足を特定したりできます。

自律走行車

自動運転車では、リアルタイムの物体識別および追跡を使用して、車の周囲で起こっていることに関する情報が収集され、それに応じて車の走路が決定されます。

医療

他の医療機器によってキャプチャされた写真や画像を分析して、医師が問題を特定し、より迅速かつ正確に診断できるよう支援することが可能です。

スポーツ

プレーと戦略の分析に物体検出および追跡が使用されます。

製造

コンピューター ビジョンによって、メンテナンスのために製造機械を監視できます。また、生産ラインにおける製品の品質と梱包の監視にも使用できます。

空間分析

システムによって、空間における人物や物体 (自動車など) が識別され、その空間内での動きが追跡されます。

顔認識

個人を識別するためにコンピューター ビジョンを適用できます。

Azure コンピューター ビジョン ソリューションの参照

コンピューター ビジョンの機能を使用してインテリジェントなアプリを簡単に構築できるようになる AI サービスとコグニティブ API の包括的なファミリである Azure Cognitive Services をご確認ください。

Azure におけるコンピューター ビジョンの詳細

コンテンツの見つけやすさを向上させ、テキストの抽出を迅速化し、より多くの人が利用できる製品を作成するために、アプリにビジョン機能を埋め込みます。

詳細情報