Navigáció kihagyása

Mi a számítógépes látástechnológia?

Megtudhatja, mi a számítógépes látástechnológia, hogyan működik, és mikre képes.

Számítógépes látástechnológia

A számítógépes látástechnológia az informatika olyan területe, amely képessé teszi a számítógépeket arra, hogy objektumokat és embereket azonosítsanak és értsenek meg képeken és videókban. A mesterséges intelligencia többi típusához hasonlóan a számítógépes látástechnológia célja is az, hogy elvégezzen és automatizáljon emberi képességeket tükröző feladatokat. Ebben az esetben a számítógépes látástechnológia célja, hogy az emberi látást és a látottak értelmezését replikálja.

A számítógépes látástechnológiás technológia széles körű gyakorlati alkalmazása miatt központi összetevője számos modern újításnak és megoldásnak. A számítógépes látástechnológia felhőben vagy helyileg is futtatható.

A számítógépes látástechnológia működése

A számítógépes látástechnológiát használó alkalmazások érzékelő eszközök, mesterséges intelligencia, a gépi tanulás és a mély tanulás bemeneteit használják, így replikálják az emberi látási rendszert. A számítógépes látástechnológiát használó alkalmazások rendkívüli mennyiségű vizuális adattal vagy felhőből származó képpel betanított algoritmusokkal működnek. Ezek felismerik a vizuális adatok mintáit, és a mintákkal képesek más képek tartalmát is meghatározni.

Képelemzés számítógépes látástechnológiával

  • Egy érzékelő eszköz rögzít egy képet. Az érzékelő eszköz gyakran csak egy kamera, azonban lehet videokamera, orvosi képalkotó eszköz, vagy bármilyen más eszköz is, amely elemzés céljából képet készít.
  • A képet megkapja egy értelmező eszköz. Az értelmező eszköz mintafelismeréssel dekonstruálja a képet, összehasonlítja annak mintáit az általa ismert minták gyűjteményével, majd meghatározza, hogy a kép tartalma egyezik-e a találtakkal. A minta lehet általános, például egy adott tárgytípus, vagy egyedi azonosítókon, például arcvonásokon is alapulhat.
  • Egy felhasználó adott információra kíváncsi a képről, az értelmező eszköz pedig ezt adja meg a képelemzés alapján.

Mély tanulás és számítógépes látástechnológia

A modern számítógépes látástechnológiát használó alkalmazások a statisztikai képelemzési módszerek helyett egyre nagyobb mértékben használnak úgynevezett mély tanulást. A mély tanulással a számítógépes látástechnológiát használó alkalmazások egy neurális hálózatnak nevezett algoritmussal futnak, amellyel még pontosabb képelemzés készíthető. A mély tanulással emellett a számítógépes látástechnológiát használó programok megőrzik az összes elemzett kép adatát, így minél többet használják, annál pontosabbá válnak.

Számítógépes látási funkciók

A számítógépes látástechnológiát alkalmazó programok három fő funkcióval dolgozzák fel a képeket és adják vissza az adatokat:

A rendszer egy meghatározott kategória szerint osztályozza az egy képen látható objektumokat. Az objektumok osztályozásakor például egy számítógép képes megkülönböztetni az embereket a tárgyaktól egy fotón, és azt is meghatározhatja, hogy hány ember szerepel a képen.

A rendszer azonosít egy adott objektumot egy fotón, videóban vagy képen. A tárgyazonosítás során a rendszer például felismeri, hogy emberek láthatók a képen, sőt képes elemezni a kinézetüket és ez alapján meghatározni a személyazonosságukat vagy vonásaikat.

A rendszer egy videót elemezve feldolgozza egy mozgó objektum helyét az idő függvényében. Egy parkoló térfigyelő kamerája például képes azonosítani az autókat a parkolóban, és idő szerinti adatokat nyújtani azok helyéről és mozgásáról.

A rendszer betűket és számokat azonosít képeken, majd átalakítja őket géppel kódolt szöveggé, amelyeket elolvashatnak más számítógépes alkalmazások, valamint szerkeszthetnek felhasználók.

A számítógépes látástechnológia használata

A számítógépes látástechnológia egy rendkívül hatékony képesség, amely megannyi más alkalmazással és érzékelő eszközzel ötvözhető, hogy számos gyakorlati használati esetet tegyen lehetővé. Íme néhány példa a számítógépes látástechnológiát használó alkalmazásokra:

Tartalomrendezés

A számítógépes látástechnológiával azonosíthatók a személyek vagy tárgyak egy adott fotón, majd ez alapján rendezhetők. Az ehhez hasonló fotófelismerő alkalmazásokat gyakran használják fotógyűjtemény- és közösségimédia-alkalmazások.

Szöveg kinyerése

Az optikai karakterfelismeréssel növelhető a nagy mennyiségű szövegekben található adatok felfedezhetősége, illetve feldolgozhatóvá tehetők a dokumentumok a robotos automatizálási forgatókönyvekhez.

Kibővített valóság

A számítógépes látástechnológia valós időben észleli és követi a fizikai objektumokat. Ezzel az információval ezután realisztikusan elhelyezi a virtuális objektumokat a fizikai térben.

Mezőgazdaság

Műholdakkal, drónokkal vagy repülőkkel a termésről készített képeket elemezve figyelemmel kísérhető a szüret, észlelhető a gyomnövények szaporodása, és azonosítható a termény tápanyaghiánya.

Önvezető járművek

Az önvezető autók valós idejű objektumazonosítással és -követéssel gyűjtenek információt az autó körüli eseményekről, és ennek megfelelően tervezik meg az útvonalat.

Egészségügy

Az orvosi eszközökkel készített fotók vagy képek elemzésével az orvosok könnyebben azonosíthatják a problémákat, és gyorsabb és pontosabb diagnózist készíthetnek.

Sport

Az objektumészlelés és -követés segít a játék- és stratégiaelemzésben.

Gyártás

A számítógépes látástechnológia képes karbantartás céljából figyelni a gyártási gépezetet. Emellett ellenőrizheti a termékminőséget és a csomagolást a gyártósoron.

Térbeli elemzés

A rendszer azonosítja az egy adott térben látható embereket vagy tárgyakat (például autókat), majd követi a mozgásukat.

Arcfelismerés

A számítógépes látástechnológiával személyeket lehet azonosítani.

Az Azure számítógépes látástechnológiás megoldásainak böngészése

Fedezze fel az Azure Cognitive Servicest, AI-szolgáltatások és kognitív API-k átfogó termékcsaládját, amellyel könnyebben készíthet számítógépes látástechnológiát használó intelligens alkalmazásokat.

Az Azure számítógépes látástechnológiájának felfedezése

A látástechnológiai képességek alkalmazásokba történő beágyazásával elősegítheti a tartalmak felfedezhetőségét, felgyorsíthatja a szövegek kinyerését és több felhasználó által használható termékeket hozhat létre.

További információ