Mi a számítógépes látástechnológia?
Megtudhatja, mi a számítógépes látástechnológia, hogyan működik, és mikre képes.
Számítógépes látástechnológia
A számítógépes látástechnológia az informatika olyan területe, amely képessé teszi a számítógépeket arra, hogy objektumokat és embereket azonosítsanak és értsenek meg képeken és videókban. A mesterséges intelligencia többi típusához hasonlóan a számítógépes látástechnológia célja is az, hogy elvégezzen és automatizáljon emberi képességeket tükröző feladatokat. Ebben az esetben a számítógépes látástechnológia célja, hogy az emberi látást és a látottak értelmezését replikálja.
A számítógépes látástechnológiás technológia széles körű gyakorlati alkalmazása miatt központi összetevője számos modern újításnak és megoldásnak. A számítógépes látástechnológia felhőben vagy helyileg is futtatható.
A számítógépes látástechnológia működése
A számítógépes látástechnológiát használó alkalmazások érzékelő eszközök, mesterséges intelligencia, a gépi tanulás és a mély tanulás bemeneteit használják, így replikálják az emberi látási rendszert. A számítógépes látástechnológiát használó alkalmazások rendkívüli mennyiségű vizuális adattal vagy felhőből származó képpel betanított algoritmusokkal működnek. Ezek felismerik a vizuális adatok mintáit, és a mintákkal képesek más képek tartalmát is meghatározni.
Képelemzés számítógépes látástechnológiával
- Egy érzékelő eszköz rögzít egy képet. Az érzékelő eszköz gyakran csak egy kamera, azonban lehet videokamera, orvosi képalkotó eszköz, vagy bármilyen más eszköz is, amely elemzés céljából képet készít.
- A képet megkapja egy értelmező eszköz. Az értelmező eszköz mintafelismeréssel dekonstruálja a képet, összehasonlítja annak mintáit az általa ismert minták gyűjteményével, majd meghatározza, hogy a kép tartalma egyezik-e a találtakkal. A minta lehet általános, például egy adott tárgytípus, vagy egyedi azonosítókon, például arcvonásokon is alapulhat.
- Egy felhasználó adott információra kíváncsi a képről, az értelmező eszköz pedig ezt adja meg a képelemzés alapján.
Mély tanulás és számítógépes látástechnológia
A modern számítógépes látástechnológiát használó alkalmazások a statisztikai képelemzési módszerek helyett egyre nagyobb mértékben használnak úgynevezett mély tanulást. A mély tanulással a számítógépes látástechnológiát használó alkalmazások egy neurális hálózatnak nevezett algoritmussal futnak, amellyel még pontosabb képelemzés készíthető. A mély tanulással emellett a számítógépes látástechnológiát használó programok megőrzik az összes elemzett kép adatát, így minél többet használják, annál pontosabbá válnak.
Számítógépes látási funkciók
A számítógépes látástechnológiát alkalmazó programok három fő funkcióval dolgozzák fel a képeket és adják vissza az adatokat:
A rendszer egy meghatározott kategória szerint osztályozza az egy képen látható objektumokat. Az objektumok osztályozásakor például egy számítógép képes megkülönböztetni az embereket a tárgyaktól egy fotón, és azt is meghatározhatja, hogy hány ember szerepel a képen.
A rendszer azonosít egy adott objektumot egy fotón, videóban vagy képen. A tárgyazonosítás során a rendszer például felismeri, hogy emberek láthatók a képen, sőt képes elemezni a kinézetüket és ez alapján meghatározni a személyazonosságukat vagy vonásaikat.
A rendszer egy videót elemezve feldolgozza egy mozgó objektum helyét az idő függvényében. Egy parkoló térfigyelő kamerája például képes azonosítani az autókat a parkolóban, és idő szerinti adatokat nyújtani azok helyéről és mozgásáról.
A rendszer betűket és számokat azonosít képeken, majd átalakítja őket géppel kódolt szöveggé, amelyeket elolvashatnak más számítógépes alkalmazások, valamint szerkeszthetnek felhasználók.
A számítógépes látástechnológia használata
A számítógépes látástechnológia egy rendkívül hatékony képesség, amely megannyi más alkalmazással és érzékelő eszközzel ötvözhető, hogy számos gyakorlati használati esetet tegyen lehetővé. Íme néhány példa a számítógépes látástechnológiát használó alkalmazásokra:
Tartalomrendezés
A számítógépes látástechnológiával azonosíthatók a személyek vagy tárgyak egy adott fotón, majd ez alapján rendezhetők. Az ehhez hasonló fotófelismerő alkalmazásokat gyakran használják fotógyűjtemény- és közösségimédia-alkalmazások.
Szöveg kinyerése
Az optikai karakterfelismeréssel növelhető a nagy mennyiségű szövegekben található adatok felfedezhetősége, illetve feldolgozhatóvá tehetők a dokumentumok a robotos automatizálási forgatókönyvekhez.
Kibővített valóság
A számítógépes látástechnológia valós időben észleli és követi a fizikai objektumokat. Ezzel az információval ezután realisztikusan elhelyezi a virtuális objektumokat a fizikai térben.
Mezőgazdaság
Műholdakkal, drónokkal vagy repülőkkel a termésről készített képeket elemezve figyelemmel kísérhető a szüret, észlelhető a gyomnövények szaporodása, és azonosítható a termény tápanyaghiánya.
Önvezető járművek
Az önvezető autók valós idejű objektumazonosítással és -követéssel gyűjtenek információt az autó körüli eseményekről, és ennek megfelelően tervezik meg az útvonalat.
Egészségügy
Az orvosi eszközökkel készített fotók vagy képek elemzésével az orvosok könnyebben azonosíthatják a problémákat, és gyorsabb és pontosabb diagnózist készíthetnek.
Sport
Az objektumészlelés és -követés segít a játék- és stratégiaelemzésben.
Gyártás
A számítógépes látástechnológia képes karbantartás céljából figyelni a gyártási gépezetet. Emellett ellenőrizheti a termékminőséget és a csomagolást a gyártósoron.
Térbeli elemzés
A rendszer azonosítja az egy adott térben látható embereket vagy tárgyakat (például autókat), majd követi a mozgásukat.
Arcfelismerés
A számítógépes látástechnológiával személyeket lehet azonosítani.
Az Azure számítógépes látástechnológiás megoldásainak böngészése
Fedezze fel az Azure Cognitive Servicest, AI-szolgáltatások és kognitív API-k átfogó termékcsaládját, amellyel könnyebben készíthet számítógépes látástechnológiát használó intelligens alkalmazásokat.
Az Azure számítógépes látástechnológiájának felfedezése
A látástechnológiai képességek alkalmazásokba történő beágyazásával elősegítheti a tartalmak felfedezhetőségét, felgyorsíthatja a szövegek kinyerését és több felhasználó által használható termékeket hozhat létre.
További információ