Trace Id is missing
Ugrás a tartalomra

Gépi tanulási algoritmusok

Bevezetés a gépi tanulás mögött húzódót matematikai és logikai összefüggésekbe.

Mik azok a gépi tanulási algoritmusok?

A gépi tanulási algoritmusok olyan kódrészletek, amelyek segítenek a bonyolult adatkészletek feltárásában, elemzésében és a jelentésük azonosításában. Minden algoritmus olyan egyértelmű, részletes utasítások véges készlete, amelyeket a gépek követni tudnak egy meghatározott cél elérése érdekében. A gépi tanulási modell célja, hogy olyan mintákat hozzon létre vagy tárjon fel, amelyeket az emberek előrejelzésekhez vagy az információk kategorizálásához használhatnak. Mi a gépi tanulás?

A gépi tanulási algoritmusok a betanítási adatokon alapuló paramétereket használnak, azaz a nagyobb halmaznak megfelelő adatok részhalmazát. Ahogyan nő a betanítási adatok mennyisége, hogy valósághűbben tudják leírni a világot, az algoritmus egyre pontosabb eredményeket képes kiszámítani.

A különböző algoritmusok más és más módokon elemzik az adatokat. Ezek gyakran azok szerint a gépi tanulási módszerek szerint vannak csoportosítva, amelyekhez használatosak. Ezek a következők: felügyelt tanulás, nem felügyelt tanulás és megerősítő tanulás. A leggyakrabban használt algoritmusok regressziót és osztályozást használnak a célkategóriák előrejelzéséhez, a szokatlan adatpontok megkereséséhez, az értékek előrejelzéséhez és a hasonlóságok feltárásához.

Gépi tanulási módszerek

Amint egyre többet tud majd meg a gépi tanulási algoritmusokról, azt tapasztalhatja, hogy ezek általában három gépi tanulási módszer egyikéhez tartoznak:


Felügyelt tanulás

A felügyelt tanulás esetében az algoritmusok az Ön által megadott címkézett példák alapján készítenek előrejelzéseket. Ez a módszer akkor hasznos, ha tudja, hogy az eredménynek hogyan kellene kinéznie.
 

Tegyük fel például, hogy megad egy olyan adatkészletet, amely az elmúlt 100 évre vonatkozóan tartalmazza települések népességi adatait, és azt szeretné megtudni, hogy egy adott település népessége hogyan alakul majd négy év múlva. Az eredmény olyan címkéket használ, amelyek már megtalálhatók az adatkészletben: népesség, település és év.
 

Felügyelet nélküli tanulás

A nem felügyelt tanulás esetében az adatpontok nincsenek megcímkézve – az algoritmus címkézi meg őket Ön helyett úgy, hogy rendszerezi az adatokat, vagy leírja a szerkezetüket. Ez a módszer akkor hasznos, ha nem tudja, hogy az eredménynek hogyan kellene kinéznie.

 

Tegyük fel például, hogy Ön megadja az ügyféladatokat, és olyan ügyfélszegmenseket szeretne eredményül kapni, akik hasonló termékeket kedvelnek. Az Ön által megadott adatok nincsenek megcímkézve, az eredményben szereplő címkék pedig az adatpontok között felderített hasonlóságok alapján jönnek létre.

 

Megerősítő tanulás

A megerősítő tanulás olyan algoritmusokat használ, amelyek az eredményekből tanulnak, és eldöntik, hogy mi a következő végrehajtandó művelet. Az egyes műveletek után az algoritmus visszajelzést kap, amely segít neki megállapítani, hogy a választott döntés helyes, semleges vagy helytelen volt-e. Azoknak az automatizált rendszereknek az esetében érdemes használni, amelyeknek sok kisebb, emberi útmutatás nélküli döntést kell hozniuk.

 

Tegyük fel például, hogy önvezető autót tervez, és biztosítani szeretné, hogy az autó betartja a szabályokat, és az emberek biztonságáról is gondoskodik. Amint az autó tapasztalatokat szerez, és már vannak megerősítő előzményei, megtanulja, hogyan maradhat a saját sávjában, miként tarthatja tiszteletben a sebességkorlátozást, és hogyan fékezhet, ha gyalogost észlel.

Mire használhatóak a gépi tanulási algoritmusok?

A gépi tanulási algoritmusok segítenek azoknak a kérdéseknek a megválaszolásában, amelyek túl összetettek ahhoz, hogy manuális elemzéssel válaszoljunk rájuk. A gépi tanulási algoritmusoknak sok típusa létezik, a gépi tanulási algoritmusok használati esetei azonban az alábbi kategóriák egyikébe tartoznak.

Célkategória előrejelzése

A kétosztályos (bináris) osztályozó algoritmusok az adatokat két kategóriára osztják. Ezek azoknak a kérdéseknek az esetében hasznosak, amelyekre csak két, egymást kölcsönösen kizáró lehetséges válasz adható. Ilyenek például az eldöntendő kérdések. Például:

  • Ez a gumiabroncs meghibásodik a következő 1000 kilométer során? Igen vagy nem?
  • Melyik hoz majd több érdeklődőt: 10 USD kredit, vagy 15% kedvezmény?

 

A többosztályos (multinomiális) osztályozó algoritmusok az adatokat három vagy több kategóriába sorolják. Ezek azoknak a kérdéseknek az esetében hasznosak, amelyekre három vagy több, egymást kölcsönösen kizáró lehetséges válasz adható. Például:

  • Melyik hónapban vásárolja meg a legtöbb utazó a repülőjegyét?
  • Milyen érzelmet fejez ki az ezen a fényképen látható személy?

Szokatlan adatpontok keresése

Az anomáliadetektálási algoritmusok azonosítják azokat az adatpontokat, amelyek kívül esnek a „normálként” definiált paramétereken. Anomáliadetektálási algoritmusokat használhat többek között az alábbi kérdések megválaszolásához:

  • Hol találhatók ebben a kötegben hibás részek?
  • Mely hitelkártyás vásárlások lehetnek csalárdak?

Értékek előrejelzése

A regressziós algoritmusok egy új adatpont értékét jelzik előre a korábbi értékek alapján. Az alábbiakhoz hasonló kérdések megválaszolásához hasznosak:

  • Mennyibe fog kerülni jövőre egy átlagos kétszobás lakás ebben a városban?
  • Hány beteg érkezik majd a klinikára kedden?

Az értékek időbeli változásának megtekintése

Az idősoros algoritmusok azt mutatják meg, hogyan változik egy adott érték az idők során. Az idősoros elemzés és az idősoros előrejelzés esetében az adatok gyűjtése rendszeres időközönként történik. Előrejelzések készítéséhez és a trendek, a szezonális jelenségek, a ciklikusság és a rendellenességek azonosítására használatosak. Az idősoros algoritmusokkal az alábbiakhoz hasonló kérdésekre adható válasz:

  • Egy adott készlet ára az elkövetkező évben várhatóan emelkedni fog vagy csökkenni?
  • Hogyan fognak alakulni a költségeim a jövő évben?

Hasonlóságok felderítése

A fürtalgoritmusok az adatokat több csoportra osztják az alapján, hogy meghatározzák az adatpontok közötti hasonlóság szintjét. A fürtalgoritmusok az alábbiakhoz hasonló kérdések esetén hasznosak:

  • Mely nézők kedvelik az ugyanolyan típusú filmeket?
  • Mely nyomtatók hibásodnak meg ugyanolyan módon?

Osztályozás

Azosztályozó algoritmusok prediktív számításokkal rendelik hozzá az adatokat az előre meghatározott kategóriákhoz. Az osztályozó algoritmusok betanítása bemeneti adatokon történik, és az alábbiakhoz hasonló kérdések megválaszolására használatosak:

  • Ez az e-mail levélszemét?
  • Milyen hangulatú egy adott szöveg (pozitív, negatív vagy semleges)?

A lineáris regressziós algoritmusok megmutatják vagy előrejelzik két változó vagy tényező közötti kapcsolatot azáltal, hogy egy folytonos egyenes vonalat illesztenek az adatokra. A vonal kiszámításához gyakran a Squared Error Cost (négyzetes hibaköltség) függvény használatos. A lineáris regresszió a regressziós elemzés egyik legnépszerűbb típusa.

A logisztikai regressziós algoritmusok egy folytonos S alakú görbét illesztenek az adatokra. A logisztikai regresszió a regressziós elemzések egy másik népszerű típusa.

A Naïve Bayes algoritmusok a kapcsolódó események előfordulása alapján kiszámítják az események előfordulásának valószínűségét.

A támogatási vektorgépek egy hipersíkot húznak a két legközelebbi adatpont közé. Ez marginalizálja az osztályokat, és maximalizálja a közöttük lévő távolságot, így egyértelműbben meg lehet különböztetni őket.

A döntési fa típusú algoritmusok az adatokat két vagy több homogén halmazba osztják szét. Ha–akkor típusú szabályokat használnak arra, hogy az adatokat elkülönítsék az adatpontok közötti legjelentősebb különbségek alapján.

A k-legközelebbi szomszédos algoritmusok az összes rendelkezésre álló adatpontot tárolják, és minden új adatpontot a hozzájuk legközelebb eső adatpontok alapján osztályoznak a távolsági függvénnyel való mérés alapján.

A véletlenszerű erdő típusú algoritmusok döntési fákon alapulnak, de egy fa létrehozása helyett faerdőt hoznak létre, majd az erdőben lévő fákat véletlenszerűen rendezik el. Ezután összesítik a döntési fák különböző véletlenszerű formációinak szavazatait, és ez alapján meghatározzák a tesztobjektum végső osztályát.

A gradient boosting típusú algoritmusok olyan előrejelzési modellt hoznak létre, amely gyenge előrejelzési modelleket (általában döntési fákat) csomagol egybe egy, a modell általános teljesítményét javító csomagolási folyamattal.

A K-közép típusú algoritmusok az adatokat fürtökbe csoportosítják úgy, hogy a K egyenlő a fürtök számával. Az egyes fürtökön belüli adatpontok homogének, más fürtök adatpontjaihoz képest pedig heterogének.

Mik azok a gépi tanulási kódtárak?

A gépi tanulási kódtár adott nyelven megírt függvények, keretrendszerek, modulok és rutinok gyűjteménye. A fejlesztők a gépi tanulási kódtárakban található kódokat építőelemekként használják olyan gépi tanulási megoldások létrehozásához, amelyekkel összetett feladatok is megoldhatók. Ahelyett, hogy a gépi tanulási megoldásban minden algoritmust és képletet manuálisan kellene kódolniuk, a fejlesztők az éppen szükséges függvényeket és modulokat megtalálják a számos rendelkezésre álló gépi tanulási kódtár egyikében, és ezekkel az igényeiknek megfelelő megoldásokat tudnak létrehozni.

Az Azure Machine Learning kipróbálása

Megtudhatja, hogy a különböző algoritmusok hogyan elemzik az adatokat, úgy, hogy saját gépi tanulási modelleket hoz létre és helyez üzembe az Azure Machine Learning használatával.