Machine-Learning-Algorithmen

Eine Einführung in die Mathematik und Logik, die hinter Machine Learning steckt

Was sind Machine-Learning-Algorithmen?

Machine-Learning-Algorithmen sind Codeelemente, mit denen die Anwender komplexe Datasets untersuchen, analysieren und nützliche Erkenntnisse aus diesen ziehen können. Bei jedem Algorithmus handelt es sich um begrenzte, eindeutige Schritt-für-Schritt-Anleitungen, die der Computer befolgen kann, um ein bestimmtes Ziel zu erreichen. In einem Machine Learning-Modell besteht das Ziel darin, ein Muster zu erzielen oder zu erkennen, anhand dessen die Benutzer Vorhersagen treffen oder Informationen kategorisieren können. Was ist Machine Learning?

Machine-Learning-Algorithmen verwenden Parameter, die auf Trainingsdaten (eine Teilmenge, die ein größeres Dataset repräsentiert) basieren. Wenn die Trainingsdaten erweitert werden und realistischere Inhalte liefern, berechnet der Algorithmus genauere Ergebnisse.

Unterschiedliche Algorithmen analysieren Daten auf unterschiedliche Weise. Häufig werden sie nach den Machine-Learning-Verfahren gruppiert, für die sie verwendet werden: beaufsichtigtes Lernen, unbeaufsichtigtes Lernen und vertiefendes Lernen. Die am häufigsten verwendeten Algorithmen nutzen Regressionen und Klassifizierungen, um Zielkategorien und Werte vorherzusagen und Ähnlichkeiten und ungewöhnliche Datenpunkte zu ermitteln.

Machine Learning-Techniken

Wenn Sie sich intensiver mit Machine-Learning-Algorithmen befassen, werden Sie feststellen, dass diese üblicherweise zu einer der folgenden drei Verfahren zählen:

Beaufsichtigtes Lernen

Beim beaufsichtigten Lernen treffen Algorithmen Vorhersagen auf Grundlage von bezeichneten Beispielen, die Sie bereitstellen. Dieses Verfahren ist nützlich, wenn Sie das gewünschte Ergebnis bereits kennen.

Das gilt beispielsweise, wenn Sie ein Dataset angeben, das die Einwohnerzahl einer Stadt nach Jahr für die letzten 100 Jahre enthält, und Sie wissen möchten, wie groß die Bevölkerung dieser Stadt in vier Jahren ist. Für das Ergebnis werden bereits im Dataset vorhandene Bezeichnungen verwendet: Bevölkerung, Stadt und Jahr.

Unbeaufsichtigtes Lernen

Beim unbeaufsichtigten lernen werden die Datenpunkte nicht bezeichnet. Der Algorithmus bezeichnet sie, indem die Daten organisiert oder die Struktur beschrieben wird. Dieses Verfahren ist nützlich, wenn Sie das gewünschte Ergebnis nicht kennen.

Das gilt zum Beispiel, wenn Sie Kundendaten angeben und Kundensegmente erstellen möchten, denen ähnliche Produkte gefallen. Die von Ihnen angegebenen Daten sind nicht bezeichnet, und die Bezeichnungen im Ergebnis werden anhand der Ähnlichkeiten generiert, die zwischen den Datenpunkten ermittelt wird.

Vertiefendes Lernen

Beim vertiefenden Lernen werden Algorithmen verwendet, die aus den Ergebnissen lernen und die nächste Aktion entscheiden. Nach jeder Aktion erhält der Algorithmus Ergebnisse, anhand derer er bestimmen kann, ob die Entscheidung korrekt, neutral oder falsch war. Dieses Verfahren ist gut für automatisierte Systeme geeignet, die ohne Zutun des Benutzers viele kleinen Entscheidungen müssen.

Ein Beispiel wäre, wenn Sie ein autonomes Fahrzeug entwerfen würden und dabei sicherstellen möchten, dass es für die Insassen sicher und mit dem Gesetz konform ist. Wenn das Fahrzeug Erfahrung sammelt und diese vertiefen konnte, lernt es, wie es auf der Spur bleibt, die Geschwindigkeitsbeschränkung einhält und für Fußgänger bremst.

Einsatzmöglichkeiten für Machine-Learning-Algorithmen

Mithilfe von Machine-Learning-Algorithmen können Sie Fragen beantworten, die für Antworten auf Basis manueller Analysen zu komplex sind. Die Anwendungsfälle lassen sich in der Regel einer der folgenden Kategorien zuordnen.

Zielkategorie vorhersagen

Zweiklassige (binäre) Klassifizierungsalgorithmen unterteilen die Daten in zwei Kategorien. Sie sind besonders bei Fragestellungen nützlich, bei denen es nur zwei mögliche Antworten gibt, die sich gegenseitig ausschließen (z. B. Ja/Nein-Fragen). Beispiel:

  • Übersteht dieser Reifen die nächsten 1000 Meilen: ja oder nein?
  • Was bringt mehr Empfehlungen ein, eine Gutschrift über 10 USD oder ein Rabatt von 15 %?

Algorithmen für mehrklassige (multinominale) Klassifizierung unterteilen die Daten in drei oder mehr Kategorien. Sie sind bei Fragestellungen nützlich, bei denen es drei oder mehr mögliche Antworten gibt, die sich gegenseitig ausschließen. Beispiel:

  • In welchem Monat kaufen die meisten Reisenden Flugtickets?
  • Welche Gefühlslage drückt die Person auf diesem Foto aus?

Ungewöhnliche Datenpunkte ermitteln

Algorithmen zur Anomalieerkennung ermitteln Datenpunkte, die außerhalb der für den Normalzustand definierten Parameter liegen. Sie würden Algorithmen für die Anomalieerkennung beispielsweise nutzen, um Fragestellungen wie die folgenden zu beantworten:

  • Wo sind die fehlerhaften Stellen in diesem Batch?
  • Bei welchen Kreditkartenkäufen könnte es sich um Betrug handeln?

Werte vorhersagen

Regressionsalgorithmen sagen den Wert eines neuen Datenpunkts anhand der Verlaufsdaten vorher. Sie sind bei Fragestellungen wie den folgenden nützlich:

  • Wie viel kostet eine Zwei-Zimmer-Wohnung in meiner Stadt durchschnittlich im nächsten Jahr?
  • Wie viele Patienten kommen am Dienstag in die Klinik?

Ähnlichkeiten ermitteln

Clusteringalgorithmen teilen die Daten in mehrere Gruppen auf, indem sie den Ähnlichkeitsgrad zwischen Datenpunkten ermitteln. Clusteringalgorithmen sind für folgende Fragestellungen gut geeignet:

  • Welche Besucher mögen dasselbe Filmgenre?
  • Welche Druckermodelle fallen auf dieselbe Weise aus?

Experimentieren Sie mit Azure Machine Learning

Hier erfahren Sie, wie unterschiedliche Algorithmen Daten analysieren, indem Sie eigene Machine Learning-Modelle mit Azure Machine Learning erstellen und bereitstellen.