Algorithmes Machine Learning

Une introduction aux mathématiques et à la logique qui sous-tendent le Machine Learning.

Présentation des algorithmes Machine Learning

Les algorithmes Machine Learning sont des morceaux de code qui permettent aux utilisateurs d’explorer, d’analyser et de trouver une signification dans des jeux de données complexes. Chaque algorithme est un ensemble limité d’instructions pas à pas non ambiguës qu’un ordinateur peut suivre pour atteindre un certain objectif. Dans un modèle Machine Learning, l’objectif est d’établir ou de découvrir des modèles que les utilisateurs peuvent utiliser pour faire des prédictions ou classer des informations. Présentation de Machine Learning

Les algorithmes Machine Learning utilisent des paramètres basés sur les données d’apprentissage, un sous-ensemble de données qui représente l’ensemble le plus grand. À mesure que les données d’apprentissage s’étendent pour représenter le monde de façon plus réaliste, l’algorithme calcule des résultats plus précis.

Les différents algorithmes analysent les données de différentes façons. Ils sont souvent regroupés en fonction des techniques Machine Learning associées : l’apprentissage supervisé, l’apprentissage non supervisé et l’apprentissage par renforcement. Les algorithmes les plus couramment utilisés utilisent la régression et la classification pour prédire des catégories cibles, rechercher des points de données inhabituels, prédire des valeurs et découvrir des similarités.

Techniques Machine Learning

À mesure que vous en apprendrez davantage sur les algorithmes Machine Learning, vous constaterez qu’ils appartiennent généralement à l’une des trois techniques Machine Learning :

Apprentissage supervisé

Les algorithmes d’apprentissage supervisé font des prédictions basées sur un ensemble d’exemples étiquetés que vous fournissez. Cette technique est utile lorsque vous savez à quoi doit ressembler le résultat.

Par exemple, vous fournissez un jeu de données qui inclut le nombre d’habitants dans la ville par année au cours des 100 dernières années, et vous souhaitez savoir quelle sera la population d’une ville spécifique dans quatre ans. Le résultat utilise des étiquettes qui existent déjà dans le jeu de données : population, ville et année.

Apprentissage non supervisé

Dans l’apprentissage non supervisé, les points de données ne sont pas étiquetés : l’algorithme les étiquette pour vous en organisant les données ou en décrivant leur structure. Cette technique est utile lorsque vous ne savez pas à quoi doit ressembler le résultat.

Par exemple, vous fournissez des données client et vous souhaitez créer des segments de clients qui aiment des produits similaires. Les données que vous fournissez ne sont pas étiquetées et les étiquettes dans le résultat sont générées en fonction des similarités détectées entre les points de données.

Apprentissage par renforcement

L’apprentissage par renforcement utilise des algorithmes qui apprennent des résultats et décident de l’action à entreprendre ensuite. Après chaque action, l’algorithme reçoit un feedback qui permet de déterminer si le choix effectué est correct, neutre ou incorrect. C’est une solution parfaitement adaptée aux systèmes automatisés qui doivent prendre un grand nombre de petites décisions sans instructions humaines.

Par exemple, vous concevez une voiture autonome et vous souhaitez vous assurer qu’elle respecte les réglementations et garantit la sécurité des passagers. À mesure que la voiture gagne en expérience et génère un historique de renforcement, elle apprend à rester sur sa voie, à respecter la limite de vitesse et à freiner pour laisser passer les piétons.

Possibilités offertes par les algorithmes Machine Learning

Les algorithmes Machine Learning vous aident à répondre à des questions auxquelles il est trop difficile de répondre avec une analyse manuelle. Les cas d’usage entrent généralement dans l’une des catégories suivantes.

Prédire une catégorie cible

Les algorithmes de classification à deux classes (binaires) divisent les données en deux catégories. Ils sont utiles pour les questions qui n’ont que deux réponses possibles qui s’excluent mutuellement, notamment des questions de type oui/non. Par exemple :

  • Une défaillance du pneu pourra-t-elle se produire dans les prochains 1 600 km ? Oui ou non ?
  • Qu’est-ce qui attire le plus les clients : un crédit de 10 USD ou une remise de 15 % ?

Les algorithmes de classification multiclasse (multimultinomiale) divisent les données en trois catégories ou plus. Ils sont utiles pour les questions qui ont au moins trois réponses possibles qui s’excluent mutuellement. Par exemple :

  • Pendant quel mois la majorité des voyageurs achètent-ils des billets d’avion ?
  • Quelle émotion la personne de cette photo montre-t-elle ?

Trouver des points de données inhabituels

Les algorithmes de détection d’anomalies identifient les points de données qui se trouvent en dehors des paramètres définis pour ce qui est considéré comme « normal ». Par exemple, vous pouvez utiliser des algorithmes de détection d’anomalies pour répondre à des questions, par exemple :

  • Où se trouvent les pièces défectueuses dans ce lot ?
  • Quels achats par carte de crédit peuvent être frauduleux ?

Prédire des valeurs

Les algorithmes de régression prédisent la valeur d’un nouveau point de données basé sur les données d’historique. Ils répondent à des questions telles que :

  • Combien coûtera un 3 pièces dans ma ville l’année prochaine ?
  • Combien de patients viendront à la clinique mardi ?

Découvrir des similitudes

Les algorithmes de clustering divisent les données en plusieurs groupes en déterminant le niveau de similarité entre les points de données. Les algorithmes de clustering fonctionnent bien pour des questions telles que :

  • Quels spectateurs aiment les mêmes types de films ?
  • Quels modèles d’imprimante tombent en panne de la même manière ?

Commencez à expérimenter avec Azure Machine Learning

Découvrez comment différents algorithmes analysent les données en créant et en déployant vos propres modèles Machine Learning à l’aide d’Azure Machine Learning.