Algoritmos de aprendizaje automático

Introducción a las matemáticas y la lógica subyacentes en el aprendizaje automático.

¿Qué son los algoritmos de aprendizaje automático?

Los algoritmos de aprendizaje automático son fragmentos de código que ayudan a los usuarios a explorar y analizar conjuntos de datos complejos y a buscar significado en ellos. Cada algoritmo es un conjunto finito de instrucciones paso a paso inequívocas que puede seguir una máquina para lograr un determinado objetivo. En un modelo de aprendizaje automático, el objetivo es establecer o detectar patrones que los usuarios puedan usar para hacer predicciones o clasificar información. ¿Qué es Machine Learning?

Los algoritmos de aprendizaje automático usan parámetros basados en los datos de entrenamiento, un subconjunto de datos que representa el conjunto más grande. A medida que aumentan los datos de entrenamiento para representar el mundo de una forma más realista, el algoritmo calcula resultados más precisos.

Los diferentes algoritmos analizan los datos de distinta manera. A menudo se agrupan con técnicas de aprendizaje automático que se usan para el aprendizaje supervisado, el aprendizaje no supervisado y el aprendizaje de refuerzo. Los algoritmos que se usan con más frecuencia utilizan la regresión y la clasificación para predecir categorías de destino, buscar puntos de datos inusuales, predecir valores y detectar similitudes.

Técnicas del aprendizaje automático

A medida que sepa más sobre los algoritmos de aprendizaje automático, verá que, normalmente, están dentro de una de estas tres técnicas de aprendizaje automático:

Aprendizaje supervisado

En el aprendizaje supervisado, los algoritmos elaboran predicciones basadas en un conjunto de ejemplos etiquetados que se les proporciona. Esta técnica es útil cuando se sabe cuál debe ser el resultado.

Por ejemplo, imagine que proporciona un conjunto de información que incluye la población de una serie de ciudades por año durante los últimos 100 años y quiere saber cuál será la población de una ciudad específica dentro de cuatro años. El resultado utiliza etiquetas que ya existen en el conjunto de datos: población, ciudad y año.

Aprendizaje no supervisado

En el aprendizaje no supervisado, los puntos de datos no están etiquetados; el algoritmo los etiqueta automáticamente organizando los datos o describiendo su estructura. Esta técnica es útil cuando no se sabe cuál debe ser el resultado.

Por ejemplo, imagine que proporciona datos de clientes y quiere crear segmentos de clientes a los que les gustan productos similares. Los datos que proporciona no están etiquetados y las etiquetas de los resultados se generan en función de las similitudes detectadas entre los puntos de datos.

Reforzar el aprendizaje

El aprendizaje de refuerzo utiliza algoritmos que aprenden de los resultados y deciden qué acción deben realizar a continuación. Después de cada acción, el algoritmo recibe comentarios que le ayudan a determinar si esa elección fue correcta, neutra o incorrecta. Es una buena técnica para usarla en sistemas automatizados que tienen que tomar muchas decisiones pequeñas sin indicaciones por parte de humanos.

Por ejemplo, imagine que está diseñando un automóvil autónomo y quiere asegurarse de que respeta la ley y mantiene la seguridad de los pasajeros. A medida que el coche adquiere experiencia y un historial de refuerzo, aprende a permanecer en su carril, a respetar el límite de velocidad y a frenar cuando hay peatones.

Qué se puede hacer con algoritmos de aprendizaje automático

Los algoritmos de aprendizaje automático ayudan a responder preguntas que son demasiado complejas para responder a través del análisis manual. Los casos de uso suelen pertenecer a una de estas categorías:

Predecir una categoría de destino

Los algoritmos de clasificación de dos clases (binaria) dividen los datos en dos categorías. Son útiles para preguntas que solo tienen dos respuestas posibles que se excluyen mutuamente, incluidas las preguntas cuya respuesta es sí o no. Por ejemplo:

  • ¿Se romperá este neumático en los próximos 1500 kilómetros?, ¿sí o no?
  • ¿Qué aporta más referencias: un crédito de 10 USD o un descuento del 15 %?

Los algoritmos de clasificación multiclase (multinomial) dividen los datos en tres o más categorías. Son útiles para preguntas que tienen tres o más respuestas posibles que se excluyen mutuamente. Por ejemplo:

  • ¿En qué mes compran los billetes de avión la mayoría de los viajeros?
  • ¿Qué emoción muestra la persona de esta foto?

Buscar puntos de datos inusuales

Los algoritmos de detección de anomalías identifican puntos de datos que están fuera de los parámetros definidos como “lo normal”. Por ejemplo, se pueden usar algoritmos de detección de anomalías para responder preguntas como:

  • ¿Qué piezas de este lote son defectuosas?
  • ¿Qué compras con tarjetas de crédito pueden ser fraudulentas?

Predecir valores

Los algoritmos de regresión predicen el valor de un nuevo punto de datos en función de datos históricos. Sirven para responder preguntas como las siguientes:

  • ¿Cuál será el costo medio de una casa con dos dormitorios en mi ciudad el año que viene?
  • ¿Cuántos pacientes vendrán a la clínica el martes?

Detectar similitudes

Los algoritmos de clústeres dividen los datos en varios grupos determinando el nivel de similitud entre los puntos de datos. Los algoritmos de clústeres funcionan bien para preguntas como:

  • ¿A qué espectadores les gusta el mismo tipo de películas?
  • ¿Qué modelos de impresora generan los mismos errores?

Comience a experimentar con Azure Machine Learning

Vea cómo diferentes algoritmos analizan los datos mediante la creación e implementación de sus propios modelos de aprendizaje automático usando Azure Machine Learning.