Trace Id is missing
Saltar al contenido principal

Algoritmos de aprendizaje automático

Una introducción a las matemáticas y la lógica subyacentes en el aprendizaje automático.

¿Qué son los algoritmos de aprendizaje automático?

Los algoritmos de aprendizaje automático son fragmentos de código que ayudan a los usuarios a explorar y analizar conjuntos de datos complejos y a buscar significado en ellos. Cada algoritmo es un conjunto finito de instrucciones paso a paso inequívocas que puede seguir una máquina para lograr un determinado objetivo. En un modelo de aprendizaje automático, el objetivo es establecer o detectar patrones que los usuarios puedan usar para hacer predicciones o clasificar información. ¿Qué es el aprendizaje automático?

Los algoritmos de aprendizaje automático usan parámetros basados en los datos de entrenamiento, un subconjunto de datos que representa el conjunto más grande. A medida que aumentan los datos de entrenamiento para representar el mundo de una forma más realista, el algoritmo calcula resultados más precisos.

Los diferentes algoritmos analizan los datos de distinta manera. A menudo, se agrupan con técnicas de aprendizaje automático que se usan para el aprendizaje supervisado, el aprendizaje no supervisado y el aprendizaje de refuerzo. Los algoritmos que se usan con más frecuencia utilizan la regresión y la clasificación para predecir categorías de destino, buscar puntos de datos inusuales, predecir valores y detectar similitudes.

Técnicas de aprendizaje automático

A medida que sepas más sobre los algoritmos de aprendizaje automático, verás que, normalmente, están dentro de una de estas tres técnicas de aprendizaje automático:


Aprendizaje supervisado

En el aprendizaje supervisado, los algoritmos elaboran predicciones basadas en un conjunto de ejemplos etiquetados que se les proporciona. Esta técnica es útil cuando sabes cómo será el resultado.
 

Por ejemplo, imagina que proporcionas un conjunto de información que incluye la población de una serie de ciudades por año durante los últimos 100 años y quieres saber cuál será la población de una ciudad específica dentro de cuatro años. El resultado utiliza etiquetas que ya existen en el conjunto de datos: población, ciudad y año.
 

Aprendizaje no supervisado

En el aprendizaje no supervisado, los puntos de datos no están etiquetados; el algoritmo los etiqueta automáticamente organizando los datos o describiendo su estructura. Esta técnica es útil cuando no sabes cómo será el resultado.

 

Por ejemplo, imagina que proporcionas datos de clientes y quieres crear segmentos de clientes a los que les gustan productos similares. Los datos que proporcionas no están etiquetados y las etiquetas de los resultados se generan en función de las similitudes detectadas entre los puntos de datos.

 

Reforzar el aprendizaje

El aprendizaje de refuerzo utiliza algoritmos que aprenden de los resultados y deciden qué acción deben realizar a continuación. Después de cada acción, el algoritmo recibe comentarios que le ayudan a determinar si esa elección fue correcta, neutra o incorrecta. Es una buena técnica para usarla en sistemas automatizados que tienen que tomar muchas decisiones pequeñas sin la intervención humana.

 

Por ejemplo, imagina que estás diseñando un automóvil autónomo y quieres asegurarse de que respeta la ley y mantiene la seguridad de los pasajeros. A medida que el coche adquiere experiencia y un historial de refuerzo, aprende a permanecer en su carril, a respetar el límite de velocidad y a frenar cuando hay peatones.

Qué puedes hacer con los algoritmos de aprendizaje automático

Los algoritmos de aprendizaje automático ayudan a responder preguntas que son demasiado complejas para responder a través del análisis manual. Hay muchos tipos de algoritmos de aprendizaje automático, pero los casos de uso de estos algoritmos suelen estar dentro de alguna de estas categorías.

Predecir una categoría de destino

Losalgoritmos de clasificación de dos clases (binaria) dividen los datos en dos categorías. Son útiles para preguntas que solo tienen dos respuestas posibles que se excluyen mutuamente, incluidas las preguntas cuya respuesta es sí o no. Por ejemplo:

  • ¿Se romperá este neumático en los próximos 1500 kilómetros?, ¿sí o no?
  • ¿Qué aporta más referencias: un crédito de 10 $ o un descuento del 15 %?

 

Losalgoritmos de clasificación multiclase (multinomial) dividen los datos en tres o más categorías. Son útiles para preguntas que tienen tres o más respuestas posibles que se excluyen mutuamente. Por ejemplo:

  • ¿En qué mes compran los billetes de avión la mayoría de los viajeros?
  • ¿Qué emoción muestra la persona de esta foto?

Buscar puntos de datos inusuales

Losalgoritmos de detección de anomalías identifican puntos de datos que están fuera de los parámetros definidos como “lo normal”. Por ejemplo, se pueden usar algoritmos de detección de anomalías para responder preguntas como:

  • ¿Qué piezas de este lote son defectuosas?
  • ¿Qué compras con tarjetas de crédito pueden ser fraudulentas?

Predecir valores

Losalgoritmos de regresión predicen el valor de un nuevo punto de datos en función de datos históricos. Sirven para responder preguntas como las siguientes:

  • ¿Cuál será el coste medio de una casa con dos dormitorios en mi ciudad el año que viene?
  • ¿Cuántos pacientes vendrán a la clínica el martes?

Ver cómo cambian los valores a lo largo del tiempo

Losalgoritmos de serie temporal muestran cómo cambia un valor determinado a lo largo del tiempo. Con el análisis de serie temporal y la previsión de serie temporal, los datos se recopilan a intervalos regulares a lo largo del tiempo y se usan para realizar predicciones e identificar tendencias, estacionalidad, ciclicidad e irregularidades. Los algoritmos de serie temporal se usan para responder a preguntas como las siguientes:

  • ¿Es probable que el precio de unas acciones determinadas suba o baje el año que viene?
  • ¿Qué gastos tendré el año que viene?

Detectar similitudes

Losalgoritmos de clústeres dividen los datos en varios grupos determinando el nivel de similitud entre los puntos de datos. Los algoritmos de clústeres funcionan bien para preguntas como:

  • ¿A qué espectadores les gusta el mismo tipo de películas?
  • ¿Qué modelos de impresora generan los mismos errores?

Clasificación

Losalgoritmos de clasificación usan cálculos predictivos para asignar datos a categorías preestablecidas. Los algoritmos de clasificación se entrenan para reconocer datos de entrada y se usan para responder a preguntas como las siguientes:

  • ¿Este mensaje es un correo electrónico no deseado?
  • ¿Qué opinión (positiva, negativa o neutra) expresa un texto determinado?

Los algoritmos deregresión lineal muestran o predicen la relación entre dos variables o factores poniendo una línea recta continua a los datos. La línea suele calcularse con la función de coste del error cuadrático. La regresión lineal es uno de los tipos de análisis de regresión más populares.

Los algoritmos deregresión logística ponen una curva continua en forma de S en los datos. La regresión logística es otro tipo popular de análisis de regresión.

Los algoritmos deNaïve Bayes calculan la probabilidad de que se produzca un evento en función de que ocurra un evento relacionado.

Lasmáquinas de vectores de soporte dibujan un hiperplano entre los dos puntos de datos más cercanos. Esto margina las clases y maximiza la distancia entre ellas para diferenciarlas más claramente.

Los algoritmos deárbol de decisión dividen los datos en dos o más conjuntos homogéneos. Usan reglas if-then para separar los datos según el diferenciador más significativo entre los puntos de datos.

Los algoritmos deK vecinos más cercanos almacenan todos los puntos de datos disponibles y clasifican cada punto de datos nuevo en función de los puntos de datos más cercanos a él, medidos por una función de distancia.

Los algoritmos debosque aleatorio se basan en árboles de decisión, pero, en lugar de crear un árbol, crean un bosque de árboles y, después, aleatorizan los árboles de ese bosque. A continuación, suman los votos de diferentes formaciones aleatorias de los árboles de decisión para determinar la clase final del objeto de prueba.

Los algoritmos depotenciación del gradiente producen un modelo de predicción que agrupa los modelos de predicción débiles (normalmente, los árboles de decisión) a través de un proceso de creación de conjuntos que mejora el rendimiento general del modelo.

Los algoritmosK-Means clasifican los datos en clústeres, donde K es igual al número de clústeres. Los puntos de datos que están dentro de cada clúster son homogéneos y son heterogéneos respecto a los puntos de datos de otros clústeres.

¿Qué son las bibliotecas de aprendizaje automático?

Una biblioteca de aprendizaje automático es un conjunto de funciones, marcos, rutinas y módulos escritos en un lenguaje determinado. Los desarrolladores usan el código de las bibliotecas de aprendizaje automático como bloques para crear soluciones de aprendizaje automático que puedan realizar tareas complejas. En lugar de tener que programar manualmente todos los algoritmos y fórmulas de una solución de aprendizaje automático, los desarrolladores pueden encontrar las funciones y los módulos que necesitan en alguna de las muchas bibliotecas de ML disponibles y usarlos para crear una solución que satisfaga sus necesidades.

Comenzar a experimentar con Azure Machine Learning

Descubre cómo diferentes algoritmos analizan los datos mediante la creación e implementación de tus propios modelos de aprendizaje automático usando Azure Machine Learning.