Trace Id is missing
Pular para o conteúdo principal

Algoritmos de aprendizado de máquina

Uma introdução à matemática e à lógica por trás do aprendizado de máquina.

O que são algoritmos de aprendizado de máquina?

Os algoritmos de aprendizado de máquina são snippets de código que ajudam as pessoas a explorar e analisar conjuntos de dados complexos e ver sentido neles. Cada algoritmo é um conjunto finito de instruções passo a passo não ambíguas que um computador pode seguir para atingir determinado objetivo. Em um modelo de machine learning, o objetivo é estabelecer ou descobrir padrões que as pessoas podem usar para fazer previsões ou categorizar informações. O que é Machine Learning?

Os algoritmos de aprendizado de máquina usam parâmetros baseados em dados de treinamento – um subconjunto de dados que representa o conjunto maior. À medida que os dados de treinamento se expandem para representar o mundo de modo mais realista, o algoritmo calcula resultados mais precisos.

Diferentes algoritmos analisam dados de maneiras diferentes. Geralmente, eles são agrupados pelas técnicas de aprendizado de máquina para as quais são usados: aprendizado supervisionado, aprendizado não supervisionado e aprendizado de reforço. Os algoritmos usados com mais frequência usam a regressão e a classificação para prever categorias de destino, encontrar pontos de dados incomuns, prever valores e descobrir semelhanças.

Técnicas do aprendizado de máquina

Conforme você aprender mais sobre os algoritmos de aprendizado de máquina, você descobrirá que eles normalmente se enquadram em uma das três técnicas de aprendizado de máquina:


Aprendizado supervisionado

No aprendizado supervisionado, os algoritmos fazem previsões com base em um conjunto de exemplos rotulados fornecidos por você. Essa técnica é útil quando você sabe como deve ser a aparência do resultado.
 

Por exemplo, você fornece um conjunto de dados que inclui populações de cidades por ano dos últimos 100 anos e deseja saber qual será a população de uma cidade específica daqui a quatro anos. O resultado usa rótulos que já existem no conjunto de dados: população, cidade e ano.
 

Aprendizado não supervisionado

No aprendizado não supervisionado, os pontos de dados não são rotulados – o algoritmo os rotula para você organizando os dados ou descrevendo a estrutura deles. Essa técnica é útil quando você não sabe como deve ser a aparência do resultado.

 

Por exemplo, você fornece dados do cliente e deseja criar segmentos de clientes que gostam de produtos semelhantes. Os dados que você está fornecendo não são rotulados e os rótulos no resultado são gerados com base nas semelhanças que foram descobertas entre os pontos de dados.

 

Aprendizado de reforço

O aprendizado de reforço usa algoritmos que aprendem com os resultados e decidem qual ação será executada em seguida. Após cada ação, o algoritmo recebe comentários que o ajudam a determinar se a escolha feita foi correta, neutra ou incorreta. É uma boa técnica a ser usada para sistemas automatizados que precisam tomar muitas decisões simples sem diretrizes humanas.

 

Por exemplo, você está criando um carro autônomo e deseja garantir que ele obedeça à lei e mantenha as pessoas seguras. À medida que o carro ganha experiência e um histórico de reforço, ele aprende a permanecer na pista, respeitar o limite de velocidade e usar o freio em caso de pedestres.

O que você pode fazer com os algoritmos de aprendizado de máquina

Os algoritmos de aprendizado de máquina ajudam você a responder a perguntas que são muito complexas para serem respondidas pela análise manual. Há muitos tipos diferentes de algoritmos de machine learning, mas os casos de uso para algoritmos de machine learning geralmente se enquadram em uma dessas categorias.

Prever uma categoria de destino

Os algoritmos de classificação de duas classes (binária) dividem os dados em duas categorias. Eles são úteis para perguntas que tenham apenas duas respostas possíveis que sejam mutuamente exclusivas, incluindo perguntas do tipo sim/não. Por exemplo:

  • Este pneu falhará nas próximas 1.000 milhas: sim ou não?
  • O que traz mais indicações: um crédito de USD$ 10 ou um desconto de 15%?

 

Os algoritmos de classificação multiclasse (multinomial) dividem os dados em três ou mais categorias. Eles são úteis para perguntas que tenham três ou mais respostas possíveis que sejam mutuamente exclusivas. Por exemplo:

  • Em que mês a maioria dos viajantes compra passagens aéreas?
  • Qual emoção a pessoa desta foto está mostrando?

Encontrar pontos de dados incomuns

Os algoritmos de detecção de anomalias identificam pontos de dados que estão fora dos parâmetros definidos para o que é "normal". Por exemplo, você usa os algoritmos de detecção de anomalias para responder a perguntas como:

  • Onde estão as peças com defeito neste lote?
  • Quais compras de cartão de crédito podem ser fraudulentas?

Prever valores

Os algoritmos de regressão preveem o valor de um novo ponto de dados com base em dados históricos. Eles ajudam a responder a perguntas como:

  • Quanto custará uma casa média de dois quartos na minha cidade no próximo ano?
  • Quantos pacientes passarão pela clínica na terça-feira?

Veja como os valores mudam ao longo do tempo

Os algoritmos de série temporal mostram como um determinado valor muda ao longo do tempo. Com a análise de série temporal e a previsão de séries temporais, os dados são coletados em intervalos regulares ao longo do tempo e usados para fazer previsões e identificar tendências, sazonalidade, ciclicidade e irregularidade. Os algoritmos de série temporal são usados para responder a perguntas como:

  • É provável que o preço de uma determinada ação suba ou caia no próximo ano?
  • Quais serão as minhas despesas no próximo ano?

Descobrir semelhanças

Os algoritmos de clustering dividem os dados em vários grupos determinando o nível de similaridade entre os pontos de dados. Os algoritmos de clustering são bons para perguntas como:

  • Quais expectadores gostam dos mesmos tipos de filmes?
  • Quais modelos de impressora falham da mesma forma?

Classificação

Os algoritmos de classificação usam cálculos preditivos para atribuir dados a categorias predefinidas. Os algoritmos de classificação são treinados em dados de entrada e usados para responder a perguntas como:

  • Este email é spam?
  • Qual é o sentimento (positivo, negativo ou neutro) de um determinado texto?
Os algoritmos de regressão linear mostram ou preveem a relação entre duas variáveis ou dois fatores ajustando uma linha reta contínua aos dados. A linha geralmente é calculada com a função Custo de Erro Quadrado. A regressão linear é um dos tipos mais populares de análise de regressão.
Os algoritmos de regressão logística ajustam uma curva contínua em forma de S aos dados. A regressão logística é outro tipo popular de análise de regressão.
Os algoritmos de Naïve Bayes calculam a probabilidade de um evento ocorrer, com base na ocorrência de um evento relacionado.
Os computadores de vetor de suporte desenham um hiperplano entre os dois pontos de dados mais próximos. Isso marginaliza as classes e maximiza as distâncias entre elas para diferenciá-las mais claramente.
Os algoritmos de árvore de decisão dividem os dados em dois ou mais conjuntos homogêneos. Eles usam as regras se–então para separar os dados com base no diferenciador mais significativo entre os pontos de dados.
Os algoritmos de K-vizinho mais próximo armazenam todos os pontos de dados disponíveis e classificam cada novo ponto de dados com base nos pontos de dados mais próximos deles, conforme medido por uma função de distância.
Os algoritmos de floresta aleatória se baseiam nas árvores de decisão, mas em vez de criar uma árvore, eles criam uma floresta de árvores e, em seguida, tornam aleatórias as árvores dessa floresta. Em seguida, agregam votos de diferentes formações aleatórias das árvores de decisão para determinar a classe final do objeto de teste.
Os algoritmos de gradient boosting produzem um modelo de previsão que agrupa modelos de previsão fracos – normalmente, árvores de decisão – por meio de um processo de ensembling que aprimora o desempenho geral do modelo.
Os algoritmosK-means classificam os dados em clusters – em que K é igual ao número de clusters. Os pontos de dados dentro de cada cluster são homogêneos e são heterogêneos para pontos de dados em outros clusters.

O que são bibliotecas de machine learning?

Uma biblioteca de machine learning é um conjunto de funções, estruturas, módulos e rotinas escritos em uma determinada linguagem. Os desenvolvedores usam o código nas bibliotecas de machine learning como blocos de construção para a criação de soluções de machine learning que podem executar tarefas complexas. Em vez de ter que codificar manualmente todos os algoritmos e fórmulas em uma solução de machine learning, os desenvolvedores podem encontrar as funções e os módulos de que precisam em uma das muitas bibliotecas de ML disponíveis e usá-los para criar uma solução que atenda às necessidades deles.

Comece a fazer experimentos com o Azure Machine Learning

Veja como diferentes algoritmos analisam dados criando e implantando os próprios modelos de machine learning usando o Azure Machine Learning.