Algoritmos de aprendizado de máquina
Uma introdução à matemática e à lógica por trás do aprendizado de máquina.
O que são algoritmos de aprendizado de máquina?
Os algoritmos de aprendizado de máquina são snippets de código que ajudam as pessoas a explorar e analisar conjuntos de dados complexos e ver sentido neles. Cada algoritmo é um conjunto finito de instruções passo a passo não ambíguas que um computador pode seguir para atingir determinado objetivo. Em um modelo de machine learning, o objetivo é estabelecer ou descobrir padrões que as pessoas podem usar para fazer previsões ou categorizar informações. O que é Machine Learning?
Os algoritmos de aprendizado de máquina usam parâmetros baseados em dados de treinamento – um subconjunto de dados que representa o conjunto maior. À medida que os dados de treinamento se expandem para representar o mundo de modo mais realista, o algoritmo calcula resultados mais precisos.
Diferentes algoritmos analisam dados de maneiras diferentes. Geralmente, eles são agrupados pelas técnicas de aprendizado de máquina para as quais são usados: aprendizado supervisionado, aprendizado não supervisionado e aprendizado de reforço. Os algoritmos usados com mais frequência usam a regressão e a classificação para prever categorias de destino, encontrar pontos de dados incomuns, prever valores e descobrir semelhanças.
Técnicas do aprendizado de máquina
Conforme você aprender mais sobre os algoritmos de aprendizado de máquina, você descobrirá que eles normalmente se enquadram em uma das três técnicas de aprendizado de máquina:
Aprendizado supervisionado
No aprendizado supervisionado, os algoritmos fazem previsões com base em um conjunto de exemplos rotulados fornecidos por você. Essa técnica é útil quando você sabe como deve ser a aparência do resultado.
Por exemplo, você fornece um conjunto de dados que inclui populações de cidades por ano dos últimos 100 anos e deseja saber qual será a população de uma cidade específica daqui a quatro anos. O resultado usa rótulos que já existem no conjunto de dados: população, cidade e ano.
Aprendizado não supervisionado
No aprendizado não supervisionado, os pontos de dados não são rotulados – o algoritmo os rotula para você organizando os dados ou descrevendo a estrutura deles. Essa técnica é útil quando você não sabe como deve ser a aparência do resultado.
Por exemplo, você fornece dados do cliente e deseja criar segmentos de clientes que gostam de produtos semelhantes. Os dados que você está fornecendo não são rotulados e os rótulos no resultado são gerados com base nas semelhanças que foram descobertas entre os pontos de dados.
Aprendizado de reforço
O aprendizado de reforço usa algoritmos que aprendem com os resultados e decidem qual ação será executada em seguida. Após cada ação, o algoritmo recebe comentários que o ajudam a determinar se a escolha feita foi correta, neutra ou incorreta. É uma boa técnica a ser usada para sistemas automatizados que precisam tomar muitas decisões simples sem diretrizes humanas.
Por exemplo, você está criando um carro autônomo e deseja garantir que ele obedeça à lei e mantenha as pessoas seguras. À medida que o carro ganha experiência e um histórico de reforço, ele aprende a permanecer na pista, respeitar o limite de velocidade e usar o freio em caso de pedestres.
O que você pode fazer com os algoritmos de aprendizado de máquina
Os algoritmos de aprendizado de máquina ajudam você a responder a perguntas que são muito complexas para serem respondidas pela análise manual. Há muitos tipos diferentes de algoritmos de machine learning, mas os casos de uso para algoritmos de machine learning geralmente se enquadram em uma dessas categorias.
Prever uma categoria de destino
Os algoritmos de classificação de duas classes (binária) dividem os dados em duas categorias. Eles são úteis para perguntas que tenham apenas duas respostas possíveis que sejam mutuamente exclusivas, incluindo perguntas do tipo sim/não. Por exemplo:
- Este pneu falhará nas próximas 1.000 milhas: sim ou não?
- O que traz mais indicações: um crédito de USD$ 10 ou um desconto de 15%?
Os algoritmos de classificação multiclasse (multinomial) dividem os dados em três ou mais categorias. Eles são úteis para perguntas que tenham três ou mais respostas possíveis que sejam mutuamente exclusivas. Por exemplo:
- Em que mês a maioria dos viajantes compra passagens aéreas?
- Qual emoção a pessoa desta foto está mostrando?
Encontrar pontos de dados incomuns
Os algoritmos de detecção de anomalias identificam pontos de dados que estão fora dos parâmetros definidos para o que é "normal". Por exemplo, você usa os algoritmos de detecção de anomalias para responder a perguntas como:
- Onde estão as peças com defeito neste lote?
- Quais compras de cartão de crédito podem ser fraudulentas?
Prever valores
Os algoritmos de regressão preveem o valor de um novo ponto de dados com base em dados históricos. Eles ajudam a responder a perguntas como:
- Quanto custará uma casa média de dois quartos na minha cidade no próximo ano?
- Quantos pacientes passarão pela clínica na terça-feira?
Veja como os valores mudam ao longo do tempo
Os algoritmos de série temporal mostram como um determinado valor muda ao longo do tempo. Com a análise de série temporal e a previsão de séries temporais, os dados são coletados em intervalos regulares ao longo do tempo e usados para fazer previsões e identificar tendências, sazonalidade, ciclicidade e irregularidade. Os algoritmos de série temporal são usados para responder a perguntas como:
- É provável que o preço de uma determinada ação suba ou caia no próximo ano?
- Quais serão as minhas despesas no próximo ano?
Descobrir semelhanças
Os algoritmos de clustering dividem os dados em vários grupos determinando o nível de similaridade entre os pontos de dados. Os algoritmos de clustering são bons para perguntas como:
- Quais expectadores gostam dos mesmos tipos de filmes?
- Quais modelos de impressora falham da mesma forma?
Classificação
Os algoritmos de classificação usam cálculos preditivos para atribuir dados a categorias predefinidas. Os algoritmos de classificação são treinados em dados de entrada e usados para responder a perguntas como:
- Este email é spam?
- Qual é o sentimento (positivo, negativo ou neutro) de um determinado texto?
O que são bibliotecas de machine learning?
Uma biblioteca de machine learning é um conjunto de funções, estruturas, módulos e rotinas escritos em uma determinada linguagem. Os desenvolvedores usam o código nas bibliotecas de machine learning como blocos de construção para a criação de soluções de machine learning que podem executar tarefas complexas. Em vez de ter que codificar manualmente todos os algoritmos e fórmulas em uma solução de machine learning, os desenvolvedores podem encontrar as funções e os módulos de que precisam em uma das muitas bibliotecas de ML disponíveis e usá-los para criar uma solução que atenda às necessidades deles.
Saiba mais sobre o aprendizado de máquina
Comece a fazer experimentos com o Azure Machine Learning
Veja como diferentes algoritmos analisam dados criando e implantando os próprios modelos de machine learning usando o Azure Machine Learning.