Aprendizado supervisionado e não supervisionado: qual é melhor?

Modelos de aprendizado supervisionados e não supervisionados atuam de maneiras específicas para ajudar empresas a melhorar o engajamento com clientes.

A tecnologia inteligente está em toda parte, influenciando quase todos os aspectos da rotina diária. Clientes estão cada vez mais exigentes, em busca de mais informações, recursos de automação, maior rapidez, tudo isso com o simples clique de um botão. Para manter o ritmo, empresas devem se adaptar e implementar novas tecnologias ou correm o risco de ficar para trás.

O avanço da inteligência artificial (IA) no cenário corporativo tem aumentado ainda mais essa necessidade. Sistemas de segurança podem transformar impressões digitais e varreduras faciais em dados biométricos para desbloquear portas de entrada e smartphones. Sistemas do setor financeiro conseguem detectar padrões de compra atípicos e enviar mensagens automaticamente para permitir que usuários possam controlar as transações. Assistentes de voz em smartphones utilizam o processamento de linguagem natural para analisar áudios e fornecer respostas para uma série de consultas. Todas essas tecnologias surpreendentes estão cada vez mais avançadas com o uso de algoritmos de machine learning (ML).

O machine learning é um subconjunto da IA. Especificamente, uma aplicação de inteligência artificial que permite o aprendizado e o aperfeiçoamento de sistemas com base em dados. Da mesma forma que seres humanos aprendem com experiências diárias, o ML melhora gradualmente as previsões e a acurácia através de diversas iterações. Para modelos de ML, os dados de treinamento são obtidos em dispositivos IoT, coletados em transações, ou capturados em redes sociais. Algoritmos de data science ajudam a filtrar, classificar e agrupar informações baseadas em diversos parâmetros para esses computadores. Com o processamento e combinação de dados, o ML pode criar modelos para detectar com precisão padrões de comportamento humano e reagir de forma adequada.

Por exemplo, quando um cliente faz uma pesquisa on-line em busca de um novo celular e limita suas opções, o site oferece comparações de outros modelos ou acessórios disponíveis no momento da compra. Esse modelo de resposta é gerado a partir de dados processados durante compras semelhantes anteriores, capacitando a máquina a desenvolver um parâmetro para ajudar novos clientes a tomar decisões parecidas e fundamentadas.

O ML trabalha com três tipos de algoritmos: supervisionado, não supervisionado e por reforço. No aprendizado por reforço, os modelos são treinados para elaborar uma sequência de decisões. O aprendizado supervisionado e não supervisionado possui uma diferença significativa. O aprendizado supervisionado utiliza conjuntos de dados rotulados, enquanto o não supervisionado emprega conjuntos de dados não rotulados. O termo "rotulado" significa que os dados já estão marcados com a resposta correta.

Aprendizado supervisionado

A abordagem do aprendizado supervisionado no ML emprega conjuntos de dados rotulados que fazem o treinamento de algoritmos para classificar dados ou prever resultados com precisão. O modelo utiliza rótulos de dados para avaliar a relevância de diferentes características e melhorar gradualmente o desempenho dos resultados esperados. O aprendizado supervisionado é classificado em duas categorias principais:

  • Classificação: Problemas de classificação empregam algoritmos para classificar dados em segmentos específicos. Um exemplo prático é um algoritmo que ajuda a eliminar spams na caixa de entrada prioritária de e-mails ou um algoritmo que ajuda usuários a bloquear ou restringir o acesso de outras pessoas nas redes sociais. Alguns algoritmos de classificação comuns incluem regressão logística, k-vizinhos mais próximos, floresta aleatória, Naïve Bayes, gradiente descendente estocástico e árvores de decisão.
  • Regressão: Este é um método estatístico de ML que utiliza algoritmos para avaliar a relação entre uma variável dependente e, um ou diversos fatores isolados. Com modelos de regressão, é possível fazer previsões de causa e efeito com base em múltiplos pontos de dados. Em uma empresa, por exemplo, isso pode incluir a projeção do crescimento da receita publicitária. Entre alguns algoritmos de regressão comuns estão a regressão ridge, lasso, regressão de redes neurais e regressão logística.

Aprendizado não supervisionado

Com o aprendizado não supervisionado, algoritmos de ML são adotados para analisar e agrupar conjuntos de dados sem rótulos. Esses modelos podem detectar padrões desconhecidos nos dados sem qualquer controle humano. Os algoritmos podem ser divididos em três categorias diferentes:

  • Clustering: Com base em semelhanças ou diferenças, os dados sem rótulos são agrupados com técnicas de clustering. Por exemplo, quando uma empresa estuda a segmentação de mercado, o algoritmo de clusterização K-means atribui valores semelhantes em grupos correspondentes ao conjunto de parâmetros. Esse agrupamento pode ser feito com base no local, índices de renda, idade dos clientes ou qualquer outra variável.
  • Associação: Quando um usuário deseja identificar as correlações entre as variáveis no conjunto de dados, o método de associação do aprendizado não supervisionado é eficaz. Essa é a técnica aplicada para criar o aviso — "outros clientes também consultaram". Ela é ideal para motores de recomendação. 15 clientes compraram um novo telefone, além de fones de ouvido para combinar com o aparelho. Assim, o algoritmo indica fones de ouvido a todos os usuários que incluem um aparelho celular no carrinho de compras.
  • Redução de dimensionalidade: Em alguns casos, um conjunto de dados apresenta diversas características diferentes. A redução da dimensionalidade ajuda a limitar essas variáveis, sem comprometer a integridade das informações. Essa é uma técnica muito usada antes do processamento de dados. Um exemplo é a redução de ruído de imagens, que suaviza os pixels e realça a claridade visual.

Diferenças entre o aprendizado supervisionado e não supervisionado

Após entender os princípios do aprendizado supervisionado e não supervisionado, é simples reconhecer a funcionalidade de cada um.

A principal diferença entre as duas abordagens é a classificação entre conjuntos de dados rotulados e não rotulados. O aprendizado supervisionado utiliza conjuntos de dados com rótulos para treinar algoritmos de classificação ou previsão. Dados identificados como "treinamento" são adicionados, e o modelo ajusta de forma iterativa a maneira como avalia diferentes características até alcançar o resultado desejado. Modelos de aprendizado supervisionado são mais rigorosos em comparação ao método de aprendizagem sem supervisão. Contudo, demandam o envolvimento do usuário durante o processamento de dados para garantir que a rotulagem seja feita adequadamente.

Por exemplo, um modelo de aprendizado supervisionado pode prever horários de voos com base em períodos de pico nos aeroportos, congestionamentos no tráfego aéreo e condições meteorológicas (além de diversos outros fatores). Mas exige a intervenção do usuário para rotular os conjuntos de dados e treinar o modelo para determinar como essas variáveis podem influenciar o cronograma de voos. Um modelo supervisionado precisa conhecer os resultados para concluir que a neve representa uma caraterística de atraso nos voos.

Por outro lado, modelos de aprendizado não supervisionado sempre operam sem a intervenção humana. Eles detectam e atingem uma estrutura composta por dados não rotulados. A única colaboração do usuário aqui é a validação das variáveis de saída. Por exemplo, quando alguém compra um novo laptop on-line, um modelo de aprendizado não supervisionado entende que o usuário pertence a um grupo de clientes que compram uma série de produtos relacionados em conjunto. No entanto, a função do analista de dados é garantir que o sistema de recomendação possa oferecer opções para bolsas de laptop, protetores de tela e carregadores de carro.

Resultados vs. insights

Os propósitos com o aprendizado supervisionado e não supervisionado são diferentes. Enquanto o primeiro consiste na previsão de resultados com a introdução de novos dados, o segundo visa obter insights a partir de grandes volumes de dados inéditos. No aprendizado supervisionado, o usuário conhece os resultados esperados, enquanto no aprendizado não supervisionado, ele pretende encontrar informações inovadoras e desconhecidas.

Aplicações diversificadas

Modelos construídos com o aprendizado supervisionado são indicados para ajudar na detecção de spams ou no processo da análise de sentimentos. Esses modelos também podem ser usados para fazer previsões meteorológicas ou prever variações de preços. O aprendizado não supervisionado é ideal para detectar anomalias ou qualquer tipo de outlier. O aprendizado supervisionado também pode ser útil em motores de recomendação e para entender o perfil dos clientes.

Complexidade variada

Durante o aprendizado supervisionado para a criação de modelos de ML, é possível utilizar ferramentas muito simples — geralmente programas como R ou Python são suficientes. Entretanto, o aprendizado não supervisionado requer capacidade computacional para processar grandes volumes de dados não rotulados.

Desvantagens do aprendizado supervisionado e não supervisionado

Como em qualquer tecnologia, tanto modelos de aprendizado supervisionado e não supervisionado apresentam algumas desvantagens.

O treinamento do aprendizado supervisionado pode levar muito tempo e exige conhecimentos do usuário para validar os rótulos — tanto para entradas quanto para saídas. A classificação de big data representa muitos desafios no aprendizado supervisionado, contudo, após a rotulagem, os resultados são confiáveis.

Às vezes, o aprendizado não supervisionado produz resultados completamente equivocados, com exceção de alguma intervenção humana para validar os valores. Ao contrário do aprendizado supervisionado, ele pode processar qualquer volume de dados em tempo real, mas, como a máquina aprende sozinha, a visibilidade da classificação é menor. Com isso, aumenta a probabilidade de resultados insatisfatórios.

Como escolher entre o aprendizado supervisionado e não supervisionado

Como uma organização consegue determinar qual é a opção mais adequada? A resposta está no contexto das necessidades específicas dos negócios e sobre como cientistas de dados podem avaliar e gerenciar a maior parte das informações. Quando lideranças precisam implementar estruturas para o processamento de dados, é importante pensar nas seguintes questões:

  • É necessário acessar e analisar os dados, independentemente de estarem rotulados ou não. A empresa possui tempo e experiência interna para validar e rotular? Será que existe algum conhecimento dos resultados?
  • Quais são os objetivos que a organização pretende atingir? Será que deseja solucionar um problema existente e recorrente, ou gostaria de usar o algoritmo para detectar e corrigir um problema desconhecido?
  • Quais são as opções de algoritmos? A empresa possui algoritmos de dimensionalidade idêntica onde conhecem os atributos de cada recurso e a quantidade de recursos disponíveis? É possível determinar se esses recursos podem oferecer o suporte necessário para o volume e a estrutura de dados?

A decisão em optar por abordagens de ML supervisionadas ou não supervisionadas está sujeita ao contexto, às premissas fundamentais possíveis de obter com os dados em questão, assim como a aplicação final. A adoção de qualquer uma pode mudar com o tempo, à medida que modificam as demandas da organização.

Embora a empresa possa começar o treinamento com dados não rotulados e, empregar a abordagem não supervisionada, com o passar do tempo, os rótulos adequados são identificados e a máquina pode alternar para o aprendizado supervisionado. Isso pode acontecer durante vários estágios da rotulagem. Por outro lado, a metodologia de dados do aprendizado supervisionado pode deixar de proporcionar os insights necessários. Já o aprendizado não supervisionado permite identificar padrões desconhecidos e oferecer um insight mais detalhados dos mecanismos de negócios.

Introdução ao machine learning

Muitas organizações deixam de aproveitar todos os benefícios do ML. A Alteryx Machine Learning Platform é uma ferramenta poderosa, com pouco ou nenhum código, que automatiza o processamento de dados para ajudar na implantação de modelos supervisionados e não supervisionados. Crie modelos de ML de forma fácil e rápida para solucionar problemas de negócios complexos. Comece hoje mesmo e transforme seu big data em previsões e insights acionáveis.

Próximo termo
Engenharia de recursos