E-book

MLOps: entrega contínua para modelos de machine learning com o Alteryx no AWS

MLOps: entrega contínua para modelos de machine learning com o Alteryx no AWS

Demorada. Desorganizada. Propensa a erros. Essas são apenas algumas características para descrever a execução de projetos envolvendo IA.

Os desafios são tão complexos que apenas 38% dos trabalhos acabam avançando.
E, mesmo com um porcentagem tão baixa, o processo normalmente é realizado de forma manual. Além de demorar mais tempo para colocar em prática, ele dificulta ampliar a escala e fazer atualizações

Grande parte dos problemas enfrentados em projetos de IA é causado por processos manuais, falta de integração entre dados e pessoas, assim como a tecnologia utilizada.

Com a automação e a entrega contínua para modelos de machine learning (CD4ML), o usuário pode evitar etapas desgastantes e produzir resultados confiáveis, enquanto economiza tempo e aproveita todos os benefícios.

Entrega contínua para modelos de machine learning (CD4ML)

O CD4ML oferece aplicações para o aprendizado de máquinas em múltiplos departamentos, através do desenvolvimento da automação, dados, códigos e modelos em escala menor, mas facilmente reproduzíveis. O principal objetivo é criar algoritmos adaptáveis e ajustáveis, de acordo com pequenas mudanças que possam surgir com novos dados e treinamentos.

Dessa forma, é muito mais fácil criar modelos de ML, além de ser mais seguro. O processo CD4ML reduz a probabilidade de erros causados com lançamentos maiores e pontuais em projetos padrões de IA.

Na teoria, tudo parece muito fácil. No entanto, a boa notícia é que implantar um modelo CD4ML também é simples na prática.

Veja como você pode fornecer modelos de machine learning com uma solução MLOPs, através do Alteryx e AWS.

Implementação de uma solução abrangente de CD4ML com Alteryx e AWS

Para desenvolver uma abordagem integrada, é necessário realizar algumas atividades prioritárias, como por exemplo:

  • Automatizar processos analíticos que consomem tempo para acessar os dados
  • Eliminar silos de dados desnecessários
  • Criar processos consistentes para fortalecer a organização
  • Implementar soluções escaláveis para facilitar o aprendizado de qualquer pessoa

A plataforma Alteryx Analytic Process Automation (APA)™ é composta por quatro componentes, que ajudam a enfrentar os desafios mencionados acima. Entre eles, estão:

  • Alteryx Connect – uma ferramenta colaborativa para criar catálogos de dados
  • Alteryx Designer – um software para ambientes de desktop e nuvem, que permite criar fluxos de trabalho e aplicativos analíticos sem códigos
  • Alteryx Server – um hub analítico para auxiliar usuários a dimensionar recursos analíticos na nuvem ou no local da rede corporativa
  • Alteryx Promote – uma solução implementável em camadas, que viabiliza a aplicação de modelos de machine learning como APIs REST de alta disponibilidade

Veja como cada um contribui com o CD4ML.

Governança e curadoria de dados com o Alteryx Connect

O Alteryx Connect pode ser usado para criar catálogos de dados de fontes distintas, incluindo conjuntos de dados complementares disponíveis no Alteryx.

Alteryx Connect

 

Como catalogar fontes de dados com o Alteryx Connect

O Connect também facilita a descoberta e a compreensão de ativos de dados relevantes para você e sua equipe.

Quando uma fonte de dados é representada no Connect, usuários podem interagir usando ferramentas de validação social, que incluem votação, comentários e compartilhamento para destacar a funcionalidade e atualização dos dados disponíveis.

Quando o Connect for instalado, algo que pode ser feito no ambiente do Windows Server executado no Amazon EC2, você pode usar um ou mais dos 25 carregadores de metadados existentes para adicionar outras fontes de dados. Incluindo carregadores para o Amazon Redshift e Amazon S3, Postgres e MySQL, capazes de carregar metadados do Amazon Aurora.

Se uma fonte de dados não possuir o carregador de metadados, o Alteryx oferece SDKs intuitivos, facilitando a criação de novos softwares para desenvolvedores em diversas linguagens, e por meio de APIs REST. O Connect oferece uma experiência transversal, permitindo que qualquer pessoa utilize o Designer e o Server para explorar e aproveitar ativos de dados baseados em metadados compartilhados.

Alteryx Connect

 

Linhagem de dados no Alteryx Connect

Você também pode aumentar a base de dados com conjuntos completos fornecidos por provedores do setor. Os conjuntos de dados do Alteryx fornecem insights valiosos de localização e de negócios, ao serem combinados com dados proprietários. No universo da modelagem, esses dados são geralmente emparelhados com dados proprietários e incluem características demográficas e geográficas nos modelos.

Experimentos de machine learning com o Alteryx Designer

Você pode aproveitar o Alteryx Designer para importar dados para uso em diversas categorias de ferramentas de modelagem preditiva e experiências de machine learning. Cada conjunto de ferramentas atende diferentes níveis de experiência com machine learning dentro da empresa — e inclusive contribui para o aprendizado. Faça sua própria avaliação com a versão gratuita do Alteryx Intelligence Suite.

Alteryx Designer

O Alteryx Designer oferece várias opções de modelos e experimentos baseados no nível de experiência do usuário

Quando sua equipe implementar a arquitetura e identificar o acervo de dados apropriado, é possível começar a executar análises. O Designer oferece um ambiente de trabalho sem códigos, com uma interface intuitiva, permitindo que analistas com diferentes níveis de habilidade possam criar fluxos de trabalho analíticos automatizados — incluindo aqueles que demandam recursos de machine learning.

É possível instalar o Designer em uma máquina local do Windows ou na nuvem.

O Alteryx é uma solução agnóstica, que ajuda a identificar o local e a forma como os dados são armazenados, além de fornecer conectores para mais de 80 fontes de dados distintas. Incluindo o kit de início da AWS, com conectores do Amazon Athena, Amazon Aurora, Amazon S3 e Amazon Redshift.

Como o Alteryx proporciona uma base compartilhada para processar dados de múltiplas fontes, com cargas de alto desempenho, geralmente a melhor opção é localizar os dados através do pré-processamento dos fluxos de trabalho. Por exemplo, para reduzir a latência do processamento futuro, o usuário pode transferir os dados do local para uma fonte no AWS. Isso tudo pode ser feito com blocos de construção para conectores de dados sem códigos, evitando a necessidade de entender qualquer complexidade CLI/SQL da infraestrutura subjacente, embora isso também seja possível.

O Designer inclui mais de 260 blocos de construção automatizados, que viabilizam o processamento de dados sem códigos. Entre eles, componentes para o preparo, limpeza, combinação, mapeamento, visualização e modelagem de dados. A limpeza de dados, combinação e blocos de construção de preparo são muito usados antes de experimentos de ML para definir conjuntos de dados de treinamento, testes e validação.

Alteryx Designer

Crie fluxos de trabalho analíticos complexos no Alteryx Designer

Grande parte do pré-processamento de dados, realizado antes da modelagem, também pode ser feito com ferramentas da categoria No Banco de Dados. Elas aceleram as etapas de processamento e permitem retardar a importação, até completar o processo e executar uma ação na memória da máquina local.

O Alteryx Designer oferece aos usuários algumas opções de machine learning.

Pacote preditivo do Alteryx

O pacote preditivo do Alteryx oferece recursos sem códigos para diversas tarefas analíticas descritivas, preditivas e prescritivas. Você também pode personalizar o código R subjacente, que potencializa esses componentes, para solucionar casos de uso específicos.

Alteryx Intelligence Suite

O Alteryx Intelligence Suite apresenta funcionalidades sem códigos para criar pipelines de machine learning e recursos adicionais para analytics de texto.

O Intelligence Suite também inclui a ferramenta Modelagem Assistida, projetada para ajudar analistas a entender o processo durante a construção de modelos comprovados, capazes de solucionar problemas de negócios concretos.

Desenvolvida a partir de bibliotecas open-source, a Modelagem Assistida oferece a opção de exportar modelos avançados com o recurso de arrastar e soltar ou como scripts Python.

Com essas duas alternativas, você pode aproveitar blocos de construção simples que suportam R e Python para gravar códigos de ML, incorporados em um fluxo de trabalho sem códigos. Usuários também podem aplicar esses blocos de construção para trabalhar com suas estruturas e bibliotecas favoritas, além de integrar o Jupyter notebook para promover experimentos de dados interativos.

Modelagem Assistida no Intelligence Suite

Use o quadro de liderança para comparar o desempenho dos modelos

Produção de pipelines de ML com o Alteryx Server

Você pode aproveitar o Alteryx Server para otimizar fluxos de trabalho, incluindo aqueles destinados à governança de dados. O Server possui uma configuração integrada, que atua de forma nativa no AWS.

Alteryx Server

O Alteryx Server pode ser instalado facilmente no AWS para criar modelos de ML e fluxos de trabalho para o controle de dados.

Ele permite ampliar a escala para suportar grandes dados de treinamento, ajustes de hiperparâmetros e processos de produção. Você pode aproveitar inúmeros recursos para gerenciar e implantar ativos analíticos.

Além disso, também é possível adicionar máquinas com CPU a um cluster do Server, que podem ser especificadas para a aplicação em pipelines de treinamento. Ao executar trabalhos de longa duração no Server, você tem flexibilidade para continuar desenvolvendo processos analíticos no Designer, enquanto a tarefa é processada.

O Server também permite o agendamento e o sincronismo dos fluxos de trabalho analíticos. Cada um desses recursos pode ser usado em pipelines CI/CD, garantindo a qualidade dos modelos implantados na produção. Com o uso de APIs REST, o usuário consegue programar fluxos de trabalho e monitorar cada estágio para integrá-los às configurações DevOps e CI/CD definidas.

O Alteryx Server pode ser implementado em um banco de dados no local ou na nuvem do AWS, e suporta configurações de um e múltiplos nós. Ele é disponibilizado como imagem de máquina da Amazon (AMI) no ambiente do AWS e pode ser implantado com apenas um clique. As instâncias personalizadas também podem ser implantadas em uma sub-rede privada que usem a nuvem privada virtual da Amazon. O Server oferece diversas opções customizadas, entre elas o armazenamento de metadados em uma instância do MongoDB gerenciada pelo usuário, para a qual a AWS oferece um guia de início rápido.

Para obter orientações detalhadas, consulte as práticas recomendadas para a implantação do Alteryx Server no AWS.

O Alteryx Server oferece governança integrada e controle de versões de ativos analíticos, que podem ser usados para substituir ou complementar, outras soluções para o gerenciamento de fontes.

Modelos de implantação de serviços no Alteryx Promote

O Alteryx Promote unifica a plataforma, apresentando uma solução que permite gerenciar modelos, executar trabalhos em tempo real e monitorar cada etapa do processo.

Alteryx Promote

O Alteryx Promote oferece uma solução MLOps para o gerenciamento de modelos e serviços de alta disponibilidade e baixa latência.

A Plataforma Alteryx proporciona várias opções para a implantação de modelos. O Promote é usado, sobretudo, para implantações em tempo real, muito comum para modelos que interagem com aplicações web. Ele permite implementar modelos de machine learning pré-treinados, através de bibliotecas de Python e R fáceis de usar, ou então sem códigos com a ajuda do Alteryx Designer.

Os modelos implantados no ambiente de cluster no servidor do Promote são empacotados como containers docker, replicados entre nós e acessíveis na forma de APIs REST de alta disponibilidade, que utilizam técnicas de inferência na memória. O número de replicações de cada modelo é configurável, assim como o número de nós disponíveis no cluster do Promote. Um balanceador de carga interno distribui as solicitações entre as réplicas existentes.

Alteryx Promote

Monitore o desempenho dos modelos em produção com o Promote

Assim como o Server e o Connect, o Promote também pode ser instalado na nuvem do AWS ou no banco de dados local. A configuração recomendada inclui ainda um balanceador de carga externo, com o balanceamento de carga elástica, para distribuir solicitações de previsão por todos os nós do Promote. O Promote é ideal para casos de inferência, onde a taxa de transferência já é conhecida ou aceitável para alterar sob demanda. Embora o dimensionamento automático seja possível no aspecto técnico, vai além do propósito de uso do produto.

O Alteryx Server é recomendável para modelos que exigem inferência de lote no hardware existente. Os modelos em lote podem ser embalados para previsão no fluxo de trabalho, ou em aplicativos analíticos, e agendados para execução no Server em nós otimizados para computação.

Você também pode aproveitar os recursos para gerenciar o fluxo de trabalho do Server, assegurando que as previsões sejam feitas após a atualização completa do pré-processamento de dados.

Além disso, normalmente usuários demandam soluções híbridas entre o Alteryx e o AWS para empregar modelos complexos em escala. Um padrão que temos observado é o uso da ferramenta Modelagem Assistida no desktop, para criar protótipos de modelos com dados de amostra. Com a ajuda do Designer e do Server, usuários preparam e misturam dados de fontes locais e enviam os resultados para o S3.

Em seguida, o código gerado pela modelagem assistida pode ser enviado ao SageMaker, onde é possível treinar o modelo sobre o conjunto de dados armazenados no Amazon S3, e implantá-lo na forma de uma API no ecossistema do SageMaker, aproveitando as capacidades de contentorização, escalabilidade e sem servidor. Como o Alteryx se concentra na criação de modelos práticos, esse é o melhor caminho para organizações com baixa demanda em data science, mas com recursos pesados de DevOps ou engenharia.

Teste e qualidade dos modelos

O Alteryx permite testar modelos durante todo o processo de modelagem e implantação. Durante a fase de experimentação, blocos de construção preditivos e de modelagem assistida apresentam métricas de desempenho e visualizações, possibilitando comparações entre as características gerais de cada modelo.

A ferramenta Modelagem Assistida também oferece relatórios de IA explicável (XAI), com pontuações sobre a importância do recurso, calculadas por meio de uma abordagem permutável.

Durante a aplicação do modelo, é simples adicionar dados de teste a um script de implantação do Promote. O processo de verificação pode ser usado para permitir ou proibir a implantação condicional da versão desse modelo.

Inicialmente, as novas versões do modelo no Promote são hospedadas em ambientes de desenvolvimento lógico e em estágios, permitindo que usuários executem novos modelos em paralelo com o algoritmo produzido anteriormente. Os testadores podem configurar seus sistemas para fazer previsões nas versões do modelo de preparação e de produção antes de decidir substituir o modelo de produção, o que é possível por meio de uma API.

O programa também registra todos os dados de solicitação e resposta, viabilizando o desenvolvimento de fluxos de trabalho personalizados, que maximizam essa informação para testar o viés, a imparcialidade e conceitos de desvio.

Melhoria contínua

Além de registrar todos os pedidos de entrada e respostas, o Promote monitora as métricas coletadas no serviço da Amazon Elasticsearch. Dessa forma, administradores possam observar o desempenho dos modelos implantados. Os indicadores de pedidos, erros e latência sobre o mês anterior indicam se o modelo precisa ser replicado posteriormente. Relatórios de uso adicionais do sistema ajudam a determinar se é necessário incluir nós complementares ao cluster do Promote.

Finalmente, você pode exportar dados históricos de solicitações para analisar o conceito ou o desvio da informação. É possível conduzir essas análises no Alteryx Designer, programado para executar no Server, e iniciar o pipeline de CI/CD, caso algum desvio seja detectado.

Conclusão

Para implantar uma solução CD4ML abrangente, você precisa automatizar processos e o acesso aos dados, além de eliminar silos organizacionais e adotar soluções escaláveis.

Com o Alteryx e o AWS, é muito fácil.

A plataforma Alteryx Analytics Automation é uma solução de ponta a ponta. Ela fornece conectores de dados, blocos de construção e recursos para criar e implantar ferramentas de modelagem com pouco ou nenhum código.

Além disso, inclui um ecossistema aberto em termos de APIs, conectores de dados de terceiros e aplicações de código aberto, permitindo que programadores possam combinar o potencial do Alteryx com componentes nativos do AWS.

Com isso, você tem liberdade para alavancar métodos de machine learning, conforme as necessidades do seu negócio.

Próximos passos

Comece a implantar modelos de machine learning com o Kit de início do Intelligence Suite.

Confira uma demonstração interativa do Alteryx Designer

Saiba como ampliar a escala com as práticas recomendadas para implantação do Alteryx Server no ambiente do AWS.

 

 

Recursos recomendados

 
Demonstração do produto
Alteryx Analytics Cloud
Veja nosso produto em ação neste vídeo passo a passo que demonstra como você pode classificar e preparar dados e criar pipelines a partir deles para analytics e machine learning.  
  • Inglês
  • Inglês
Assista agora
 
E-book
Obtenha insights mais rápidos para o ensino superior com o Alteryx
Aprenda a selecionar os melhores candidatos que se matricularão, concluirão o curso e, por fim, participarão das campanhas de doação de ex-alunos.
  • Líder de analytics
  • Profissional
  • Educação
Leia agora
 
E-book
Inovadores de dados no ensino superior
Veja como estas sete instituições estão lidando com desafios importantes no ensino superior usando insights mais inteligentes.
  • Automação analítica
  • Líder de analytics
  • Profissional
Leia agora