Demorada. Desorganizada. Propensa a erros. Essas são apenas algumas características para descrever a execução de projetos envolvendo IA.
Os desafios são tão complexos que apenas 38% dos trabalhos acabam avançando.
E, mesmo com um porcentagem tão baixa, o processo normalmente é realizado de forma manual. Além de demorar mais tempo para colocar em prática, ele dificulta ampliar a escala e fazer atualizações.
Grande parte dos problemas enfrentados em projetos de IA é causado por processos manuais, falta de integração entre dados e pessoas, assim como a tecnologia utilizada.
Com a automação e a entrega contínua para modelos de machine learning (CD4ML), o usuário pode evitar etapas desgastantes e produzir resultados confiáveis, enquanto economiza tempo e aproveita todos os benefícios.
O CD4ML oferece aplicações para o aprendizado de máquinas em múltiplos departamentos, através do desenvolvimento da automação, dados, códigos e modelos em escala menor, mas facilmente reproduzíveis. O principal objetivo é criar algoritmos adaptáveis e ajustáveis, de acordo com pequenas mudanças que possam surgir com novos dados e treinamentos.
Dessa forma, é muito mais fácil criar modelos de ML, além de ser mais seguro. O processo CD4ML reduz a probabilidade de erros causados com lançamentos maiores e pontuais em projetos padrões de IA.
Na teoria, tudo parece muito fácil. No entanto, a boa notícia é que implantar um modelo CD4ML também é simples na prática.
Veja como você pode fornecer modelos de machine learning com uma solução MLOPs, através do Alteryx e AWS.
Para desenvolver uma abordagem integrada, é necessário realizar algumas atividades prioritárias, como por exemplo:
A plataforma Alteryx Analytic Process Automation (APA)™ é composta por quatro componentes, que ajudam a enfrentar os desafios mencionados acima. Entre eles, estão:
Veja como cada um contribui com o CD4ML.
O Alteryx Connect pode ser usado para criar catálogos de dados de fontes distintas, incluindo conjuntos de dados complementares disponíveis no Alteryx.
Como catalogar fontes de dados com o Alteryx Connect
O Connect também facilita a descoberta e a compreensão de ativos de dados relevantes para você e sua equipe.
Quando uma fonte de dados é representada no Connect, usuários podem interagir usando ferramentas de validação social, que incluem votação, comentários e compartilhamento para destacar a funcionalidade e atualização dos dados disponíveis.
Quando o Connect for instalado, algo que pode ser feito no ambiente do Windows Server executado no Amazon EC2, você pode usar um ou mais dos 25 carregadores de metadados existentes para adicionar outras fontes de dados. Incluindo carregadores para o Amazon Redshift e Amazon S3, Postgres e MySQL, capazes de carregar metadados do Amazon Aurora.
Se uma fonte de dados não possuir o carregador de metadados, o Alteryx oferece SDKs intuitivos, facilitando a criação de novos softwares para programadores em diversas linguagens, e por meio de APIs REST. O Connect oferece uma experiência transversal, permitindo que qualquer pessoa utilize o Designer e o Server para explorar e aproveitar ativos de dados baseados em metadados compartilhados.
Linhagem de dados no Alteryx Connect
Você também pode aumentar a base de dados com conjuntos completos fornecidos por provedores do setor. Os conjuntos de dados do Alteryx fornecem insights valiosos de localização e de negócios, ao serem combinados com dados proprietários. No universo da modelagem, esses dados são geralmente emparelhados com dados proprietários e incluem características demográficas e geográficas nos modelos.
Você pode aproveitar o Alteryx Designer para importar dados para uso em diversas categorias de ferramentas de modelagem preditiva e experiências de machine learning. Cada conjunto de ferramentas atende diferentes níveis de capacitação dentro da empresa — e inclusive contribui para o aprendizado. Faça sua própria avaliação com a versão gratuita do Alteryx Intelligence Suite.
O Alteryx Designer oferece várias opções de modelos e experimentos baseados no nível de experiência do usuário
Quando sua equipe implementar a arquitetura e identificar o acervo de dados apropriado, é possível começar a executar análises. O Designer oferece um ambiente de trabalho sem códigos, com uma interface intuitiva, permitindo que analistas com diferentes níveis de habilidade possam criar fluxos de trabalho analíticos automatizados — incluindo aqueles que demandam recursos de machine learning.
É possível instalar o Designer em uma máquina local do Windows ou na nuvem.
O Alteryx é uma solução agnóstica, que ajuda a identificar o local e a forma como os dados são armazenados, além de fornecer conectores para mais de 80 fontes de dados distintas. Incluindo o kit de início da AWS, com conectores do Amazon Athena, Amazon Aurora, Amazon S3 e Amazon Redshift.
Como o Alteryx proporciona uma base compartilhada para processar dados de múltiplas fontes, com cargas de alto desempenho, geralmente a melhor opção é localizar os dados através do pré-processamento dos fluxos de trabalho. Por exemplo, para reduzir a latência do processamento futuro, o usuário pode transferir os dados do local para uma fonte no AWS. Isso tudo pode ser feito com blocos de construção para conectores de dados sem códigos, evitando a necessidade de entender qualquer complexidade CLI/SQL da infraestrutura subjacente, embora isso também seja possível.
O Designer inclui mais de 260 blocos de construção automatizados, que viabilizam o processamento de dados sem códigos. Entre eles, componentes para o preparo, limpeza, combinação, mapeamento, visualização e modelagem de dados. A limpeza de dados, combinação e blocos de construção de preparo são muito usados antes de experimentos de ML para definir conjuntos de dados de treinamento, testes e validação.
Crie fluxos de trabalho analíticos complexos no Alteryx Designer
Grande parte do pré-processamento de dados, realizado antes da modelagem, também pode ser feito com ferramentas da categoria No Banco de Dados. Elas aceleram as etapas de processamento e permitem retardar a importação, até completar o processo e executar uma ação na memória da máquina local.
O Alteryx Designer oferece aos usuários algumas opções de machine learning.
O pacote preditivo do Alteryx oferece recursos sem códigos para diversas tarefas analíticas descritivas, preditivas e prescritivas. Você também pode personalizar o código R subjacente, que potencializa esses componentes, para solucionar casos de uso específicos.
O Alteryx Intelligence Suite apresenta funcionalidades sem códigos para criar pipelines de machine learning e recursos adicionais para análise de texto.
O Intelligence Suite também inclui a ferramenta Modelagem Assistida, projetada para ajudar analistas a entender o processo durante a construção de modelos comprovados, capazes de solucionar problemas de negócios concretos.
Desenvolvida a partir de bibliotecas open-source, a Modelagem Assistida oferece a opção de exportar modelos avançados com o recurso de arrastar e soltar ou como scripts Python.
Com essas duas alternativas, você pode aproveitar blocos de construção simples que suportam R e Python para gravar códigos de ML, incorporados em um fluxo de trabalho sem códigos. Usuários também podem aplicar esses blocos de construção para trabalhar com suas estruturas e bibliotecas favoritas, além de integrar o Jupyter notebook para promover experimentos de dados interativos.
Use o quadro de liderança para comparar o desempenho dos modelos
Você pode aproveitar o Alteryx Server para otimizar fluxos de trabalho, incluindo aqueles destinados à governança de dados. O Server possui uma configuração integrada, que atua de forma nativa no AWS.
O Alteryx Server pode ser instalado facilmente no AWS para criar modelos de ML e fluxos de trabalho para o controle de dados.
Ele permite ampliar a escala para suportar grandes dados de treinamento, ajustes de hiperparâmetros e processos de produção. Você pode aproveitar inúmeros recursos para gerenciar e implantar ativos analíticos.
Além disso, também é possível adicionar máquinas com CPU a um cluster do Server, que podem ser especificadas para a aplicação em pipelines de treinamento. Ao executar trabalhos de longa duração no Server, você tem flexibilidade para continuar desenvolvendo processos analíticos no Designer, enquanto a tarefa é processada.
O Server também permite o agendamento e o sincronismo dos fluxos de trabalho analíticos. Cada um desses recursos pode ser usado em pipelines CI/CD, garantindo a qualidade dos modelos implantados na produção. Com o uso de APIs REST, o usuário consegue programar fluxos de trabalho e monitorar cada estágio para integrá-los às configurações DevOps e CI/CD definidas.
O Alteryx Server pode ser implementado em um banco de dados no local ou na nuvem do AWS, e suporta configurações de um e múltiplos nós. Ele é disponibilizado como imagem de máquina da Amazon (AMI) no ambiente do AWS, e pode ser configurado com apenas um clique. Instâncias personalizadas também podem ser implementadas em uma sub-rede privada, por meio da nuvem privada virtual da Amazon. O Server oferece diversas opções customizadas, entre elas o armazenamento de metadados em uma instância do MongoDB gerenciada pelo usuário, para a qual a AWS oferece um guia de início rápido.
Para obter orientações detalhadas, consulte as práticas recomendadas para a implantação do Alteryx Server no AWS.
O Alteryx Server oferece governança integrada e controle de versões de ativos analíticos, que podem ser usados para substituir ou complementar, outras soluções para o gerenciamento de fontes.
O Alteryx Promote unifica a plataforma, apresentando uma solução que permite gerenciar modelos, executar trabalhos em tempo real e monitorar cada etapa do processo.
O Alteryx Promote oferece uma solução MLOps para o gerenciamento de modelos e serviços de alta disponibilidade e baixa latência.
A Plataforma Alteryx APA proporciona várias opções para a implantação de modelos. O Promote é usado, sobretudo, para implantações em tempo real, muito comum para modelos que interagem com aplicações web. Ele permite implementar modelos de machine learning pré-treinados, através de bibliotecas de Python e R fáceis de usar, ou então sem códigos com a ajuda do Alteryx Designer.
Os modelos implantados no ambiente de cluster no servidor do Promote são empacotados como containers docker, replicados entre nós e acessíveis na forma de APIs REST de alta disponibilidade, que utilizam técnicas de inferência na memória. O número de replicações de cada modelo é configurável, assim como o número de nós disponíveis no cluster do Promote. Um balanceador de carga interno distribui as solicitações entre as réplicas existentes.
Monitore o desempenho dos modelos em produção com o Promote
Assim como o Server e o Connect, o Promote também pode ser instalado na nuvem do AWS ou no banco de dados local. A configuração recomendada inclui ainda um balanceador de carga externo, com o balanceamento de carga elástica, para distribuir solicitações de previsão por todos os nós do Promote. O Promote é ideal para casos de inferência, onde a taxa de transferência já é conhecida ou aceitável para alterar sob demanda. Embora o dimensionamento automático seja possível no aspecto técnico, vai além do propósito de uso do produto.
O Alteryx Server é recomendável para modelos que exigem inferência de lote no hardware existente. Os modelos em lote podem ser embalados para previsão no fluxo de trabalho, ou em aplicativos analíticos, e agendados para execução no Server em nós otimizados para computação.
Você também pode aproveitar os recursos para gerenciar o fluxo de trabalho do Server, assegurando que as previsões sejam feitas após a atualização completa do pré-processamento de dados.
Além disso, normalmente usuários demandam soluções híbridas entre o Alteryx e o AWS para empregar modelos complexos em escala. Um padrão que temos observado é o uso da ferramenta Modelagem Assistida no desktop, para criar protótipos de modelos com dados de amostra. Com a ajuda do Designer e do Server, usuários preparam e misturam dados de fontes locais e enviam os resultados para o S3.
Em seguida, o código gerado pela modelagem assistida pode ser enviado ao SageMaker, onde é possível treinar o modelo sobre o conjunto de dados armazenados no Amazon S3, e implantá-lo na forma de uma API no ecossistema do SageMaker, aproveitando as capacidades de contentorização, escalabilidade e sem servidor. Como o Alteryx se concentra na criação de modelos práticos, esse é o melhor caminho para organizações com baixa demanda em data science, mas com recursos pesados de DevOps ou engenharia.
O Alteryx permite testar modelos durante todo o processo de modelagem e implantação. Durante a fase de experimentação, blocos de construção preditivos e de modelagem assistida apresentam métricas de desempenho e visualizações, possibilitando comparações entre as características gerais de cada modelo.
A ferramenta Modelagem Assistida também oferece relatórios de IA explicável (XAI), com pontuações sobre a importância do recurso, calculadas por meio de uma abordagem permutável.
Durante a aplicação do modelo, é simples adicionar dados de teste a um script de implantação do Promote. O processo de verificação pode ser usado para permitir ou proibir a implantação condicional da versão desse modelo.
Inicialmente, as novas versões do modelo no Promote são hospedadas em ambientes de desenvolvimento lógico e em estágios, permitindo que usuários executem novos modelos em paralelo com o algoritmo produzido anteriormente. Analistas podem configurar sistemas para fazer previsões, tanto na versão de produção quanto na versão experimental, antes de optar pela substituição do modelo criado, algo que pode ser feito através de uma API.
O programa também registra todos os dados de solicitação e resposta, viabilizando o desenvolvimento de fluxos de trabalho personalizados, que maximizam essa informação para testar o viés, a imparcialidade e conceitos de desvio.
Além de registrar todos os pedidos de entrada e respostas, o Promote monitora as métricas coletadas no serviço da Amazon Elasticsearch. Dessa forma, administradores possam observar o desempenho dos modelos implantados. Os indicadores de pedidos, erros e latência sobre o mês anterior indicam se o modelo precisa ser replicado posteriormente. Relatórios de uso adicionais do sistema ajudam a determinar se é necessário incluir nós complementares ao cluster do Promote.
Finalmente, você pode exportar dados históricos de solicitações para analisar o conceito ou o desvio da informação. É possível conduzir essas análises no Alteryx Designer, programado para executar no Server, e iniciar o pipeline de CI/CD, caso algum desvio seja detectado.
Para implantar uma solução CD4ML abrangente, você precisa automatizar processos e o acesso aos dados, além de eliminar silos organizacionais e adotar soluções escaláveis.
Com o Alteryx e o AWS, é muito fácil.
A plataforma Alteryx Analytics Automation é uma solução de ponta a ponta. Ela fornece conectores de dados, blocos de construção e recursos para criar e implantar ferramentas de modelagem com pouco ou nenhum código.
Além disso, inclui um ecossistema aberto em termos de APIs, conectores de dados de terceiros e aplicações de código aberto, permitindo que programadores possam combinar o potencial do Alteryx com componentes nativos do AWS.
Com isso, você tem liberdade para alavancar métodos de machine learning, conforme as necessidades do seu negócio.
Comece a implantar modelos de machine learning com o kit de início do Intelligence Suite.
Confira uma demonstração interativa do Alteryx Designer
Saiba como ampliar a escala através das práticas recomendadas para implantação do Alteryx Server no ambiente do AWS.