Extenso. Disruptivo. Propenso a errores. Todas estas palabras se pueden utilizar para describir el proceso de entrega de proyectos de inteligencia artificial (IA).
El proceso es tan complejo que solo se concreta el 38 % de los proyectos de IA.
Además, incluso cuando se materializan, suele ser de forma manual. No solo tardan más en ponerse en marcha, sino que no son escalables ni fáciles de actualizar.
La mayoría de los problemas que se presentan en los proyectos de IA se deben a procesos manuales, la falta de cohesión entre los datos y las personas, y la tecnología utilizada.
Gracias a la automatización y la entrega continua para el aprendizaje automático (CD4ML), puedes omitir los pasos que requieren mucho tiempo y producir modelos automáticos confiables mientras ahorras tiempo y obtienes todos los beneficios.
CD4ML permite producir aplicaciones de aprendizaje automático en varios departamentos, y las desarrolla mediante el uso de automatización, datos, códigos y modelos a una escala menor, pero que se puede reproducir con facilidad. El objetivo final es crear modelos que se puedan ampliar y adaptar en función de los pequeños cambios que surjan a partir de los nuevos datos y entrenamientos.
Por este motivo, no solo es más fácil producir modelos de aprendizaje automático, sino que también es más seguro. El proceso CD4ML reduce la probabilidad de que se produzcan los errores que conllevan los grandes lanzamientos únicos generados por un proceso estándar de proyectos de IA.
Por supuesto, todo esto parece fácil en teoría. Pero la buena noticia es que implementar un modelo CD4ML también es fácil en la práctica.
Dicho esto, te explicaremos cómo ofrecer modelos de aprendizaje automático con una solución de MLOps a través de Alteryx y AWS.
Para implementar una solución de CD4ML integral, primero debes realizar algunas acciones, como las siguientes:
Alteryx Analytic Process Automation (APA) PlatformTM consta de cuatro componentes que te ayudarán a superar los desafíos que acabamos de mencionar. Estos componentes son los siguientes:
A continuación, te indicaremos cuál es el aporte de cada uno en CD4ML.
Alteryx Connect se puede utilizar para catalogar datos de distintas fuentes, incluidos los conjuntos de datos que Alteryx ofrece como complementos.
Cómo catalogar fuentes de datos con Alteryx Connect
Connect también hace que sea fácil para ti y tu equipo descubrir y comprender los activos de datos relevantes.
Una vez que una fuente de datos está representada en Connect, tu organización puede colaborar con herramientas de validación social, como votar, comentar y compartir, para resaltar la utilidad y la frescura de los datos disponibles.
Después de instalar Connect, lo cual se puede hacer en un entorno de Windows Server que se ejecute en Amazon EC2, puedes usar uno o varios de los más de 25 cargadores de metadatos de bases de datos existentes para agregar fuentes de datos. Esto incluye cargadores para Amazon Redshift y Amazon S3, al igual que cargadores para Postgres y MySQL que pueden cargar metadatos de Amazon Aurora.
Si a una fuente de datos le falta un cargador de metadatos, Alteryx ofrece SDK intuitivos que facilitan la escritura de nuevos cargadores para desarrolladores en varios idiomas y a través de API REST. Connect ofrece una experiencia multiplataforma, de modo que cualquier persona que utilice la versión de escritorio de Alteryx Designer y Server pueda explorar y usar activos de datos basados en metadatos compartidos.
Linaje de activos de datos en Alteryx Connect
También puedes aumentar los datos de usuario con conjuntos de datos de proveedores de datos de la industria. Los conjuntos de datos de Alteryx ofrecen insights valiosos sobre la ubicación y el negocio cuando se combinan con datos patentados. En el ámbito del modelado, estos datos se suelen combinar con datos patentados para ofrecer características demográficas y geográficas en los modelos.
Puedes utilizar Alteryx Designer para importar datos y usarlos en cualquiera de los diversos conjuntos de herramientas de experimentación de aprendizaje automático y modelado predictivo. Cada conjunto de herramientas se adapta a los diferentes niveles de experiencia de aprendizaje automático dentro de tu organización e incluso facilita el proceso de aprendizaje. Compruébalo tú mismo con nuestra prueba gratuita de Alteryx Intelligence Suite.
Alteryx Designer ofrece varias opciones de modelado y experimentación basadas en el nivel de experiencia del usuario.
Una vez que tu equipo implemente una arquitectura de datos e identifique el activo de datos apropiado, puedes comenzar con la analítica. Designer es un entorno de desarrollo sin código y fácil de codificar, por lo que analistas de todos los niveles pueden crear flujos de trabajo analíticos automatizados, incluidos los que requieren aprendizaje automático.
Puedes utilizar Designer en un equipo local con Windows y en la nube.
Alteryx es independiente del lugar y la forma en que se almacenan los datos y brinda conectores a más de 80 fuentes de datos diferentes. Esto incluye un kit de inicio de AWS que contiene conectores para Amazon Athena, Amazon Aurora, Amazon S3 y Amazon Redshift.
Dado que Alteryx proporciona una base común para el procesamiento de datos de varias fuentes, en el caso de las cargas de trabajo de alto rendimiento, normalmente se recomienda coubicar los datos mediante flujos de trabajo de preprocesamiento. Por ejemplo, para reducir la latencia de procesamiento en el futuro, podrías trasladar los datos locales a una fuente de AWS. Todo esto se puede lograr con bloques de creación de conectores de datos sin código y de tipo arrastrar y soltar, lo que evita la necesidad de conocer las complejidades de CLI/SQL de la infraestructura subyacente, aunque esto último también es posible.
Designer incluye más de 260 bloques de creación de automatización que permiten el procesamiento de datos sin código. Esto incluye bloques de creación para la preparación, la limpieza, la combinación, la asignación, la visualización y el modelado de datos. Los bloques de limpieza, combinación y preparación de datos se suelen utilizar antes de la experimentación de aprendizaje automático para preparar conjuntos de datos de entrenamiento, prueba y validación.
Crear flujos de trabajo analíticos complejos en Alteryx Designer
Gran parte del preprocesamiento de datos que se realiza antes del modelado también se puede lograr mediante la funcionalidad En base de datos de Alteryx. Esta funcionalidad envía las tareas de procesamiento de datos a la base de datos y retrasa la importación de datos hasta que se haya completado el procesamiento y se haya ejecutado una acción en la memoria del equipo local.
Alteryx Designer ofrece a los usuarios un par de opciones para el aprendizaje automático.
Alteryx Predictive Suite ofrece funcionalidades sin código para muchas tareas de analítica descriptiva, predictiva y prescriptiva. También puedes personalizar el código de R subyacente que impulsa los bloques de creación para abordar los casos prácticos específicos.
Alteryx Intelligence Suite proporciona funcionalidades sin código para crear pipelines de aprendizaje automático y funcionalidades adicionales para la analítica de texto.
Intelligence Suite también ofrece la herramienta Modelado asistido, un producto de modelado automatizado diseñado para ayudar a los analistas comerciales a aprender sobre el aprendizaje automático mientras crean modelos validados que resuelven sus problemas comerciales específicos.
La herramienta Modelado asistido se basa en bibliotecas de código abierto y permite exportar los modelos creados con el método de arrastrar y soltar o con el asistente como scripts de Python.
Con estas dos opciones, puedes utilizar bloques de creación fáciles de codificar compatibles con R y Python para escribir un código de aprendizaje automático incrustado en un flujo de trabajo sin código. Los usuarios pueden usar estos bloques de creación para trabajar con sus marcos y bibliotecas preferidos, y la integración incorporada en Jupyter Notebook permite experimentar con los datos de manera interactiva.
Comparar modelos entrenados en el tablero de clasificación de la herramienta Modelado asistido
Puedes aprovechar Alteryx Server para poner en funcionamiento los flujos de trabajo, incluidos los que se usan en la gobernanza de datos. Server ofrece una experiencia de instalación por componentes que funciona de manera nativa en AWS.
Alteryx Server se puede instalar fácilmente en AWS para producir flujos de trabajo de aprendizaje automático y gobernanza de datos
Alteryx Server es compatible con el escalamiento para admitir datos de entrenamiento más grandes, el ajuste de hiperparámetros y la producción. Se puede utilizar para administrar e implementar activos analíticos.
También se puede usar para agregar fácilmente equipos optimizados para CPU a un clúster de Server que se puede especificar para su uso en pipelines de entrenamiento de aprendizaje automático. Al realizar tareas de entrenamiento de ejecución prolongada en Server, obtienes la flexibilidad de seguir diseñando flujos de trabajo analíticos en Designer mientras se ejecuta el trabajo de entrenamiento.
Server también permite programar y secuenciar flujos de trabajo analíticos. Cada una de estas características se puede utilizar como parte de los pipelines de CI/CD que garantizan la calidad de los modelos implementados en la producción. Con las API REST, puedes activar flujos de trabajo mediante programación y supervisar el estado para integrarlos en las configuraciones establecidas de DevOps y CI/CD.
Alteryx Server se puede instalar en un centro de datos local o en la nube de AWS y admite configuraciones de uno o varios nodos. Se ofrece como una imagen de máquina de Amazon (AMI) en AWS Marketplace para implementaciones sencillas con un solo clic. Las instancias personalizadas también se pueden implementar en una subred privada mediante Amazon Virtual Private Cloud. Server ofrece muchas opciones de personalización, una de las cuales es la opción de almacenar metadatos de Server en una instancia de MongoDB administrada por el usuario, para la cual AWS ofrece un inicio rápido.
Para obtener una guía detallada, consulta Prácticas recomendadas para la implementación de Alteryx Server en AWS.
Alteryx Server ofrece gobernanza y control de versiones integrados de los activos analíticos, que se pueden usar en lugar de otras soluciones de control de fuente o además de ellas.
Alteryx Promote vincula la plataforma y proporciona una solución para la administración de modelos, el ofrecimiento de modelos en tiempo real y la supervisión de modelos.
Alteryx Promote ofrece una solución de MLOps que brinda administración de modelos y ofrecimiento de modelos de baja latencia y alta disponibilidad
Alteryx APA Platform ofrece varias opciones para la implementación de modelos. Promote se utiliza principalmente para implementaciones en tiempo real, comunes en modelos que interactúan con aplicaciones web. Promote permite la implementación rápida de modelos de aprendizaje automático preentrenados a través de bibliotecas cliente de Python y R fáciles de usar o sin código mediante Alteryx Designer.
Los modelos implementados en un entorno de servidor de clúster de Promote se empaquetan como contenedores de Docker, se replican entre nodos y se ponen a disposición como API REST altamente disponibles que alojan métodos de inferencia en la memoria. La cantidad de replicaciones de cada modelo se puede configurar, al igual que la cantidad de nodos disponibles en el clúster de Promote. Un equilibrador de carga interno distribuye las solicitudes entre las replicaciones disponibles.
Supervisar el rendimiento de los modelos en producción con Promote
Al igual que Server y Connect, Promote se puede instalar en un entorno de la nube de AWS o en un centro de datos local. La configuración recomendada también incluye un equilibrador de carga externo, como Elastic Load Balancing, para distribuir las solicitudes de predicción en todos los nodos de Promote. Promote es ideal para los casos de inferencia en los que el rendimiento ya se conoce o se puede cambiar bajo demanda. Aunque el escalamiento automático es técnicamente posible, no es parte del uso previsto del producto.
Alteryx Server es la solución recomendada para los modelos que requieren la inferencia por lotes en el hardware existente conocido. Los modelos por lotes se pueden empaquetar para su predicción en el flujo de trabajo o en las aplicaciones analíticas y se pueden programar para que se ejecuten en Server en nodos optimizados para la computación.
También puedes aprovechar la funcionalidad de administración de flujos de trabajo de Server para garantizar que las predicciones se realicen solo después de que se hayan generado características actualizadas mediante el preprocesamiento de datos.
Además, los usuarios suelen darse cuenta de que necesitan una solución híbrida de Alteryx y AWS para implementar modelos complejos a la medida. Uno de los patrones de uso que hemos notado es el uso de la herramienta Modelado asistido en el escritorio para crear prototipos de un modelo sobre datos de muestra. Con Designer y Server, los clientes preparan/combinan datos de fuentes locales y envían los datos resultantes a S3.
Luego, el código del modelo de la herramienta Modelado asistido se puede enviar a SageMaker, donde el modelo se puede entrenar en todo el conjunto de datos residente en Amazon S3 e implementar como una API en el ecosistema de SageMaker para aprovechar las funcionalidades sin servidores, de escalamiento y de contenedorización. Dado que Alteryx se enfoca en la creación de modelos sencilla, este suele ser el mejor camino para las organizaciones con poca experiencia en ciencia de datos, pero que utilizan muchos recursos de ingeniería o DevOps.
Alteryx permite probar los modelos durante todo el proceso de modelado e implementación. Durante la fase de experimentación, los bloques de creación de Predictive y la herramienta Modelado asistido informan las métricas de rendimiento y las visualizaciones, lo que permite comparar la generabilidad de cada modelo.
La herramienta Modelado asistido también ofrece informes de IA explicable (XAI) en forma de puntuaciones según la importancia de las características, calculadas mediante el método de importancia de la permutación.
Durante la implementación del modelo, es fácil agregar datos de prueba a un script de implementación de Promote. El paso de prueba se puede utilizar para permitir o rechazar condicionalmente la implementación de esa versión del modelo.
Las nuevas versiones del modelo de Promote se alojan inicialmente en entornos de desarrollo y ensayo lógicos, lo que permite a los usuarios ejecutar un nuevo modelo en paralelo con el modelo de producción en ejecución anterior. Los encargados de las pruebas pueden configurar los sistemas para hacer predicciones sobre las versiones del modelo de producción y ensayo antes de decidir reemplazar el modelo de producción, lo cual se puede lograr mediante una API.
Promote también registra todos los datos de solicitudes y respuestas, lo que permite a los usuarios desarrollar flujos de trabajo personalizados que aprovechen esos datos para probar el sesgo, la imparcialidad y la evolución del concepto.
Además de registrar todas las solicitudes entrantes y las respuestas, Promote realiza un seguimiento de las métricas agregadas en Amazon Elasticsearch Service para que los administradores puedan ver el rendimiento de los modelos que han implementado. Las métricas de las solicitudes, los errores y la latencia del mes anterior indican si el modelo se debe seguir replicando. Los informes adicionales de utilización del sistema ayudan a los administradores a determinar si se deben agregar nodos adicionales al clúster de Promote.
Por último, se pueden exportar los datos históricos de las solicitudes para analizar la evolución del concepto y los datos. Estos análisis pueden realizarse en Alteryx Designer, programarse para ejecutarse en Server e impulsar el pipeline de CD si se detecta algún cambio.
Para implementar una solución de CD4ML integral, es necesario automatizar el acceso a los datos y los procesos, eliminar los silos de datos y aplicar soluciones escalables.
Con Alteryx y AWS, todo eso es posible.
Alteryx APA Platform es una plataforma completa. Brinda los conectores de datos, los bloques de creación y las funcionalidades para crear e implementar soluciones de modelado con muy poca codificación, si la hubiera.
Incluye un ecosistema abierto en términos de API, conectores de datos de terceros y soluciones de código abierto, lo que permite a los desarrolladores combinar la solución de Alteryx con los componentes nativos de AWS.
Así, puedes implementar el aprendizaje automático de la manera que mejor se adapte a tus requisitos comerciales.
Comienza a implementar modelos de aprendizaje automático con el kit de inicio de Intelligence Suite.
Mira una demostración interactiva de Alteryx Designer
Descubre cómo escalar con las Prácticas recomendadas para la implementación de Alteryx Server en AWS e implementar Alteryx Server desde AWS Marketplace.