Libro electrónico

Seis pasos para idear una estrategia de preparación de datos infalible

Desde la exploración hasta la organización, prepárate para obtener mejores insights

“Se destinan seis mil millones de horas por año al trabajo en hojas de cálculos. Se desperdician 26 horas por semana con las hojas de cálculos y ocho horas por semana en repetir las mismas tareas de datos”.
— “El estado de la preparación y del análisis de datos de autoservicio mediante las hojas de cálculo”, IDC

¿Buscas una manera más inteligente de preparar los datos?

En la mayoría de las organizaciones, la preparación de datos es repetitiva y requiere de mucho tiempo, lo que deja poco
margen para el análisis. Pero hay una manera de obtener mejores insights más rápido.

Te guiaremos paso a paso.

 

Prepárate para el éxito: la importancia de la preparación de datos

¿Por qué es tan importante la preparación de datos?

Porque no puedes tener éxito sin ella. Y eso no es una exageración. Puede que la preparación de datos no sea glamorosa, pero es la base estructural de un buen análisis comercial. Si no limpias, validas y consolidas los datos en bruto de manera adecuada, no podrás obtener respuestas significativas.

El 69 % de las empresas afirma que aún no están basadas en datos.

— “Encuesta ejecutiva de Big Data e inteligencia artificial”, NewVantage Partners, 2019

Pero en una organización típica, los datos terminan residiendo en silos, donde no pueden alcanzar su potencial, y en hojas de cálculo, donde se manipulan a mano. Los silos y los procesos de preparación manual son como una carrera de obstáculos de diez millas que se interpone entre ti y los insights que deberían impulsar el negocio.

Si tu organización está luchando con este tiempo de demora, estás bien acompañado, ya que el 69 % de las empresas afirma que aún no están basadas en datos. Pero sabemos que estar acompañado en un bote que se está hundiendo no lo hace más divertido.

Mientras más datos adquieras y cuanto más complejos sean, más se amplifican estos problemas, por lo que necesitas mejores soluciones. ¿Qué tal si pudieras trabajar con el formato de datos que sea de tu agrado? ¿Qué tal si pudieras automatizar algunos de estos procesos y hacerlos más rápidos, transparentes y repetibles?

Probablemente sería muy bueno.

Introducción a la preparación de datos: comprender los fundamentos

Así sería una estrategia de preparación de datos adecuada.

Antes de hablar de soluciones, veamos con más detalle lo que se debe planificar cuando se trata de la preparación de datos.

Un enfoque exitoso respecto a la preparación de datos incluye las siguientes funciones:

Exploración de datos

Descubre qué sorpresas tiene el conjunto de datos.

Limpieza de datos

Elimina los duplicados, los errores y los detalles irrelevantes que entorpecen las cosas.

Combinación de datos

Une varios conjuntos de datos y revela nuevas verdades.

Perfilado de datos

Detecta datos de mala calidad antes de que arruinen los resultados.

ETL (Extract, Transform, Load; Extraer, Transformar, Cargar)

Agrega datos de diversas fuentes.

Organización de datos

Haz que los datos sean digeribles para tus modelos analíticos.

Idealmente, a medida que pasas de una de estas actividades a otra, es recomendable que registres los datos y el proceso, de modo que los errores que cometas no sean permanentes y que otras personas puedan obtener tus mismos resultados por sí solas.

La transparencia y repetibilidad son las partes más importantes de la preparación de datos, pero no se puede tener ninguna de ellas en un sistema basado en hojas de cálculo.

Introducción a la preparación de datos: exploración de datos

Eso es una selva

Antes de comenzar a trabajar intensamente con un nuevo conjunto de datos, es una buena idea adentrarse con audacia en la materia prima y explorarla un poco. Si bien es posible que comiences con una imagen mental de lo que estás buscando o una pregunta que te gustaría aclarar, es mejor mantener una mente abierta y dejar que los datos hablen.

La exploración de datos solía requerir de las habilidades de escritura de código de los ingenieros de TI, lo que equivalía a una puerta cerrada entre los datos sin procesar y las personas que los analizaban. Sin embargo, ahora, mediante el uso de herramientas automatizadas como los elementos básicos de todo el proceso de preparación de datos, los analistas de datos y los usuarios empresariales pueden adentrarse en un conjunto de datos ellos mismos y explorar lo que contienen.

Estas son algunas técnicas de exploración de datos que pueden generar grandes insights:

  • Lee los nombres de las columnas y las descripciones de los campos para ver si sobresalen algunas anomalías, si falta información o si está incompleta.
  • Haz un control de temperatura para ver si las variables están en buen estado: ¿cuántos valores únicos contienen? ¿Cuáles son los rangos y los modos?
  • Identifica cualquier punto de datos inusual que pueda sesgar los resultados. Puedes utilizar métodos visuales (por ejemplo, diagramas de caja, histogramas o diagramas de dispersión) o enfoques numéricos, como las puntuaciones Z.
  • Examina esos valores atípicos. ¿Debes investigarlos, ajustarlos, omitirlos o ignorarlos?
  • Examina patrones y relaciones para comprender la importancia estadística.

Introducción a la preparación de datos: limpieza de datos

Ver el video

Solo dile que no a los datos erróneos

Tu análisis es tan bueno como los datos que lo impulsan. Es por eso que los datos llenos de errores e incoherencias son muy costosos: los estudios demuestran que los datos desordenados pueden hacerle perder millones de dólares de ingresos anuales a una empresa.

Para evitar pérdidas catastróficas como esas, es fundamental pulir el conjunto de datos hasta que brille. Como analista, sabes muy bien esto, ya que probablemente es la forma en que pasas la mayor parte de la semana laboral.

Todos estos procesos se pueden realizar de forma manual, pero conllevará un tiempo considerable de razonamiento. Por otro lado, las herramientas automatizadas de limpieza de datos pueden realizar la mayor parte de este trabajo con unos pocos clics rápidos.

 

Según el tipo de análisis que hagas, debes lograr seis cosas en la etapa de limpieza:

  • Eliminar todos los registros duplicados que obstruyen el espacio del servidor y distorsionan el análisis.
  • Eliminar las filas o columnas que no sean relevantes para el problema que estás tratando de resolver.
  • Investigar y posiblemente eliminar la información faltante o incompleta.
  • Recortar cualquier dato atípico no deseado que hayas descubierto durante la exploración de datos.
  • Corregir errores estructurales: tipografía, mayúsculas, abreviación, formato, caracteres adicionales.
  • Validar que el trabajo sea exacto, completo y coherente, mediante la documentación de todas las herramientas y técnicas que utilizaste.

Introducción a la preparación de datos: combinación de datos

Ver el video

Dos (o doscientos) conjuntos de datos son mejores que uno

Mientras más fuentes de alta calidad incorpores en el análisis, más profundos y detallados serán los insights. Por lo general, cualquier proyecto que realices requerirá seis o más fuentes de datos, tanto internas como externas, lo que demandará herramientas de combinación de datos para fusionarlos a la perfección.

El momento antes de la combinación es como mirar por el borde de un acantilado. ¿Qué ocurre si presentas un nuevo conjunto de datos que desencadena una avalancha de problemas de compatibilidad y no puedes deshacer el daño? A veces, la complejidad del trabajo hace que sea difícil confiar completamente en los resultados. Siempre es mejor tener una solución que te permita volver en el tiempo hasta el momento antes de hacer cambios.

La combinación de datos normalmente implica tres pasos:

  • Adquirir y preparar. Si utilizas herramientas de datos modernas en lugar de intentar que los archivos se ajusten a una hoja de cálculo, puedes incluir casi cualquier tipo de archivo o estructura que se relacione con el problema de la empresa que intentas resolver, así como transformar todos los conjuntos de datos rápidamente en una estructura común. Piensa en archivos y documentos, plataformas en la nube, archivos PDF, archivos de texto, bots de RPA y activos de aplicaciones como ERP, CRM, ITSM y más.
  • Combinar. En las hojas de cálculo, aquí es donde se ejercitan las habilidades BUSCARV (aunque cansan, ¿no lo crees?) En su lugar, si utilizas el análisis de autoservicio, este proceso consiste tan solo en arrastrar y soltar.
  • Validar. Es importante que revises los resultados para mantener la coherencia y que explores cualquier registro sin par para ver si hay que realizar más tareas de limpieza o de preparación de otro tipo.

Introducción a la preparación de datos: perfilado de datos

No todos los datos quedan seleccionados

El perfilado de datos es muy similar a la exploración de datos, pero con un enfoque más intenso. La exploración de datos es una consulta abierta realizada en un nuevo conjunto de datos. La elaboración de perfiles de datos significa examinar un conjunto de datos específicamente por su relevancia para un proyecto o aplicación en particular. El perfilado determina si se debe utilizar un conjunto de datos, una gran decisión que podría tener graves consecuencias financieras para tu empresa.

El perfilado de datos puede ser complejo y llevar mucho tiempo. Para que un usuario de negocios final lo haga correctamente sin la ayuda de un especialista, es imprescindible contar con un software de perfilado de datos.

Hay tres técnicas principales de perfilado de datos, que se realizan en este orden:

  • Perfilado de estructuras. ¿Qué tan grande es el conjunto de datos y qué tipos de datos contiene? ¿El formato es consistente, correcto y compatible con su destino final?
  • Perfilado de contenidos. ¿Qué información contienen los datos? ¿Existen brechas o errores? Esta es la etapa en la que se ejecutará el resumen de estadísticas sobre campos numéricos. Se debe comprobar la presencia de valores nulos, en blanco y únicos. Además, se deben buscar errores sistémicos en ortografía, abreviaturas o ID.
  • Perfilado de relaciones. ¿Hay puntos en los que los datos se superponen o están mal alineados? ¿Cuáles son las conexiones entre las unidades de datos? Los ejemplos pueden ser fórmulas que conectan celdas o tablas que recopilan información regularmente de fuentes externas. Identifica y describe todas las relaciones, y asegúrate de conservarlas si mueves los datos a un nuevo destino.

Introducción a la preparación de datos: ETL (extraer, transformar, cargar)

Ordena los datos

Con el enorme volumen y la complejidad de las fuentes de datos que tienes disponibles es inevitable que debas extraerlos, integrarlos y almacenarlos en una ubicación centralizada que te permita recuperarlos para su análisis cuando lo necesites.

Ese proceso se conoce como ETL, que significa “Extract, Transform, Load” (Extraer, transformar, cargar) y es la pieza central de una estrategia de datos moderna. ETL también puede ayudarte a migrar datos durante una interrupción, por ejemplo, una actualización a un nuevo sistema o una fusión con otra empresa.

La idea es integrar todos los datos y hacer que sean accesibles para más personas, no replicar los silos en los que solía estar. Las empresas con visión de futuro consideran la táctica ETL como una forma de permitir que los analistas, científicos de datos, líderes de negocio y ejecutivos tomen decisiones desde el mismo manual de estrategias.

Los tres pasos en pocas palabras:

  • Extraer. Extrae todos y cada uno de los datos (estructurados, no estructurados, de una o de muchas fuentes) y valida su calidad (sé muy minucioso si los extraes de sistemas heredados o fuentes externas).
  • Transformar. Realiza una limpieza profunda en este paso y asegúrate de que el formato coincida con los requisitos técnicos del destino.
  • Cargar. Ingresa los datos transformados en la ubicación de almacenamiento, generalmente, en un almacén de datos. Luego, toma una muestra y comprueba si hay errores en la calidad de los datos.

Introducción a la preparación de datos: organización de datos

¿Ya podemos comenzar con la organización?

El término “data wrangling” (organización de datos) a menudo se utiliza a grandes rasgos en el sentido de “preparación de datos”, pero en realidad se refiere a la preparación que se produce durante el proceso de análisis y la creación de modelos predictivos. Incluso aunque hayas preparado los datos con bastante anticipación, una vez que llegues a analizarlos, es probable que tengas que organizarlos para asegurarte de que el modelo lo consuma y que no lo devuelva.

La organización de datos normalmente se realiza mediante programas y lenguajes como SQL, R y Python. Esto requiere conocimientos técnicos que el analista promedio no tiene. Para que toda la organización pueda acceder a este proceso, deberás utilizar un software de análisis automatizado.

A continuación, te mostramos cómo se organiza:

Explorar. Si el modelo no tiene el rendimiento que pensaste que tendría, es hora de volver a adentrarse en los datos para buscar el motivo.

Transformar. Debes estructurar los datos desde el principio con el modelo en mente. Si la orientación del conjunto de datos debe cambiar para lograr el resultado que buscas, tendrás que dedicarle un tiempo a manipularlo. (el software de análisis automatizado puede hacer esto en un solo paso).

Limpiar. Corrige los errores y quita los duplicados.

Enrich. Add more sources, such as authoritative third-party data.

Almacenar. La organización es un trabajo duro. Conserva los procesos para que se puedan reproducir en el futuro.

Insights más rápidos e inteligentes: el caso de la automatización

Datos, les presento al siglo XXI.

¿Qué ocurre en un mundo sin silos ni hojas de cálculo? Si pudieras acceder a los datos en cualquier formato y automatizar los procesos de preparación actuales con una potente plataforma de software, ¿cómo sería eso para ti y tu organización?

En nuestra experiencia, la automatización de la preparación de datos se ve así:

Victorias rápidas

El cambio a una plataforma automatizada casi siempre produce un retorno medible en cuestión de días o semanas.

Es hora de obtener insights

La automatización cambia completamente el enfoque de la jornada laboral de un analista, desde las tareas simples hasta las creativas. Y nunca tendrás que resolver el mismo problema de datos dos veces.

Desarrollo profesional continuo

Cuando eliminas la necesidad de "guardianes de datos", puedes involucrar a toda la organización. Los empleados de todos los niveles comienzan a idear nuevas formas de expandir sus propias capacidades.

Es un cambio tan profundo, un universo tan diferente, que tenemos un nombre para esto: automatización de la analítica.

The Alteryx Analytics Automation Platform

¿Por qué usar Alteryx para la preparación de datos?

Automatización de analítica

¿Y qué hay del ROI de tu organización? Me alegra que lo preguntes.

1. Aumento de ingresos
2. Ahorros en los beneficios netos
3. Aumento notorio en la eficiencia
4. Rápido desarrollo de la fuerza laboral
5. Mitigación del riesgo

“Utilizamos la automatización de la analítica en muchas de nuestras empresas, ya que nos permite aprovechar los datos, automatizar los procesos y empoderar a nuestros empleados para que se transformen en trabajadores digitales de autoservicio”.

— Rod Bates, Vice President Decision Science and Data Strategy, The Coca-Cola Company

Comienza en cualquier lugar. Resuélvelo todo.

Alteryx es la única plataforma de análisis de datos de extremo a extremo fácil de implementar que te permite a ti y a todos con quienes trabajas resolver problemas empresariales más rápido de lo que jamás imaginaste.

Si deseas una automatización de procesos analíticos, lo hacemos mejor que nadie. Nuestra plataforma puede descubrir, preparar y analizar todos tus datos, además de implementar y compartir análisis a escala para obtener insights más detallados.

El efecto Alteryx: reducir los tiempos de los procesos, agilizar los insights y, generalmente, salvar el día.

¿Qué ganas?:

  • Preparación de datos a la velocidad de la luz
  • Flujos de trabajo repetibles
  • Modelado de código simple y sin código a través de una interfaz intuitiva (o modelado avanzado con código para todos los científicos de datos superestrellas)
  • Compatibilidad con casi todas las fuentes de datos y herramientas de visualización que existen
  • Desempeño, seguridad, colaboración y gobernanza (es decir, es como enviarle brownies recién horneados a tu Departamento de TI)
  • ROI y mucho más

Por qué los analistas aman Alteryx

 

69 % de mayor rapidez para lograr insights

Más de USD 6 millones en aumento de ingresos anuales por cada 100 analistas empleados

Más de 2000 horas ahorradas de esfuerzo manual
— El Ejército de Salvación

1 año de datos de ventas en tiendas organizados en 1 hora
— 7-Eleven

USD 80,000 ahorrados al año a través de la automatización
— Amway

El tiempo que conlleva realizar analítica pasó de “antes era imposible” a 20 segundos.
— Chick-fil-A

“Simplemente no puedo hacer mi trabajo sin Alteryx, ni quisiera hacerlo”.
— Jay Caplan, The Coca-Cola Company

“Alteryx impulsa nuestra analítica para que pase de jugar a las damas a jugar al ajedrez”.
— William McBride, Cetera Financial Group

“Es una locura el hecho de que solíamos pasar cerca del 80 % de nuestro tiempo en la contabilidad y el 20 % de nuestro tiempo involucrándonos con los clientes. Pero ahora, con Alteryx, revertimos eso y nos convertimos en un 80 % en una empresa de asesoría al cliente con solo un 20 % dedicado a la contabilidad. Con este proceso, pudimos brindar mejores experiencias a nuestros clientes”.
— Brian Milrine, Brookson

“Alteryx empodera a personas como nosotros, que tienen poca o ninguna experiencia en codificación informática, a hacer cosas complejas con datos a pesar de que no tengamos a nadie en TI que pueda escribir Python. Nos permite seguir las ideas en nuestra mente y pasar de la pregunta a la respuesta mucho más rápido”.
— Alexandra Mannerings, Colorado Hospital Association

“Creé un flujo de trabajo en 10 minutos en nuestro primer día que consultó cinco mil millones de registros en 20 segundos. De inmediato, me di cuenta de que aquí está pasando algo que es realmente genial y poderoso”.
— Justin Winter, Chick-fil-A

 

Profundiza en la preparación de datos

Pasa de la preparación a los insights. Consulta la guía básica para el éxito con analítica avanzada. Obtén la guía Cinco motivos por los que las hojas de cálculo apreciarían este libro.

Prueba la analítica de arrastrar y soltar. Prueba el kit de inicio de combinación de datos de Alteryx. Prueba el kit de inicio

 

Recursos recomendados

 
Demostración del producto
Alteryx Analytics Cloud
Descubre nuestro producto en acción en este video que te muestra cómo puedes clasificar y preparar datos, y crear pipelines a partir de ellos para la analítica y el aprendizaje automático.  
  • Inglés
  • Inglés
Ver ahora
 
Libro electrónico
Insights más rápidos para la educación superior con Alteryx
Aprende cómo identificar candidatos de calidad: aquellos que se inscribirán, se graduarán y, finalmente, se involucrarán en campañas de donaciones de graduados.
  • Líder de analítica
  • Profesional
  • Educación
Leer ahora
 
Libro electrónico
Innovadores de datos en educación superior
Descubre cómo estas siete instituciones abordan desafíos clave en la educación superior con insights más inteligentes.
  • Automatización de analítica
  • Líder de analítica
  • Profesional
Leer ahora