No te pierdas Inspire 2024, que se llevará a cabo del 13 al 16 de mayo de 2024 en The Venetian, Las Vegas. Regístrate ahora.

 

6 pasos para idear una estrategia de datos infalible

Estrategia   |   Taylor Porter   |   5 de enero de 2021

La preparación de datos puede ser una de las tareas repetitivas que requieren más tiempo durante la semana laboral. Si no limpias, validas y consolidas los datos sin procesar de la manera correcta, tendrás datos erróneos que se descontrolarán y tus insights no serán seguros.

Entonces, ¿cómo te aseguras de que la preparación de datos mantiene al margen los datos incorrectos, a la vez que se protegen aquellos de los que depende tu empresa?

Se requiere vigilancia y la fuerza de un superhéroe.

Toma tu capa, escudo o Batarang y asegúrate de que tus datos sean infalibles, y con esto nos referimos a que sean invulnerables a errores de formato, imprecisiones y valores atípicos. Puedes conseguirlo con estos seis pasos para salvar el día con una estrategia de preparación de datos indomable.

 

1. Una vista de águila más nítida que la de Hawkeye

Antes de comenzar a trabajar intensamente con un nuevo conjunto de datos, es una buena idea adentrarse con audacia en la materia prima y explorarla un poco. La vista modificada genéticamente puede ayudar (como en el caso de Hawkeye), pero no es necesaria. Comienza con una imagen mental de lo que estás buscando, pero también mantén la mente abierta y deja que los datos hablen.

Consejos: exploración de datos

  • Lee los nombres de las columnas y las descripciones de los campos para ver si sobresalen algunas anomalías, si falta información o si está incompleta.
  • Haz un control de temperatura para ver si las variables están en buen estado: ¿cuántos valores únicos contienen? ¿Cuáles son los rangos y los modos?
  • Identifica cualquier punto de datos inusual que pueda sesgar los resultados. Puedes utilizar métodos visuales (por ejemplo, diagramas de caja, histogramas o diagramas de dispersión) o enfoques numéricos, como las puntuaciones Z.
  • Examina esos valores atípicos. ¿Debes investigarlos, ajustarlos, omitirlos o ignorarlos?
  • Examina patrones y relaciones para comprender la importancia estadística.

2. Datos más refinados que el núcleo de Iron Man

Los datos llenos de errores e inconsistencias son muy costosos: los estudios demuestran que los datos desordenados pueden hacerle perder millones de dólares de ingresos a una empresa. Debido a que estos errores pueden ser tan costosos como un núcleo de paladio, para evitar grandes pérdidas tendrás que limpiar tus datos hasta que brillen con una ferviente luz propia.

Consejos: limpieza de datos

  • Eliminar todos los registros duplicados que obstruyen el espacio del servidor y distorsionan el análisis.
  • Elimina las filas o columnas irrelevantes que no afectarán el problema que tratas de resolver.
  • Investigar y posiblemente eliminar la información faltante o incompleta.
  • Recortar cualquier dato atípico no deseado que hayas descubierto durante la exploración de datos.
  • Corregir errores estructurales: tipografía, mayúsculas, abreviación, formato, caracteres adicionales.
  • Validar que el trabajo sea exacto, completo y coherente, mediante la documentación de todas las herramientas y técnicas que utilizaste.

3. Una combinación más fuerte que los Avengers

Mientras más fuentes de alta calidad incorpores en el análisis, más profundos y detallados serán los insights. Cualquier proyecto que realices, por lo general, requerirá seis o más fuentes de datos, incluidas herramientas de combinación de datos para fusionarlos a la perfección. Básicamente, debes formar el equipo definitivo de datos de alta calidad.

Consejos: combinación de datos

  • Adquirir y preparar. Si utilizas herramientas de datos modernas en lugar de intentar que los archivos se ajusten a una hoja de cálculo, puedes incluir casi cualquier tipo de archivo o estructura que se relacione con el problema de la empresa que intentas resolver, así como transformar todos los conjuntos de datos rápidamente en una estructura común. Piensa en archivos y documentos, plataformas en la nube, archivos PDF, archivos de texto, bots de RPA y activos de aplicaciones como ERP, CRM, ITSM y más.
  • Combinar. En las hojas de cálculo, aquí es donde se ejercitan las habilidades BUSCARV (aunque cansan, ¿no lo crees?) En su lugar, si utilizas el análisis de autoservicio, este proceso consiste tan solo en arrastrar y soltar.
  • Validar. Es importante que revises los resultados para mantener la coherencia y que explores cualquier registro sin par para ver si hay que realizar más tareas de limpieza o de preparación de otro tipo.

4. El sensor de datos es el nuevo sentido arácnido

El perfilado de datos, primo de la exploración de datos, requiere más escrutinio. Significa examinar un conjunto de datos específicamente para determinar su relevancia para un proyecto o aplicación en particular. Tendrás que usar tus instintos y conocimientos para determinar si hace falta usar un conjunto de datos, ya que es una decisión importante que podría tener graves consecuencias financieras para tu empresa.

Consejos: perfilado de datos

  • Perfilado de estructuras. ¿Qué tan grande es el conjunto de datos y qué tipos de datos contiene? ¿El formato es coherente, correcto y compatible con su destino?
  • Perfilado de contenidos. ¿Qué información contienen los datos? ¿Existen brechas o errores? Esta es la etapa en la que se ejecutará el resumen de estadísticas sobre campos numéricos. Se debe comprobar la presencia de valores nulos, en blanco y únicos. Además, se deben buscar errores sistémicos en ortografía, abreviaturas o ID.
  • Perfilado de relaciones. ¿Hay puntos en los que los datos se superponen o están mal alineados? ¿Cuáles son las conexiones entre las unidades de datos? Los ejemplos pueden ser fórmulas que conectan celdas o tablas que recopilan información regularmente de fuentes externas. Identifica y describe todas las relaciones, y asegúrate de conservarlas si mueves los datos a un nuevo destino.

5. Establece tu base secreta

Con el enorme volumen y la complejidad de las fuentes de datos que tienes disponibles, es inevitable que debas extraerlos, integrarlos y almacenarlos en una ubicación centralizada que te permita recuperarlos para su análisis cuando lo necesites; como una base secreta (¿una Baticueva?) para el rescate diario de datos.

Consejos: ETL (extraer, transformar, cargar)

  • Extraer. Extrae todos y cada uno de los datos (estructurados, no estructurados, de una o de muchas fuentes) y valida su calidad (sé muy minucioso si los extraes de sistemas heredados o fuentes externas).
  • Transformar. Realiza una limpieza profunda en este paso y asegúrate de que el formato coincida con los requisitos técnicos del destino.
  • Cargar. Ingresa los datos transformados en la ubicación de almacenamiento, generalmente, en un almacén de datos. Luego, toma una muestra y comprueba si hay errores en la calidad de los datos.

6. Poniendo orden mejor que el lazo de la verdad de la Mujer Maravilla

El término “data wrangling” (organización de datos) a menudo se utiliza a grandes rasgos en el sentido de “preparación de datos”, pero en realidad se refiere a la preparación que se produce durante el proceso de análisis y la creación de modelos predictivos. Incluso aunque hayas preparado los datos con bastante anticipación, una vez que llegues al análisis, es probable que tengas que organizarlos para asegurarte de que el modelo los consuma y que no los devuelva.

Consejos: organización de datos

  • Explorar. Si el modelo no tiene el rendimiento que pensaste que tendría, es hora de volver a adentrarse en los datos para buscar el motivo.
  • Transformar. Debes estructurar los datos desde el principio con el modelo en mente. Si la orientación del conjunto de datos debe cambiar para lograr el resultado que buscas, tendrás que dedicarle un tiempo a manipularlo (el software de análisis automatizado puede hacer esto en un solo paso).
  • Limpiar. Corrige los errores y quita los duplicados.
  • Enriquecer. Agrega más fuentes, como datos de terceros fidedignos.
  • Almacenar. La organización es un trabajo duro. Conserva los procesos para que se puedan reproducir en el futuro.

Y ahí lo tienes. Sigue estos seis pasos y tus datos serán más rápidos que un avión, detendrán balas y, lo más importante, usarán una gigante capa roja ondeando.

¡Ah! Y si estás cansado de los BUSCARV y los procesos manuales, es posible que quieras probar la automatización. Estamos hablando de superpoderes analíticos, la capacidad de acceder a los datos en cualquier formato y automatizar los procesos de preparación actuales con una plataforma de analítica de autoservicio automatizada.
En nuestra experiencia, la automatización de la preparación de datos se ve así:

  • Salva el día más rápido: el cambio a una plataforma automatizada casi siempre produce un retorno medible en cuestión de días o semanas.
  • Lucha contra el crimen de forma eficaz y a tiempo completo: la automatización cambia completamente el enfoque de tu jornada laboral de tareas manuales y repetitivas a tareas creativas. Y nunca tendrás que resolver el mismo problema de datos dos veces.
  • Consigue un secuaz… o cuatro: cuando eliminas la necesidad de tener “guardianes de datos”, puedes involucrar a toda la organización. Los empleados de todos los niveles comienzan a idear nuevas formas de expandir sus propias capacidades.

Es un cambio tan profundo, un universo tan diferente, que tenemos un nombre para esto: Automatización de Procesos Analíticos (APA).
Obtén más información sobre APA y cómo te da superpoderes analíticos.

¿Estás listo para más?

LEER

Descubre lo fácil que es cambiarse a un enfoque moderno de analítica en Una guía radical para el dominio del análisis de datos.

EXPERIMENTA

Inicia tu dominio de la combinación de datos con el kit de inicio de combinación de datos de Alteryx.