All Blog Posts

6 pasos para idear una estrategia de datos infalible

January 5, 2021

La preparación de datos puede ser una de las tareas repetitivas que requieren más tiempo durante la semana laboral. Si no limpias, validas y consolidas los datos sin procesar de la manera correcta, tendrás datos erróneos que se descontrolarán y tus insights no serán seguros.

Entonces, ¿cómo te aseguras de que la preparación de datos mantiene al margen los datos incorrectos, a la vez que se protegen aquellos de los que depende tu empresa?

Se requiere vigilancia y la fuerza de un superhéroe.

Toma tu capa, escudo o Batarang y asegúrate de que tus datos sean infalibles, y con esto nos referimos a que sean invulnerables a errores de formato, inexactitudes y valores atípicos. Puedes conseguirlo con estos seis pasos para salvar el día con una estrategia de preparación de datos indomable.

1. Una vista de águila más nítida que la de
Hawkeye

Antes de comenzar a trabajar intensamente con un nuevo conjunto de datos, es una buena idea adentrarse
con valentía en la materia prima y explorar un poco. La vista modificada genéticamente puede ayudar
(como en el caso de Hawkeye), pero no es necesaria. Comienza con una imagen mental de lo que
estás buscando, pero también mantén la mente abierta y deja que los datos sean los que
hablen.

Consejos: exploración de datos

  • Lee los nombres de las columnas y las descripciones de los campos para ver si aparecen
    algunas anomalías, si falta información o si está incompleta.
  • Haz un control de temperatura para ver si las variables están en buen estado: ¿cuántos
    valores únicos contienen? ¿Cuáles son los rangos y
    los modos?
  • Identifica cualquier punto de datos inusual que pueda sesgar los resultados. Puedes utilizar
    métodos visuales (como diagramas de cajas, histogramas o gráficos de dispersión) o
    enfoques numéricos como las puntuaciones Z.
  • Examina esos valores atípicos. ¿Debes investigarlos, ajustarlos, omitirlos o ignorarlos
    ?
  • Examina patrones y relaciones para comprender la importancia estadística.

2. Datos más refinados que el núcleo de Iron Man

Los datos llenos de errores e inconsistencias tienen un precio: en algunos estudios, se ha demostrado
que los datos erróneos pueden recortar millones de los ingresos de una empresa. Debido a que estos
errores pueden ser tan costosos como un núcleo de paladio, para evitar grandes pérdidas tendrás
que limpiar tus datos hasta que
brillen con una ferviente
luz propia.

Consejos: limpieza de datos

  • Eliminar todos los registros duplicados que obstruyen el espacio del servidor y distorsionan el
    análisis.
  • Elimina las filas o columnas irrelevantes que no afectarán el problema que
    tratas de resolver.
  • Investigar y posiblemente eliminar la información faltante o incompleta.
  • Recortar cualquier dato atípico no deseado que hayas descubierto durante la exploración de datos.
  • Corregir errores estructurales: tipografía, mayúsculas, abreviación,
    formato, caracteres adicionales.
  • Valida que tu trabajo sea preciso, completo y coherente, y documenta
    todas las herramientas y técnicas que utilizaste.

3. Una combinación más fuerte que los Avengers

Mientras más fuentes de alta calidad incorpores en el análisis, más profundos y
enriquecidos serán los insights. Cualquier proyecto que realices normalmente requerirá seis o
más fuentes de datos, por lo que necesitarás las herramientas de combinaciónde datos para fusionarlas
a la perfección. Básicamente, debes formar el equipo definitivo de
datos de alta calidad.

Consejos: combinación de datos

  • Adquirir y preparar. Si estás utilizando herramientas de datos modernas, en lugar de
    tratar de hacer que los archivos se ajusten a una hoja de cálculo, puedes incluir
    casi cualquier tipo de archivo o estructura que se relacione con el problema de negocios
    que estás tratando de resolver y transformar los conjuntos de datos rápidamente a una estructura
    común. Piensa en archivos y documentos, plataformas en la nube, PDF, archivos de texto,
    bots de RPA y activos de aplicaciones como ERP, CRM, ITSM y mucho más.
  • Combinar. En las hojas de cálculo es donde se presumen las habilidades
    BUSCARV. (Aunque se fatigan, ¿no?) Si usas
    analítica de autoservicio en su lugar, este proceso es simplemente
    arrastrar y soltar.
  • Validar. Es importante revisar tus resultados para
    que sean coherentes y explorar cualquier registro sin coincidencia a fin de ver si es apropiado realizar más tareas de limpieza
    o preparación.

4. El sensor de datos es el nuevo sentido arácnido

El perfilado de datos, primo de la exploración de datos, requiere más escrutinio. Significa
examinar un conjunto de datos específicamente para determinar su relevancia para un proyecto o aplicación
en particular. Tendrás que usar tus instintos y conocimientos para determinar
si se debe utilizar un conjunto de datos, ya que es una decisión importante que podría tener serias
consecuencias financieras para tu empresa.

Consejos: perfilado de datos

  • Perfilado de estructuras. ¿Qué tan grande es el conjunto de datos y qué tipos
    de datos contiene? ¿El formato es coherente, correcto y
    compatible con su destino?
  • Perfilado de contenidos. ¿Qué información contienen los datos?
    ¿Existen brechas o errores? Esta es la etapa en la que ejecutarás estadísticas de resumen
    sobre campos numéricos; verifica si hay valores únicos, nulos, en blanco,
    y busca errores sistémicos en la ortografía, las abreviaturas o
    los ID.
  • Perfilado de relaciones. ¿Hay puntos en los que los datos se superponen
    o están mal alineados? ¿Cuáles son las conexiones entre las unidades de datos?
    Algunos ejemplos pueden ser fórmulas que conectan celdas o tablas que recopilan
    información regularmente de fuentes externas. Identifica y describe todas
    las relaciones, y asegúrate de conservarlas si mueves los datos a un
    nuevo destino.

5. Establece tu base secreta

Con el enorme volumen y la complejidad de las fuentes de datos disponibles, es
inevitable que debas extraerlos,
integrarlos y almacenarlos en una
ubicación centralizada que te permita recuperarlos para realizar un análisis cuando lo
necesites; como una base secreta (¿una Baticueva?) para el rescate diario de datos.

Consejos: ETL (extraer, transformar, cargar)

  • Extraer. Extrae todos y cada uno de los datos (estructurados o
    no estructurados, de una fuente o varias) y valida su calidad. (Sé
    muy minucioso si se extraen de sistemas heredados o fuentes
    externas).
  • Transformar. Realiza una limpieza profunda en este punto y asegúrate de que tu
    formato coincida con los requisitos técnicos de tu
    destino.
  • Cargar. Ingresa los datos transformados en la ubicación de almacenamiento,
    generalmente, en un almacén de datos. Luego, toma una muestra y comprueba si hay errores
    en la calidad de los datos.

6. Poniendo orden mejor que el lazo de la verdad de la Mujer Maravilla

El término “organización de datos” a menudo se usa de manera vaga para referirse a “preparación de datos”, pero en realidad
se refiere a la preparación que ocurre durante el proceso de análisis
y creación de modelos predictivos. Incluso si preparaste tus datos con bastante anticipación,
una vez que llegues al análisis, es probable que tengas que batallar para organizarlos (manipularlos o enlazarlos) con el fin de garantizar que tu
modelo lo consuma (y no lo escupa).

Consejos: organización de datos

  • Explorar. Si tu modelo no tiene el rendimiento que pensaste,
    es momento de volver a los datos para encontrar
    la razón.
  • Transformar. Debes estructurar tus datos desde el
    principio y tener en cuenta tu modelo. Si la orientación del conjunto de datos
    necesita cambiar para proporcionar el resultado que buscas, tendrás que
    pasar tiempo manipulándolo. (El software de analítica automatizada
    puede hacer esto en un solo paso).
  • Limpia.r Corrige los errores y elimina los duplicados.
  • Enriquecer. Agrega más fuentes, como datos de terceros
    fidedignos.
  • Almacenar. La organización es un trabajo duro. Conserva tus procesos para que
    puedas reproducirlos en el futuro.

Y ahí lo tienes. Sigue estos seis pasos y tus datos serán más rápidos que un avión, detendrán balas y, lo más importante, usarán una gigante capa roja ondeando.

¡Ah! Y si estás cansado de los BUSCARV y los procesos manuales, es posible que quieras probar la automatización. Estamos hablando de superpoderes analíticos, la capacidad de acceder a los datos en cualquier formato y automatizar los procesos de preparación actuales con una plataforma de analítica de autoservicio automatizada.
En nuestra experiencia, la automatización de la preparación de datos se ve así:

  • Salva el día más rápido: el cambio a una plataforma automatizada casi siempre produce un retorno medible en cuestión de días o semanas.
  • Lucha contra el crimen eficaz y a tiempo completo: la automatización cambia completamente el enfoque de tu jornada laboral de tareas manuales y repetitivas a tareas creativas. Y nunca tendrás que resolver el mismo problema de datos dos veces.
  • Consigue un secuaz… o cuatro: cuando eliminas la necesidad de “guardianes de datos”, puedes involucrar a toda la organización. Los empleados de todos los niveles comienzan a idear nuevas formas de expandir sus propias capacidades.

Es un cambio tan profundo, un universo tan diferente, que tenemos un nombre para esto: Automatización de Procesos Analíticos (APA).
Obtén más información sobre APA y cómo te da superpoderes analíticos.

¿Estás listo para más?

LEER

Descubre lo fácil que es cambiarse a un enfoque moderno de analítica en Una guía radical
para el dominio de la analítica de
datos.

EXPERIMENTA

Inicia tu dominio de la combinación de datos con el Kit de inicio de combinación de datos de Alteryx.