¿Qué es la exploración de datos?

La exploración, uno de los primeros pasos en la preparación de datos, es una manera de familiarizarte con los datos antes de trabajar con ellos. Con
las encuestas y la investigación, se preparan grandes conjuntos de datos para un análisis más profundo y estructurado. El análisis exploratorio de datos
(EDA) es similar, pero utiliza gráficos estadísticos y otros métodos de visualización de datos.‍

¿Por qué la exploración de datos es importante?

La exploración te permite obtener una comprensión más profunda de un conjunto de datos, lo que facilita su navegación y uso posterior. La
Cuanto mejor conozca un analista los datos con los que trabaja, mejor será el análisis que haga. La exploración exitosa
comienza con una mente abierta, revela nuevas rutas de descubrimiento y ayuda a identificar y perfeccionar las preguntas y los problemas
de analítica en el futuro.

Cómo funciona la exploración de datos

Los datos sin una pregunta son simplemente información. Realizar una pregunta convierte a los datos en una respuesta. Los datos con las preguntas y
la exploración adecuadas pueden proporcionar una mayor comprensión del funcionamiento de algo e incluso habilitar
capacidades predictivas.

R y Python son los idiomas más comunes utilizados para la exploración; el primero funciona mejor para el aprendizaje estadístico mientras que
el último es útil para el aprendizaje automático. La codificación no es necesaria para la exploración de datos gracias a las
plataformas sin código.

El proceso de exploración también es cada vez más importante para trabajar con los sistemas de información geográfica (GIS), ya que
gran parte de los datos actuales están enriquecidos con la ubicación.

Por lo general, la exploración de datos sigue tres pasos:

Proceso de exploración de datos

 

Exploración de datos: comprender las variables
Comprender las variables: la base de cualquier análisis de datos comienza con la comprensión de las variables. Una buena forma de comenzar es realizando una lectura rápida de los nombres de las columnas. Hacer un análisis más detallado de los catálogos de datos, las descripciones de los campo y los metadatos puede brindar insight sobre lo que cada campo representa, y ayudar a descubrir datos faltantes o incompletos.

 

Exploración de datos: detectar los valores atípicos
Detectar cualquier valor atípico: los valores atípicos o las anomalías pueden entorpecer un análisis y distorsionar la realidad de un conjunto de datos, por lo que es importante identificarlos desde el principio. La visualización de datos, los métodos numéricos, los rangos intercuartílicos y la evaluación de hipótesis son las formas más comunes de detectar valores atípicos. A Un diagrama de cajas, un histograma o un diagrama de dispersión, por ejemplo, facilitan la detección de puntos que se alejan del rango estándar, mientras que una puntuación Z informa qué tanto se aleja un punto de datos de la media. Una vez encontrado, un analista puede investigar, ajustar, omitir o ignorar los valores atípicos. Sin importar la elección, la decisión debe ser tomada en cuenta en el análisis.

 

Exploración de datos: examinar las relaciones
Examinar patrones y relaciones: trazar un conjunto de datos de diversas formas facilita la identificación y el examen de los patrones y las relaciones entre las variables. Por ejemplo, un negocio que explora los datos de varias tiendas puede tener información sobre la ubicación, la población, la temperatura y el ingreso per cápita. Para calcular las ventas de una nueva ubicación, deben decidir qué variables incluir en su modelo predictivo.

El futuro de la exploración de datos

El proceso analítico solía ser el ámbito exclusivo de los ingenieros que escribían código para extraer y explorar los datos. Ese
ya no es el caso. En la actualidad, la Automatización de procesos analíticos (APA) coloca la analítica al alcance de todos. Permite que
en las empresas se trabaje mejor con sus dos grandes activos: los datos y el personal. El acceso que proporciona la APA
permite que los empleados se centren en encontrar relaciones y patrones en lugar de organizar datos.

Primeros pasos con la exploración de datos

Gracias a la tecnología, se ha transformado un proceso complicado que normalmente lleva mucho tiempo en uno que es optimizado, accesible,
y auditable. La plataforma Alteryx APA™ se diseñó pensando en la analítica integral y permite que, en las empresas,
se agreguen datos con rapidez, se detecten tendencias y patrones, se comprendan variables, se detecten valores atípicos y se exploren
las relaciones dentro de un conjunto de datos en una plataforma sin código.

Next Term