Distribución

Entender cómo se dispersan los datos más allá del promedio

El promedio es una de las estadísticas más usadas y más engañosas. Decir que el salario promedio es de $50.000 no dice nada sobre si la mayoría gana cerca de esa cifra o si hay un grupo en $20.000 y otro en $200.000 que se compensan.

Las visualizaciones de distribución resuelven esto al mostrar la forma completa de los datos: dónde se concentran, qué tan dispersos están, si hay grupos separados (bimodalidad) y dónde están los valores atípicos.

Entender la distribución es el primer paso real del análisis de datos. Antes de calcular correlaciones o construir modelos, necesitas saber qué forma tienen tus datos.

Histograma, densidad, caja o violín: una guía para elegir

El histograma es el punto de partida universal: divide los datos en intervalos y cuenta cuántos caen en cada uno. Es simple y efectivo, pero la elección del ancho de intervalo puede cambiar la percepción.

El gráfico de densidad suaviza el histograma en una curva continua, lo que facilita comparar distribuciones superpuestas. El diagrama de caja resume la distribución en cinco números clave (mínimo, Q1, mediana, Q3, máximo) y es ideal para comparar muchos grupos lado a lado.

El gráfico de violín combina lo mejor de ambos: la forma de la distribución (como el gráfico de densidad) con los estadísticos clave (como el diagrama de caja). Es la opción más completa pero también la menos familiar para audiencias generales.

Detectar valores atípicos y distribuciones inesperadas

Uno de los mayores valores de visualizar distribuciones es descubrir lo inesperado. Una distribución bimodal (con dos picos) puede revelar que hay dos poblaciones mezcladas en tus datos que deberían analizarse por separado.

Los valores atípicos (outliers) son puntos que se alejan significativamente del resto. El diagrama de caja los muestra explícitamente como puntos aislados más allá de los bigotes. Antes de descartarlos como errores, investiga: a veces los outliers son los datos más interesantes.

Una distribución sesgada (con cola larga hacia un lado) también es información valiosa. Los ingresos, los precios de vivienda y los tiempos de carga de página típicamente tienen sesgo positivo, y el promedio en esos casos puede ser muy engañoso.