Diagrama de caja

Box & Whisker Plot

Cinco números que resumen toda una distribución

El diagrama de caja condensa la distribución de un conjunto de datos en cinco estadísticos: el valor mínimo, el primer cuartil (Q1), la mediana, el tercer cuartil (Q3) y el valor máximo. La caja central abarca del Q1 al Q3, conteniendo el 50% central de los datos.

La línea dentro de la caja marca la mediana, no el promedio. Esta distinción es importante: la mediana divide los datos exactamente por la mitad y es resistente a valores extremos, a diferencia del promedio.

Los 'bigotes' se extienden desde la caja hasta los valores extremos dentro de un rango razonable. Los puntos más allá de los bigotes se marcan individualmente como outliers.

Comparar distribuciones entre grupos de un solo vistazo

La verdadera potencia del diagrama de caja aparece cuando se colocan múltiples cajas lado a lado. Comparar los salarios entre departamentos, los tiempos de respuesta entre servidores, o las calificaciones entre secciones de un curso se hace inmediato.

La posición relativa de las medianas indica qué grupo tiene valores más altos. El tamaño de las cajas revela qué grupo es más variable. La presencia de outliers señala dónde hay casos excepcionales.

Ningún otro gráfico ofrece tanta información comparativa sobre distribuciones en un espacio tan compacto. Es por eso que es el estándar en publicaciones científicas para comparar grupos.

Lo que el diagrama de caja oculta y cómo complementarlo

A pesar de sus ventajas, el diagrama de caja tiene un punto ciego importante: no muestra la forma de la distribución. Dos conjuntos de datos con los mismos cinco estadísticos pueden tener distribuciones completamente diferentes (una unimodal y otra bimodal, por ejemplo).

El gráfico de violín resuelve esto al añadir la silueta de la densidad alrededor de la caja. Otra opción es superponer los puntos individuales (strip plot o jitter plot) sobre el diagrama de caja para ver la distribución real.

Para audiencias no estadísticas, el diagrama de caja puede resultar poco intuitivo. Si tu público no sabe qué es un cuartil, considera usar un histograma o gráfico de densidad en su lugar.