El diagrama de caja es una de las herramientas más útiles en visualización de datos, pero también una de las que genera más confusión. Su apariencia compacta esconde una cantidad sorprendente de información estadística. La buena noticia es que no necesitas un título en estadística para leerlo ni para crearlo.
En este artículo vamos a desmontar cada parte del diagrama de caja con un lenguaje sencillo y un ejemplo con números reales. Al terminar, podrás interpretar cualquier box plot que encuentres y decidir cuándo conviene utilizarlo.
Anatomía de un diagrama de caja
Un diagrama de caja resume un conjunto de datos en cinco valores clave. Antes de ver los números, conviene entender qué representa cada elemento visual.
La caja. Es el rectángulo central y representa el rango intercuartílico (IQR), es decir, el tramo donde se concentra el 50 % central de los datos. El borde inferior de la caja marca el primer cuartil (Q1, percentil 25) y el borde superior marca el tercer cuartil (Q3, percentil 75). Si la caja es estrecha, los datos están muy concentrados; si es ancha, hay mayor dispersión.
La línea interior. Dentro de la caja aparece una línea horizontal que indica la mediana (Q2, percentil 50). Es el valor que divide el conjunto de datos exactamente por la mitad. Atención: la mediana no es lo mismo que el promedio. El promedio se ve afectado por valores extremos; la mediana, no.
Los bigotes (whiskers). Son las líneas que se extienden desde cada extremo de la caja. Generalmente llegan hasta el valor más alejado que no se considera atípico. Una convención habitual es extenderlos hasta 1,5 veces el IQR por encima de Q3 y por debajo de Q1.
Los puntos aislados. Cualquier dato que quede más allá de los bigotes se representa como un punto individual. Estos son los valores atípicos u outliers: observaciones inusualmente altas o bajas que merecen atención especial.
Ejemplo paso a paso con números reales
Supongamos que medimos el tiempo de entrega en días de un servicio de mensajería durante 15 pedidos. Los datos ordenados de menor a mayor son: 1, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 8, 9, 18.
Paso 1: encontrar la mediana. Con 15 datos, la mediana es el valor en la posición 8. Contamos: el octavo dato es 5. La mediana del tiempo de entrega es 5 días.
Paso 2: calcular Q1 y Q3. Q1 es la mediana de la mitad inferior (posiciones 1 a 7): 1, 2, 2, 3, 3, 4, 4. El valor central es 3. Q3 es la mediana de la mitad superior (posiciones 9 a 15): 5, 6, 6, 7, 8, 9, 18. El valor central es 7.
Paso 3: calcular el IQR. IQR = Q3 – Q1 = 7 – 3 = 4 días. Esto significa que el 50 % central de las entregas tarda entre 3 y 7 días.
Paso 4: determinar los bigotes. Límite inferior = Q1 – 1,5 × IQR = 3 – 6 = -3. Como no hay tiempos negativos, el bigote inferior llega hasta el dato mínimo real: 1 día. Límite superior = Q3 + 1,5 × IQR = 7 + 6 = 13. El bigote superior llega hasta 9, que es el dato más alto por debajo de 13.
Paso 5: identificar outliers. El valor 18 está por encima de 13, así que se marca como un punto aislado. Esa entrega fue anormalmente lenta y merece investigación.
Con estos cinco elementos, el diagrama de caja permite ver de un vistazo la tendencia central, la dispersión y la presencia de anomalías.
Cuándo usar un diagrama de caja
El diagrama de caja brilla cuando necesitas comparar la distribución de una variable entre varios grupos. Por ejemplo, comparar tiempos de entrega entre tres sucursales, o comparar calificaciones entre distintos cursos. Al colocar varios diagramas de caja en paralelo, las diferencias saltan a la vista.
También es útil para detectar valores atípicos rápidamente. En control de calidad, finanzas o logística, identificar outliers es muchas veces el primer paso de un análisis.
Si quieres complementar la información del diagrama de caja con la incertidumbre de una estimación, las barras de error pueden ser un buen acompañamiento en el mismo panel de análisis.
Cuándo evitarlo
Si tu audiencia no tiene familiaridad con conceptos como cuartiles o medianas, el diagrama de caja puede generar más confusión que claridad. En presentaciones para público general o en informes ejecutivos, un histograma suele ser más intuitivo porque muestra la forma de la distribución de manera directa.
Otra limitación es que el diagrama de caja oculta la forma exacta de la distribución. Dos conjuntos de datos con distribuciones muy diferentes pueden producir diagramas de caja idénticos. Si necesitas ver si los datos son bimodales o tienen una forma particular, un gráfico de densidad te dará mucha más información.
El complemento perfecto: el gráfico de violín
El gráfico de violín combina lo mejor de ambos mundos. Muestra la misma información que un diagrama de caja (mediana, cuartiles) pero añade la forma de la distribución a cada lado, como un gráfico de densidad reflejado. Es ideal cuando quieres la precisión del box plot y la riqueza visual de la densidad en un solo gráfico.
En la práctica, muchas herramientas modernas de visualización permiten superponer un diagrama de caja dentro de un gráfico de violín, ofreciendo así un resumen compacto sin perder detalle.
Consejos prácticos para crear buenos diagramas de caja
- Ordena los grupos de forma lógica: alfabéticamente, por mediana ascendente o por alguna variable relevante. Esto facilita la comparación.
- Incluye el número de observaciones por grupo. Un diagrama de caja con 5 datos y otro con 500 no son directamente comparables.
- No olvides etiquetar los ejes y explicar brevemente qué representa cada elemento si tu audiencia no está familiarizada con el formato.
- Si tienes pocos datos (menos de 10 por grupo), considera mostrar los puntos individuales junto a la caja para que el lector juzgue por sí mismo.
El diagrama de caja es una herramienta poderosa que condensa mucha información en poco espacio. Con la práctica, leerlo se vuelve tan natural como leer un gráfico de barras. Y cuando necesites ir más allá, siempre puedes recurrir a sus complementos visuales para enriquecer el análisis.