Diagrama de tallo y hojas

Stem & Leaf Plot

Dígitos que forman un histograma: la ingeniosa lógica del diagrama de tallo y hojas

El diagrama de tallo y hojas es una técnica semigráfica que organiza un conjunto de datos numéricos separando cada valor en dos partes: el tallo, formado por los dígitos iniciales, y la hoja, que corresponde al último dígito. Los tallos se listan en una columna vertical ordenada y las hojas se escriben horizontalmente junto a su tallo correspondiente, creando filas de dígitos cuya longitud refleja la frecuencia de cada rango.

El resultado visual se asemeja a un histograma girado, donde cada fila equivale a un intervalo de clase. Sin embargo, a diferencia del histograma, el diagrama de tallo y hojas conserva los valores originales completos: con el tallo y la hoja de cada dato, el lector puede reconstruir la cifra exacta. Esta doble función —resumen visual y preservación del dato— lo convierte en una herramienta única en el análisis exploratorio.

Para leerlo se observa la distribución general de las filas: si las hojas se concentran en los tallos centrales se tiene una distribución simétrica, si se acumulan en un extremo la distribución es sesgada. Los valores alejados del cuerpo principal aparecen como hojas solitarias en tallos extremos, lo que facilita la detección inmediata de datos atípicos.

Aulas, laboratorios y control de calidad: dónde se usa esta técnica clásica

El diagrama de tallo y hojas es un recurso pedagógico fundamental en cursos introductorios de estadística. Su construcción manual obliga al estudiante a interactuar con cada dato, fomentando una comprensión profunda de conceptos como distribución, centralidad y dispersión antes de pasar a herramientas computacionales más abstractas. Muchos libros de texto lo presentan como el primer paso del análisis exploratorio de datos.

En el ámbito clínico, los investigadores lo emplean para resumir muestras pequeñas —por ejemplo, los tiempos de reacción de veinte pacientes a un tratamiento— sin perder los valores individuales que podrían ser relevantes para identificar respuestas anómalas. Cuando el tamaño muestral es reducido, un histograma con intervalos arbitrarios puede ocultar detalles que el tallo y hojas preserva fielmente.

En control de calidad industrial, esta técnica permite inspeccionar rápidamente las mediciones de un lote de producción. Si las hojas se agrupan de forma compacta alrededor del valor nominal, el proceso está bajo control. Si aparecen hojas dispersas en tallos alejados, se requiere una investigación inmediata para corregir posibles desviaciones del estándar.

Límites de escala y alternativas modernas: cuándo elegir otro camino

La principal limitación del diagrama de tallo y hojas es su escalabilidad. Con conjuntos de datos de varios cientos o miles de observaciones, las filas se extienden más allá de lo manejable y el diagrama pierde su claridad. En estos casos, un histograma o un diagrama de caja ofrecen resúmenes más compactos, aunque al coste de sacrificar los valores individuales.

Cuando los datos presentan un rango muy amplio, los tallos se multiplican y muchas filas quedan vacías, lo que genera un diagrama largo y disperso. Una solución parcial es dividir cada tallo en dos o cinco subtallos, agrupando las hojas por rangos más estrechos. No obstante, si la variabilidad es extrema, otras visualizaciones resultan más prácticas.

A pesar de estas limitaciones, el diagrama de tallo y hojas mantiene su valor como herramienta de exploración rápida para muestras pequeñas y medianas. Su capacidad de mostrar la forma de la distribución sin ocultar ningún dato lo hace insustituible en contextos donde cada observación importa, desde ensayos clínicos con pocos participantes hasta auditorías con un número reducido de mediciones.