Histograma

Histogram

Barras sin espacio: cómo el histograma dibuja la forma de los datos

Un histograma agrupa datos continuos en intervalos de igual amplitud y representa la frecuencia de cada intervalo mediante barras adyacentes sin separación. A diferencia del gráfico de barras convencional, donde cada barra corresponde a una categoría discreta, aquí las barras contiguas reflejan la continuidad de la variable medida: estatura, temperatura, ingresos o cualquier magnitud que pueda tomar valores intermedios.

La forma resultante es enormemente informativa. Una distribución simétrica con forma de campana sugiere normalidad; una cola alargada hacia la derecha indica sesgo positivo, común en datos de ingresos; dos picos señalan una distribución bimodal que podría revelar dos subpoblaciones mezcladas. Leer un histograma consiste, ante todo, en observar su silueta global antes de examinar barras individuales.

El eje horizontal muestra los intervalos de la variable y el eje vertical la frecuencia absoluta o relativa. Cuando se usa frecuencia relativa y se ajusta la escala, el área total bajo las barras suma uno, lo que permite comparar distribuciones de conjuntos de datos con tamaños diferentes.

Control de calidad, demografía y más: el histograma como primera herramienta de análisis

En manufactura, el histograma es una de las siete herramientas básicas de calidad. Los ingenieros lo utilizan para verificar si las medidas de piezas producidas se concentran dentro de las tolerancias especificadas. Si la distribución se desplaza hacia un límite, se activa una alerta antes de que se generen productos defectuosos.

Los censos de población emplean histogramas para mostrar la distribución etaria de un país, conocida como pirámide de población cuando se separa por sexo. Esta visualización permite anticipar necesidades futuras de salud, educación y pensiones. De forma análoga, los economistas analizan la distribución de ingresos para medir desigualdad social.

En ciencia de datos, construir histogramas es casi siempre el primer paso del análisis exploratorio. Antes de aplicar cualquier modelo estadístico, el analista necesita saber si los datos son simétricos, si existen valores atípicos y si la dispersión es amplia o estrecha. Un histograma responde estas preguntas en segundos y orienta las decisiones metodológicas posteriores.

El dilema del número de barras: decisiones que transforman la historia del histograma

La cantidad de intervalos elegida puede alterar drásticamente la interpretación. Con muy pocos intervalos, el histograma pierde detalle y oculta patrones relevantes; con demasiados, el ruido estadístico genera picos artificiales que no reflejan la estructura real de los datos. Reglas como la de Sturges o la de Freedman-Diaconis ofrecen un punto de partida razonable, pero la exploración visual con diferentes anchos sigue siendo recomendable.

Un error común es confundir el histograma con un gráfico de barras categórico. Separar las barras con espacios sugiere categorías independientes y elimina la noción de continuidad, desorientando al lector. Asimismo, usar intervalos de diferente amplitud sin ajustar la altura a la densidad de frecuencia produce barras cuyas áreas no son comparables entre sí.

Como buena práctica, conviene etiquetar los límites de los intervalos en el eje horizontal y mostrar el conteo o porcentaje encima de cada barra cuando la precisión importa. Si se comparan dos distribuciones en el mismo histograma, el uso de colores semitransparentes evita que una serie oculte a la otra y facilita la comparación directa.