Gráfico de densidad

Density Plot

La curva suave que reemplaza las barras del histograma

El gráfico de densidad representa la distribución de una variable continua mediante una curva suave, obtenida a través de la estimación de densidad por kernel (KDE). En lugar de agrupar los datos en intervalos discretos como hace un histograma, la curva interpola entre los puntos observados, generando un perfil continuo que facilita la identificación de modas, asimetrías y colas de la distribución.

El eje horizontal muestra los valores de la variable y el eje vertical indica la densidad de probabilidad, no la frecuencia absoluta. El área bajo la curva total siempre suma uno, lo que permite interpretar cualquier segmento como la proporción estimada de datos dentro de ese rango. Un pico alto y estrecho señala una concentración de observaciones, mientras que una zona baja y extendida indica dispersión.

La principal ventaja sobre el histograma es la independencia de los intervalos. Un histograma puede cambiar drásticamente de apariencia al modificar el ancho de las barras, mientras que el gráfico de densidad ofrece una representación más estable y libre de los artefactos escalonados que generan los límites de clase.

Comparar poblaciones, tiempos de respuesta y calificaciones

En ciencias sociales y biomedicina, el gráfico de densidad es la herramienta habitual para comparar distribuciones entre grupos. Superponer la curva de ingresos de dos regiones o la distribución de talla de dos poblaciones permite ver, de forma inmediata, dónde se solapan y dónde divergen, algo que una tabla de estadísticos descriptivos difícilmente comunica con la misma claridad.

En ingeniería de software y operaciones, se utiliza para analizar tiempos de respuesta de servidores o duración de procesos. Un gráfico de densidad bimodal, con dos picos, podría revelar que el sistema se comporta de manera diferente bajo dos condiciones distintas, como horario pico y horario nocturno, señalando la necesidad de investigar cada modo por separado.

El sector educativo también recurre a esta visualización. Representar la distribución de calificaciones de un examen con un gráfico de densidad muestra si la mayoría de los estudiantes se agrupan en torno a una nota central, si la distribución está sesgada hacia los extremos o si existen subgrupos con rendimientos diferenciados que requieren atención pedagógica específica.

El ancho de banda: el parámetro que cambia la historia

El parámetro más crítico de un gráfico de densidad es el ancho de banda del kernel. Un ancho de banda demasiado pequeño produce una curva irregular con picos espurios que reflejan ruido, no patrones reales. Un ancho de banda excesivo aplana la curva hasta ocultar modas genuinas. La mayoría de las librerías estadísticas, como ggplot2 o seaborn, aplican reglas automáticas razonables, pero es aconsejable probar varios valores y contrastar el resultado con un histograma de referencia.

Otro error común es comparar curvas de densidad calculadas sobre muestras de tamaños muy distintos sin advertirlo. Como el área siempre es uno, una muestra pequeña puede generar una curva tan prominente como una de miles de observaciones. Si el objetivo es comparar volúmenes, conviene usar gráficos de frecuencia en lugar de densidad, o anotar el tamaño muestral junto a cada curva.

Finalmente, el gráfico de densidad puede extenderse más allá del rango real de los datos, sugiriendo valores imposibles como edades negativas o porcentajes superiores a cien. Es buena práctica recortar la curva en los límites lógicos de la variable o, al menos, marcar claramente el rango observado para que el lector no interprete las colas extendidas como datos reales.