Gráfico de dispersión

Scatterplot

Un punto, dos variables: fundamentos del gráfico de dispersión

El gráfico de dispersión sitúa cada observación como un punto en un plano definido por dos ejes numéricos. La posición horizontal codifica el valor de una variable y la posición vertical el de otra, de modo que cada punto resume simultáneamente dos mediciones de un mismo caso. El resultado es una nube de puntos cuya forma, densidad y orientación revelan la relación subyacente entre ambas variables.

Cuando los puntos se alinean en una tendencia ascendente se habla de correlación positiva: al aumentar una variable, la otra tiende a crecer. Una tendencia descendente indica correlación negativa. Si los puntos se distribuyen de manera dispersa sin un patrón claro, las variables probablemente no están relacionadas de forma lineal. Añadir una línea de tendencia o regresión ayuda a cuantificar y comunicar esa relación.

Además de correlaciones, el gráfico de dispersión es excelente para detectar valores atípicos —puntos alejados del grueso de la nube— y agrupaciones o clústeres que sugieren subpoblaciones dentro de los datos. Codificar una tercera variable mediante el color o el tamaño de los puntos amplía aún más su capacidad informativa sin abandonar el formato bidimensional.

De la estadística clásica al machine learning: usos transversales del scatterplot

En ciencias de la salud, el gráfico de dispersión se emplea para explorar relaciones como la que existe entre dosis de un fármaco y respuesta clínica, o entre horas de actividad física y nivel de colesterol. Estas exploraciones visuales suelen ser el primer paso antes de aplicar modelos estadísticos más complejos, porque permiten verificar supuestos como la linealidad o la homogeneidad de varianzas.

En economía y negocios, los scatterplots ayudan a analizar la relación entre gasto publicitario y ventas, entre precio y demanda, o entre satisfacción del cliente y tasa de retención. Superponer datos de distintos periodos o segmentos de mercado en el mismo gráfico facilita la detección de cambios de tendencia o diferencias estructurales entre grupos.

En ciencia de datos y aprendizaje automático, el gráfico de dispersión es una herramienta exploratoria esencial. Antes de entrenar un modelo, los analistas visualizan pares de variables para identificar patrones, detectar colinealidad y evaluar si una transformación logarítmica o polinómica mejoraría el ajuste. También se usa para inspeccionar los residuos de un modelo y verificar que no presentan estructuras ocultas.

Sobreposición y escala: cómo evitar que la nube de puntos pierda su historia

El problema más común del gráfico de dispersión cuando se manejan grandes volúmenes de datos es la sobreposición: miles de puntos se apilan unos sobre otros formando una mancha oscura que oculta la densidad real. Técnicas como la transparencia parcial, el jittering —desplazamiento aleatorio mínimo— o los mapas de densidad bidimensionales ayudan a recuperar la información perdida.

La elección de escalas puede alterar drásticamente la percepción de la relación. Comprimir un eje exagera las diferencias en el otro, y viceversa. Cuando una de las variables presenta una distribución muy sesgada, aplicar una escala logarítmica puede revelar patrones que en escala lineal permanecían ocultos. Es importante documentar siempre el tipo de escala utilizada.

Un error frecuente es inferir causalidad a partir de una correlación visual. Que dos variables se muevan juntas no significa que una cause la otra; puede existir una tercera variable confusa o tratarse de una coincidencia estadística. El gráfico de dispersión muestra asociación, no mecanismo causal, y esa distinción debe quedar clara en cualquier análisis responsable.