Rectas de regresión

Observando el diagrama de dispersión, podemos obtener una primera idea de si existe relación o no entre las variables estadísticas. Con el coeficiente de correlación podemos medir la correlación lineal, en caso de existir. Vamos ahora a calcular las líneas que mejor se aproximen a la nube de puntos. A estas líneas se les llama líneas de regresión.

La función que mejor se aproxima a la nube de puntos puede ser lineal, de segundo grado, exponencial, logarítmica, ... En este tema vamos a calcular únicamente funciones lineales, que vamos a llamar rectas de regresión.

La forma de obtener estas rectas es por el procedimiento conocido como el método de los mínimos cuadrados. Buscamos una recta de ecuación y=mx+n que sea la mejor aproximación. Cada punto x_i de la primera variable tendrá, por una parte, el valor correspondiente a la segunda variable y_i,y por otra, su imagen por la recta de regresión y=mx_i+n. Entre estos dos valores existirá una diferencia d_i=mx_i+n-y_i. Vamos a calcular la recta con la condición de que la suma de los cuadrados de todas estas diferencias Σ(mx_i+n-y_i)² sea mínima. Derivando respecto de m y de n y realizando los cálculos matemáticos necesarios, llegamos a la recta de regresión de Y sobre X, que tiene por ecuación en la forma punto-pendiente:

Si ahora cambiamos los papeles de las variable X e Y y realizamos el mismo procedimiento, obtenemos la ecuación de la recta de regresión de X sobre Y:

En primer lugar vamos a comprobar con la siguiente escena que la recta de regresión es la que más se aproxima a la nube de puntos:

Escena 4. Método de los mínimos cuadrados.

En segundo lugar vamos a construir diferentes diagramas de dispersión y vamos a representar gráficamente las rectas de regresión:

Escena 5. Rectas de regresión.

Y ahora vamos a calcular las rectas de regresión para un ejemplo concreto, introduciendo los datos de nuestra variable estadística bidimensional, y vamos a representarlas gráficamente:

Escena 6. Cálculo de las rectas de regresión.

Estimaciones. Una vez que conocemos la mayor o menor relación entre las variables con el coeficiente de correlación lineal y que hemos calculado las rectas de regresión, podemos utilizarlas para predecir el valor de una de las variables a partir de la otra. Por ejemplo, en el ejemplo 1, se conoce la relación entre la cantidad de agua caída y la producción de aceite. Se sabe también que en el último año hidrológico se ha registrado una precipitación media de 411 litros por metro cuadrado, pero aún no ha empezado la recolección de la aceituna, por lo que no conocemos la producción de aceite de este año. Podríamos utilizar la recta de regresión de Y sobre x para calcularlo.

Después de haberlo calculado, nos podemos preguntar si este dato obtenido es fiable o no. Esto dependerá de dos cuestiones.

La primera que exista correlación lineal entre ambas variables. El dato será más fiable cuanto más se aproxime el coeficiente de correlación lineal a 1 o a -1.

La segunda que las rectas de regresión se han obtenido para unos valores concretos de X y de Y. Aunque exista una correlación lineal fuerte, si intentamos hacer predicciones para valores de las variables lejanos a los estudiados, podemos llevarnos sorpresas. Es decir, para que sea fiable una estimación, además de la primera condición, los valores de X e Y tienen que estar dentro del dominio de los estudiados.

En la siguiente escena, podemos calcular estimaciones:

Escena 7. Cálculo de estimaciones.

PÁGINA ANTERIOR

ÍNDICE

PÁGINA SIGUIENTE

Los contenidos de esta unidad didáctica están bajo una licencia de Creative Commons si no se indica lo contrario.

1. VARIABLES BIDIMENSIONALES	2. TABLAS DE FRECUENCIAS	3. DIAGRAMA DE DISPERSIÓN	4. DEPENDENCIA Y CORRELACIÓN
5. CORRELACIÓN LINEAL	6. REGRESIÓN LINEAL	7. EJERCICIOS	8. BIBLIOGRAFÍA