VARIABLES ESTADÍSTICAS BIDIMENSIONALES.
REGRESIÓN Y CORRELACIÓN (2)
Coeficiente de correlación y su interpretación
Supongamos que en una variable bidimensional queremos precisar la relación que existe entre las dos variables que la forman. En concreto queremos expresar mediante una relación cómo depende una de ellas (variable dependiente) de la otra (variable independiente). Normalmente se elige como y la variable dependiente y como x la independiente.
Si esa relación se expresa mediente una función lineal del tipo y = ax + b, su gráfica correspondería a una recta.
En el caso que nos ocupa nos interesa la recta que mejor "se ajuste" a los puntos de la nube de puntos de la variable. Dicha recta se denomina: recta de regresión.
Por un método que se denomina de "mínimos cuadrados" y cuya concrección no corresponde a este nivel de estudio, se deduce que la recta de regresión debe pasar por el punto correspondiente a las medias de ambas variables y que debe tener por pendiente la covarianza dividida por la varianza de la variable x.
Con ello la expresión de la recta de regresión será:
Esta es la llamada "Recta de regresión de y sobre x". Si se deseara estudiar la dependencia de x respecto a y sólo habría que cambiar en la expresión de la recta x por y, obteniéndose la recta regresión de x sobre y.
En la imagen siguiente se muestra la recta de regresión de y (peso) sobre x (talla) del ejemplo 1 de este tema. En este caso se supone que represente cómo depende el peso de una persona de su talla.
Si recordamos que entre la talla y el peso decíamos que existía una dependencia directa, la recta de regresión lo confirma ya que su pendiente es positiva: a medida que aumenta la talla aumenta el peso. Por tanto:
Dependencia directa - Pendiente de la recta positiva - Función creciente.
Pero ¿qué utilidad tiene la recta de regresión?
En la tabla de valores de la variable talla - peso, solamente nos dan los valores de un determinado número de personas (10 en este caso): las personas de las que se conocen dichos valores. Mediante la recta de regresión podríamos obtener de manera aproximada el peso de una persona de la que conociéramos la talla, en una población semejante a aquella de la que se ha obtenido la muestra.
Si observamos la gráfica anterior, podríamos suponer por ejemplo que una persona de 185 cm pesaría algo más de 80 kg.
De manera más precisa, si conocemos la expresión de la recta de regresión, se pueden calcular valores para la variable y, conocidos los de x, como si se tratara de una función.
Ejemplo 4.- La recta de regresión de la variable y (talla) sobre x (peso) será la recta:
- que pasa por el punto (172,6 ; 66,3)
- tiene de pendiente: 55,32 / 50,71 = 1,0909
Recta: y - 66,3 = 1,0909 ( x - 172,6) que operando y simplificando queda:
y = 1,0909x - 121,9
El valor del peso que suponíamos aproximado para una talla de 185 cm sería: Peso= 1.0909 · 185 - 121,9 = 79.9
Este valor obtenido es algo menor al esperado. Eso quiere decir que las predicciones hechas con la recta de regresión no son exactas. En el apartado siguiente precisaremos la "fiabilidad" de las mismas.
Por tanto la recta de regresión se puede utilizar para realizar predicciones para la variable y a partir de valores conocidos de la variable x.
Ejercicio 4.- Observar la tabla de valores siguiente y la escena donde dichos valores están representados. En la escena a los pares de valores le llamamos (a,a1) ; (b,b1); etc.
x | 2 | 4 | 6 | 8 | 10 | 12 |
y | 8 | 7 | 7 | 6 | 6 | 4 |
- Calcular la recta de regresión de y sobre x.
Se debe obtener los valores siguientes:
Media de x: 7 ; Media de y: 6,33 ; covarianza: -3,99 ; varianza de x: 11,66 y con ello:
recta de regresión: y = -0,342 x + 8,72
- ¿Cómo es la pendiente ? ¿qué tipo de dependencia existe entre las variables?
- Dar algunos valores a x y obtener los correspondientes a y según la recta de regresión. Comprobar en la escena si los valores obtenidos son correctos.
- Cambiar los valores iniciales de la tabla en la escena viendo cómo varía la recta de regresión y calcularla en los casos que se desee (por ejemplo un caso en que la pendiente de la recta sea positiva).
Una vez observado que en una variable bidimensional existe una cierta dependencia entre las dos características o variables que la forman (nube de puntos y covarianza), podemos precisar el grado de dicha dependencia.
- Si los puntos de la nube estuvieran todos sobre la recta de regresión se diría que existe una dependencia funcional. De su estudio se encargan las funciones.
- Si los puntos no están todos sobre la recta de regresión se dice que entre las variables hay una cierta correlación lineal. Este es el caso que nos ocupa. Para cuantificar el grado de dicha correlación se usa el:
Coeficiente de correlación de Pearson. Si le llamamos r, su valor es:
Puede observarse que el signo del coeficiente de correlación es el mismo que el de la covarianza y puede deducirse que el valor del mismo esta comprendico entre -1 y 1.
En la escena siguiente se puede observar la escena del ejercicio 4, donde se ha añadido el valor del coeficiente de correlación.
Se pueden deducir las siguientes conclusiones relativas al coeficiente de correlación (r):
- Su signo es el mismo de la covarianza, luego si r es positivo la dependencia es directa y si es negativo inversa.
- Si r se acerca a -1 o a +1, la dependencia es fuerte y por tanto las predicciones que se realicen a partir de la recta de regresión serán bastante fiables.
- Si r se acerca a 0 la dependencia es débil y por tanto las predicciones que se realicen a partir de la recta de regresión serán poco fiables.
Ejercicio 5.- Calcular el coeficiente de correlación para la variable talla - peso y deducir del valor del mismo el tipo de dependencia y la fiabilidad de las predicciones. (Sol: r = 0,90)
Ejercicio 6.- En la escena siguiente se puede observar un ejemplo de dependencia funcional (r = 1). Escribe en el cuaderno de trabajo dos tablas de valores:
a) La dependencia sea fuerte y directa
b) La que la dependencia sea débil e inversa
Calcula la recta de regresión y el coeficiente de correlación en ambos casos y usa la escena para comprobar los valores obtenidos.
Cambia tambíen los valores de la escena cuantas veces desees observando los resultados.
Ejercicio 7.- Calcular la covarianza y el coeficiente de correlación correspondiente al ejemplo 2 del tema (hijos-hijas) deduciendo de ello el tipo de dependencia y la intensidad de la misma. Obsérvese que en este caso los pares de valores se repiten en muchos casos. Se debe consultar un libro del tema o al profesor si se tiene duda para calcular las diversas medidas.
Ejercicio 8.- La tabla siguiente muestra la la latitud y temperatura media de 6 ciudades europeas.Utiliza la escena que se adjunta y cambia en ella los valores iniciales por los de la tabla (recuerda que los valores de (x, y) se llaman en la escena (a, a1); (b, b1), etc.
Ciudad |
Atenas |
Lisboa |
Madrid |
Londres |
Paris |
Copenhague |
Latitud (y) |
37 |
39 |
40 |
53 |
49 |
54 |
Temperaruta (x) |
24 |
19 |
19 |
14 |
15 |
49 |
Calcula las medidas necesarias, la recta de regresión y el coeficiente de correlación comparando los resultados con los de la escena.
- ¿Se puede decir que las cuidades más al norte tiene una temperatura media menor? ¿se cumple en todos los casos?
- ¿Cuál podría ser la temperatura media de una ciudad que se encuentra a 60º de latitud norte? ¿y la de otra que se encuentre a 20º?
- Busca los datos algunas cuidades del mundo y comparalos con los que se obtendrían con los datos del problema.
- Comenta la fiabilidad de las predicciones,
Autor: Leoncio Santos Cuervo
Ministerio de Educación, Cultura y Deporte. Año 2000 | ||