Deberás:
- Dibujar una nube de puntos
- Interpretar el coeficiente de correlación
- Interpretar y utilizar la recta de regresión para estimar
Tablas y nube de puntos
Tienes que saber trabajar con tablas de frecuencias de columnas y con tablas de doble entrada. Debes saber representar gráficamente los datos mediante una nube de puntos. Para las distribuciones marginales debes añadir las columnas y filas necesarias en las tablas correspondientes.
En la tabla siguiente se anotan los resultados obtenidos por un grupo de personas en dos pruebas diferentes X, Y. La frecuencia absoluta viene expresada en la tabla por n. Por ejemplo, el número de participantes que han obtenido una puntuación de 2 puntos en la prueba X y 3 puntos en la prueba Y son 4.
| x | y | n |
|---|---|---|
| 1 | 1 | 3 |
| 2 | 1 | 2 |
| 2 | 3 | 4 |
| 2 | 4 | 3 |
| 3 | 4 | 6 |
| 3 | 2 | 1 |
| 4 | 4 | 1 |
Esta misma tabla puede mostrarse como una de doble entrada de la siguiente forma:
| X Y |
1 | 2 | 3 | 4 |
|---|---|---|---|---|
| 1 | 3 | 2 | ||
| 2 | 1 | |||
| 3 | 4 | |||
| 4 | 3 | 6 | 1 |
La nube de puntos o diagrama de dispersión correspondiente a las tablas anteriores es la mostrada:
Correlación
En la nube de puntos que se muestra a continuación parece observarse cierta tendencia de los puntos a tener una dirección ascendente. Esto sgnificaría que para valores altos de la variable X corresponderían valores también altos de la variable Y. Si esto fuera cierto, diremos que las variables X e Y están correlacionadas. No estaremos diciendo que una es la causa de la otra, simplemente entederemos que estadísticamente se observa que los valores de ambas variables pueden estar relacionadas por alguna causa que puede ser debida a otra variable que no conocemos, o a que realmente sí que una de ellas es la causa y la otra es el efecto; por ejemplo, que exista entre ellas una relación funcional.
El valor de la correlación
En este curso no haremos ningún cálculo de parámetros de este tema, pero debes saber que hay un estdístico que nos informa de si la correlación estadística que hay en los datos es importante o no lo es: se llama coeficiente de correlación r.
Las propiedades que debes conocer de este estadístico son:
- Es un número entre -1 y +1.
- Si su valor es cercano a cero la correlación es muy pequeña. Si es cero decimos que las variables son incorreladas.
- Para afirmar que hay correlación estadística debe tener un valor cercano a 1 ó -1.
- Si hay correlación, se dice que es positiva si el valor de r es postivo (los puntos ascienden en la nube); negativa si es negativo (los puntos de la nube descienden).
En el ejemplo anterior, el valor del coeficiente de correlación vale r = 0,8537 y diremos que hay correlación positiva.
La recta de regresión
Es una recta a la que se ajustan los datos estadísticos. Por supuesto, tendrá una fórmula que será un polinomio de grado uno (función lineal) y que podríamos calcular, pero no la haremos este curso (sí en posteriores). Esta recta nos servirá para estimar valores de la variable Y a partir de los valores de X.
Ejemplo
La recta de regresión anterior tiene de ecuación: y = 0,92 x + 0,72.
Si quisiéramos estimar el valor de Y cuando X valga 3,5 lo que haríamos es sustituir ese valor en la fórmula: y = 0,92 · 3,5 + 0,72 = 3,94.
Realiza los ejercicios 1 al 6 de la página 227.
