Correlación

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad (Véase cum hoc ergo propter hoc).

Fuerza, sentido y forma de la correlación

La relación entre dos variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:

Coeficientes de correlación

Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de correlación de Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la covarianza de dos variables entre el producto de sus desviaciones estándar. Otros coeficientes son:

Interpretación geométrica

Dados los valores muestrales de dos variables aleatorias X (x_1, \ldots, x_n) e Y (y_1, \ldots, y_n), que pueden ser consideradas como vectores en un espacio a n dimensiones, pueden construirse los "vectores centrados" como:

X (x_1 - \bar x, \ldots, x_n - \bar x) e Y (y_1 - \bar y, \ldots, y_n - \bar y).

El coseno del ángulo alfa entre estos vectores es dada por la fórmula siguiente:

\cos(\alpha) = \dfrac{\displaystyle \sum_{i=1}^N (x_i - \bar x)\cdot(y_i - \bar y)}{\sqrt{\displaystyle \sum_{i=1}^N (x_i - \bar x)^2}\cdot\sqrt{\displaystyle \sum_{i=1}^N (y_i - \bar y)^2}}

Pues \cos(\alpha) es el coeficiente de correlación muestral de Pearson. El coeficiente de correlación es el coseno entre ambos vectores centrados:

Más generalmente: \alpha = \arccos(r).

Por supuesto, desde el punto vista geométrico, no hablamos de correlación lineal: el coeficiente de correlación tiene siempre un sentido, cualquiera sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, sino sobre su distancia angular en la hiperesfera a n dimensiones.

La Iconografía de las correlaciones es un método de análisis multidimensional que reposa en esta idea. La correlación lineal se da cuando en una nube de puntos se encuentran o se distribuyen alrededor de una recta.

La fórmula de correlación para dos series distintas con cierto desfase "k", está dada por la fórmula:

r_k = \dfrac{\displaystyle \sum_{i=1}^{N-k} (x_i - \bar x)\cdot(y_{i+k} - \bar y)}{\sqrt{\displaystyle \sum_{i=1}^{N-k} (x_i - \bar x)^2}\cdot\sqrt{\displaystyle \sum_{i=k+1}^N (y_i - \bar y)^2}}

Distribución del coeficiente de correlación

El coeficiente de correlación muestral de una muestra es de hecho una varible aleatoria, eso significa que si repetimos un experimento o consideramos diferentes muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para muestras grandes la variación en dicho coeficiente será menor que para muestras pequeñas. R. A. Fisher fue el primero en determinar la distribución de probabilidad para el coeficiente de correlación.

Si las dos variables aleatorias que trata de relacionarse proceden de una distribución gaussiana bivariante entonces el coeficiente de correlación r sigue una distribución de probabilidad dada por:[1][2]

f\left(r\right) = \frac{\left(n - 2\right)\, \mathbf{\Gamma}\left(n - 1\right) \left(1 - \rho^2\right)^{\frac{n - 1}{2}} \left(1 - r^2\right)^{\frac{n - 4}{2}}}{\sqrt{2\pi}\, \mathbf{\Gamma}\left(n - \frac{1}{2}\right) \left(1 - \rho r\right)^{n - \frac{3}{2}}} \,\mathbf{_2F_1}\left(\frac{1}{2}, \frac{1}{2}; \frac{2n - 1}{2}; \frac{\rho r + 1}{2}\right)

donde:

\mathbf{\Gamma} es la distribución gamma
\,\mathbf{_2F_1}(a,b;c;z) es la función gaussiana hipergeométrica.

Nótese que el valor esperado del coeficiente de correlación muestral r es:

\mathbb{E}\left(r\right) = \rho - \frac{\rho \left(1 - \rho^2\right)}{2 \left(n - 1\right)} + \cdots

por tanto, r es estimador sesgado de \,\rho. Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuación:

\bar{r} = \mathbb{E}\left(r\right) = \rho - \frac{\rho \left(1 - \rho^2\right)}{2 \left(n - 1\right)} para \,\rho

Aunque, la solución:

{\rho} = r \left[1 + \frac{1 - r^2}{2\left(n - 1\right)}\right]

es subóptima. Se puede obtener un estimador sesgado con mínima varianza para grandes valores de n, con sesgo de orden \frac{1}{n - 1} buscando el máximo de la expresión:

\log{f\left(r\right)}, i.e. \hat{\rho} = r \left[1 - \frac{1 - r^2}{2\left(n - 1\right)}\right]

En el caso especial de que \,\rho = 0, la distribución original puede ser reescrita como:

f\left(r\right) = \frac{\left(1 - r^2\right)^{\frac{n - 4}{2}}}{\mathbf{B}\left(\frac{1}{2}, \frac{n - 2}{2}\right)}

donde \mathbf{B} es la función beta.

Referencias

  1. Kenney, J. F. and Keeping, E. S., Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
  2. Correlation Coefficient - Bivariate Normal Distribution

Enlaces externos

This article is issued from Wikipedia - version of the Tuesday, January 12, 2016. The text is available under the Creative Commons Attribution/Share Alike but additional terms may apply for the media files.