domingo, 6 de março de 2011

8 Correlação

8.1 Relações entre variáveis

Em diversas investigações deseja-se avaliar a relação entre duas medidas quantitativas. Por exemplo, estão as alturas de filhos relacionadas com as alturas dos seus pais? Processos praianos condicionam a inclinação da zona pós-praia abaixo da linha da maré baixa? Ou seja, o ângulo de inclinação do fundo oceânico situado logo após a linha da maré baixa a estirâncio está relacionado com o diâmetro médio (em $mm$) do sedimento do fundo oceânico?
\fbox{\begin{tabular}{l\vert rrrrrrrrr}
\par
ângulo de inclinação $y$\ & 0.68 &0...
...0.41\\
& 0.55 &0.47& 0.59& 0.47& 0.50& 0.52& 0.47
&0.42& 0.37
\end{tabular}}
Três propósitos principais de tais investigações podem ser:

  • para verificar se os valores sestão associados. (Os valores de uma medida tendem a crescer (ou decrescer) à medida que a outra cresce?)
  • para predizer o valor de uma variável a partir de um valor conhecido da outra.
  • para descrever a relação entre variáveis. (Dado um aumento específico numa variável, qual o crescimento médio esperado para a segunda variável?)


A associação linear entre duas variáveis é avaliada usando correlação. Para predizer o valor de uma variável contínua a partir de uma outra variável e para descrever a relação entre duas variáveis utiliza-se regressão (veja o próximo capítulo).
O primeiro estágio em qualquer um dos casos é produzir um gráfico de pontos dos dados para obter alguma idéia da forma e grau de associação entre duas variáveis.
\includegraphics[width=3.5in]{pics/angulo.ps}
Mesmo tendo somente 18 observações, podemos ver que parece existir alguma associação entre ângulo de inclinação do fundo oceânico e diâmetro médio de sedimentos.

8.2 Definições

Seja $x_1, x_2, \ldots, x_n$ o conjunto das medidas de uma das variáveis (período das ondas), e seja $y_1,y_2,\ldots,y_n$ as medidas da outra variável (diâmetro médio de sedimentos). Seja $\bar{x}$, $\bar{y}$, $s_x$ e $s_y$ as médias e desvios padrão amostrais dos dois conjuntos de dados.
Para obter uma medida do grau de associação da relação linear entre duas variáveis, usamos o coeficiente de correlação, definido como:

\begin{displaymath}r = \frac{s_{xy}}{s_x s_y}.\end{displaymath}


onde

\begin{displaymath}s_{xy} = \frac{ \sum (x_i - \bar{x})(y_i - \bar{y})}{n-1} =
\frac{ \sum x_i y_i - n \bar{x} \bar{y}}{n-1} .\end{displaymath}


Para os dados do exemplo acima, temos $n=18$, $\bar{x}=0.48$, $\bar{y}=1.58$, $s_x=0.18$, $s_y=0.54$, $\sum x_i y_i = 12.44$ a partir dos quais podemos calcular que $r=-0.079$.
Assim como para médias e desvios padrão, existe uma letra Grega especial que utlizamos para o coeficiante de correlação populacional: $\rho$. Podemos considerar $r$ como sendo uma estimativa de $\rho$, exatamente como $\bar{x}$ é uma estimativa da média populacional $\mu$.
Abaixo estão exemplos de dados com seus coeficientes de correlação correspondentes.
\includegraphics[width=4.9in]{pics/cors.ps}


8.3 Interpretação do coeficiente de correlação

O valor de $r$ está sempre entre $-1$ e $+1$, com $r=0$ correspondendo à não associação.

\begin{displaymath}
\mbox{Valores de $r$}\left\{\mbox{\begin{tabular}{r} negativ...
...gin{tabular}{r} negativa \\ positiva \end{tabular}}
\right\}\;
\end{displaymath}


Usamos o termo correlação positiva quando $r > 0$, e nesse caso à medida que $x$ cresce também cresce $y$, e correlação negativa quando $r < 0$, e nesse caso à medida que $x$ cresce, $y$ decresce (em média).
Quanto maior o valor de $r$ (positivo ou negativo), mais forte a associação. No extremo, se $r=1$ ou $r=-1$ então todos os pontos no gráfico de dispersão caem exatamente numa linha reta. No outro extremo, se $r=0$ não existe nenhuma associação linear.
A seguinte quadro fornece um guia de como podemos descrever uma correlação em palavras dado o valor numérico. É claro que as interpretações dependem de cada contexto em particular.
\fbox{\begin{tabular}{cl}
Valor de $\rho$\ ($+$\ ou $-$) & \multicolumn{1}{c}{In...
...Uma correlação forte \\
0.90 a 1.00 & Uma correlação muito forte
\end{tabular}}
Note que correlações não dependem da escala de valores de $x$ ou $y$. (Por exemplo, obteríamos o mesmo valor se medíssemos altura e peso em metros e kilogramas ou em pés e libras.)

8.4 Linearidade e normalidade

Somente relações lineares são detectadas pelo coeficiente de correlação que acabamos de descrever (também chamado coeficiente de correlação de Pearson). Nos dados abaixo, mesmo existindo uma clara relação (não-linear) entre $x$ e $y$, o coeficiente de correlação é zero. Sempre faça o gráfico dos dados de modo que você possa visualizar tais relações.

\includegraphics[width=3.2in]{pics/quad.ps}
Em alguns casos pode ser apropriado transformar $x$ e/ou $y$.  
\includegraphics[width=5.3in]{pics/expenditure.ps}


8.5 Coeficiente de determinação, $R^2$

O quadrado do coeficiente de correlação de Pearson é chamado de coeficiente de determinação ou simplesmente R$^2$. É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra. É pouco comum que tenhamos uma correlação perfeita ($R^2=1$) na prática, porque existem muitos fatores que determinam as relações entre variáveis na vida real. No nosso exemplo da página 56, tivemos $r=-0.79$, de modo que $R^2 =
0.62$ ou 62%. Então cerca de 38% da variabilidade da inclinação da zona pós-praia abaixo da linha da maré baixa não pode ser descrito (ou explicado) pela variabilidade no diâmetro médio de sedimentos e vice-versa. Fica portanto claro que existem outros fatores que poderiam ser importantes, como por exemplo, profundidade da lâmina d'água, altura das ondas, ângulo de aproximação das ondas, etc.

8.6 Associação não é causalidade

Suponha que encontremos uma associação ou correlação entre duas variáveis A e B. Podem existir diversas explicações do porque elas variam conjuntamente, incluindo:
  • Mudanças em A causam mudanças em B.
  • Mudanças em B causam mudanças em A.
  • Mudanças em outras variáveis causam mudanças tanto em A quanto em B.
  • A relação observada é somente uma coincidência.
A terceira explicação é frequentemente a mais apropriada. Isto indica que existe algum processo de conecção atuando. Por exemplo, o número de pessoas usando óculos-de-sol e a quantidade de sorvete consumido num particular dia são altamente correlacionados. Isto não significa que usar óculos-de-sol causa a compra de sorvetes ou vice-versa!
É extremamente difícil estabelecer relações causais a partir de dados observacionais. Precisamos realizar experimentos para obter mais evidências de um relação causal.

8.7 Exercícios 7


  1. Um estudo geoquímico orientador realizado, utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 $mesh$ e profundidade de $40cm$, provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em $ppm$:
    \fbox{\begin{tabular}{rrrr}
Ni&Cr&Ni&Cr\\
5.2&16.8&4.5&15.5\\
5.0&20.0&5.4&13....
...8\\
7.0&18.2&4.0&12.8\\
8.0&13.0&4.4&12.2\\
4.0&15.0&15.9&13.0
\end{tabular}}

    1. Faça o gráfico destes dados com Ni no eixo $x$.
    2. Calcule o coeficiente de correlation $r$ pata estes dados e cheque se o valor obtido parece consistente com seu gráfico.
    3. Qual proporção da variabilidade na concentração de Cr pode ser explicada pela concentração de Ni?
  2. Prosseguindo o estudo da influência de processos praianos no condicionamento do ângulo de inclinação do fundo oceânico situado logo após a linha da maré baixa a estirâncio mediu-se a profundidade da lâmina d'água (em pés). Os dados coletados foram:
    \fbox{\begin{tabular}{l\vert rrrrrrrrr}
\par
ângulo de inclinação $y$\ & 0.68 &0...
...12.8&13.3 \\
&13.3&14.1&13.4&13.5&13.3&14.4&14.1&15.3&14.0
\par
\end{tabular}}

    1. Faça o gráfico desses dados com profundidade da lâmina d'água no eixo $x$.
    2. Calcule o coeficiente de correlação, $r$ e interprete o resultado obtido.
    3. Qual proporção da variabilidade em ângulo de inclinação pode ser explicada por profundidade da lâmina d'água?

Nenhum comentário:

Postar um comentário