8.1 Relações entre variáveis
Em diversas investigações deseja-se avaliar a relação entre duas medidas quantitativas. Por exemplo, estão as alturas de filhos relacionadas com as alturas dos seus pais? Processos praianos condicionam a inclinação da zona pós-praia abaixo da linha da maré baixa? Ou seja, o ângulo de inclinação do fundo oceânico situado logo após a linha da maré baixa a estirâncio está relacionado com o diâmetro médio (em ) do sedimento do fundo oceânico?- para verificar se os valores sestão associados. (Os valores de uma medida tendem a crescer (ou decrescer) à medida que a outra cresce?)
- para predizer o valor de uma variável a partir de um valor conhecido da outra.
- para descrever a relação entre variáveis. (Dado um aumento específico numa variável, qual o crescimento médio esperado para a segunda variável?)
A associação linear entre duas variáveis é avaliada usando correlação. Para predizer o valor de uma variável contínua a partir de uma outra variável e para descrever a relação entre duas variáveis utiliza-se regressão (veja o próximo capítulo).
O primeiro estágio em qualquer um dos casos é produzir um gráfico de pontos dos dados para obter alguma idéia da forma e grau de associação entre duas variáveis.
8.2 Definições
Seja o conjunto das medidas de uma das variáveis (período das ondas), e seja as medidas da outra variável (diâmetro médio de sedimentos). Seja , , e as médias e desvios padrão amostrais dos dois conjuntos de dados.Para obter uma medida do grau de associação da relação linear entre duas variáveis, usamos o coeficiente de correlação, definido como:
onde
Para os dados do exemplo acima, temos , , , , , a partir dos quais podemos calcular que .
Assim como para médias e desvios padrão, existe uma letra Grega especial que utlizamos para o coeficiante de correlação populacional: . Podemos considerar como sendo uma estimativa de , exatamente como é uma estimativa da média populacional .
Abaixo estão exemplos de dados com seus coeficientes de correlação correspondentes.
8.3 Interpretação do coeficiente de correlação
O valor de está sempre entre e , com correspondendo à não associação.Usamos o termo correlação positiva quando , e nesse caso à medida que cresce também cresce , e correlação negativa quando , e nesse caso à medida que cresce, decresce (em média).
Quanto maior o valor de (positivo ou negativo), mais forte a associação. No extremo, se ou então todos os pontos no gráfico de dispersão caem exatamente numa linha reta. No outro extremo, se não existe nenhuma associação linear.
A seguinte quadro fornece um guia de como podemos descrever uma correlação em palavras dado o valor numérico. É claro que as interpretações dependem de cada contexto em particular.
8.4 Linearidade e normalidade
Somente relações lineares são detectadas pelo coeficiente de correlação que acabamos de descrever (também chamado coeficiente de correlação de Pearson). Nos dados abaixo, mesmo existindo uma clara relação (não-linear) entre e , o coeficiente de correlação é zero. Sempre faça o gráfico dos dados de modo que você possa visualizar tais relações.8.5 Coeficiente de determinação,
O quadrado do coeficiente de correlação de Pearson é chamado de coeficiente de determinação ou simplesmente R. É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra. É pouco comum que tenhamos uma correlação perfeita () na prática, porque existem muitos fatores que determinam as relações entre variáveis na vida real. No nosso exemplo da página 56, tivemos , de modo que ou 62%. Então cerca de 38% da variabilidade da inclinação da zona pós-praia abaixo da linha da maré baixa não pode ser descrito (ou explicado) pela variabilidade no diâmetro médio de sedimentos e vice-versa. Fica portanto claro que existem outros fatores que poderiam ser importantes, como por exemplo, profundidade da lâmina d'água, altura das ondas, ângulo de aproximação das ondas, etc.8.6 Associação não é causalidade
Suponha que encontremos uma associação ou correlação entre duas variáveis A e B. Podem existir diversas explicações do porque elas variam conjuntamente, incluindo:- Mudanças em A causam mudanças em B.
- Mudanças em B causam mudanças em A.
- Mudanças em outras variáveis causam mudanças tanto em A quanto em B.
- A relação observada é somente uma coincidência.
É extremamente difícil estabelecer relações causais a partir de dados observacionais. Precisamos realizar experimentos para obter mais evidências de um relação causal.
8.7 Exercícios 7
- Um estudo geoquímico orientador realizado, utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 e profundidade de , provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em :
- Faça o gráfico destes dados com Ni no eixo .
- Calcule o coeficiente de correlation pata estes dados e cheque se o valor obtido parece consistente com seu gráfico.
- Qual proporção da variabilidade na concentração de Cr pode ser explicada pela concentração de Ni?
- Prosseguindo o estudo da influência de processos praianos no condicionamento do ângulo de inclinação do fundo oceânico situado logo após a linha da maré baixa a estirâncio mediu-se a profundidade da lâmina d'água (em pés). Os dados coletados foram:
- Faça o gráfico desses dados com profundidade da lâmina d'água no eixo .
- Calcule o coeficiente de correlação, e interprete o resultado obtido.
- Qual proporção da variabilidade em ângulo de inclinação pode ser explicada por profundidade da lâmina d'água?
Nenhum comentário:
Postar um comentário