segunda-feira, 7 de março de 2011

Estatística Descritiva

Estatística Descritiva - Presentation Transcript

Paulo Novis Rocha Nefrologista Professor Adjunto do Depto. Medicina FMB-UFBA Professor Colaborador do PPgCS Coordenador da Disciplina de Bioestatística  

SEMANA N o AULA DATA ASSUNTO PROFESSOR 7 1 13/04/09 Estatística Descritiva Introdução Variáveis Banco de dados Organização de dados, freqüências Medidas de tendência central e de posição Medidas de dispersão Apresentação de resultados ( Tabelas, Figuras) Paulo Rocha 8 2 20/04/09 Bases da Estatística Inferencial - I Distribuições de frequências Erro padrão Inferência sobre uma média ( Teste z) Teste de hipóteses: o valor- p Paulo Rocha 9 3 27/04/09 Bases da Estatística Inferencial – II Erro tipo I, tipo II, poder Intervalo de confiança Inferência sobre duas médias ( Testes z, t, t´)



Inferência sobre duas proporções ( X 2 , Fisher) Paulo Rocha 10 4 4/05/09 Técnicas de Amostragem e cálculo de tamanho amostral Paulo Rocha 11 5 11/05/09 ANOVA de uma via Neto 12 6 18/05/09 Outros testes não-paramétricos - Wilcoxon, Mann Whitney, Kruskal Wallis Neto 13 7 25/05/09 Correlação e regressão linear Neto 14 8 1/06/09 Análise de regressão logística – I Neto 15 9 8/06/09 Análise de regressão logística – II Neto 16 10 15/06/09 Análise de sobrevida Neto 17 11 22/06/09 Avaliação final Paulo Rocha Curso de Bioestatística Último dia de aulas 5-7-10 Provas finais 12 a 17-7-10

Bibliografia Sugerida Bioestatística sem segredos. Neto AMS. 1a Ed. Bahia, 2008. Bioestatística para profissionais de saúde. Guedes MLS, Guedes JS, Rio de Janeiro, Ao livro técnico, 1988. Intuitive Biostatistics. Motulsky HM. 1a Ed, Oxford University Press, New York, 1995 Fundamentals of Biostatistics. Hosner B. 5a Ed, Pacific Grove, Duxbury, 2000. Biostatistics: a foundation for analysis in the health sciences. Daniel WW. 7a Ed, New York: John Wiley, 1999 Nonparametric statistics for the behavioral sciences. Siegel S e Castellan Jr NJ. 2a Ed, New York, McGraw-Hill, 1988 Applied logistic regression. Hosmer DW e Lemeshow S, 2a Ed, New York, John Wiley, 2000





Pesquisa: Software Essencial Banco de dados SPSS, MS Excel, MS Access Análise estatística SPSS, MS Excel Figuras SPSS, MS Excel, MS Power Point, Adobe Photoshop Editor de texto MS Word: texto, tabelas Gerenciador de Referências Reference Manager , End Notes





Curso para “consumidores” de estatística. Objetivos: Entender artigos científicos Construir banco de dados e utilizar SPSS Dominar estatística descritiva Apresentar dados sob forma de gráficos, figuras, tabelas Compreender estatística inferencial Realizar análises mais simples Dialogar com estatísticos (sem ajuda de intérprete!)





Porque precisamos de estatística ? Variabilidade biológica e/ou falta de precisão experimental dificultam a distinção entre diferenças reais e aleatórias Tendência à generalização “ A 3-year-old girl recently told her buddy: You can’t become a doctor; only girls can become doctors” HM Motulsky. Intuitive Biostatistics. 1995





Podemos fazer pesquisa sem estatística (inferencial) ? Exemplo 1: Ciência básica Variabilidade biológica controlada (animais ou células geneticamente idênticos) Interesse em grandes diferenças Aforismas: “ If you need statistics to interpret your results, you have done the wrong experiment” “ If the data speak for themselves, don’t interrupt!”



“ Researchers use statistics like a drunkard uses a lamp post: more for support than illumination” Norman & Streiner. PDQ Statistics. 1986 HM Motulsky. Intuitive Biostatistics. 1995

Podemos fazer pesquisa sem estatística (inferencial) ? Exemplo 2: Pesquisa clínica Enorme variabilidade biológica Impossibilidade de controlar todas as variáveis relevantes Imprecisão de instrumentos de medida Interesse em efeitos pequenos (digamos, uma mudança de 20%)



Difícil separar o sinal (efeito esperado) do ruído (variabilidade biológica e imprecisão) HM Motulsky. Intuitive Biostatistics. 1995

Sobre a estatística CAPAZ DE FAZER INCAPAZ DE FAZER Conclusões gerais a partir de dados mais limitados AMOSTRA->POPULAÇÃO Controle de qualidade Pesquisas políticas Ensaios clínicos Controlar o erro aleatório Corrigir o erro sistemático Erros de amostragem Erros de medida





Etapas de um estudo do ponto de vista estatístico 1. Definir a população de interesse 2. Selecionar uma amostra da população 3. Coleta de dados 4. Estatística descritiva e analítica



5. Estatística inferencial Neto, AMS 2008. Bioestatística Sem Segredos A Estatística pode ser dividida em três partes: Estatística Descritiva Descreve Caracterização dos indivíduos estudados Estatística Analítica Analisa Investigação das relações entre as características estudadas Estatística Inferencial Infere Avaliação da possibilidade de generalização Neto, AMS 2008. Bioestatística Sem Segredos TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA DESCRITIVA Cálculo de freqüências simples, simples acumulada, relativa e relativa acumulada Cálculo de medidas de tendência central (moda, média aritmética, média ponderada, mediana) Cálculo de medidas de dispersão (amplitude, desvio médio, variância, desvio padrão, coeficiente de variação) Cálculo de medidas de posição (porcentis) Elaboração de tabelas univariáveis Elaboração de gráficos Avaliação da forma como as frequencias de uma variável se distribuem Neto, AMS 2008. Bioestatística Sem Segredos TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA ANALÍTICA Elaboração de diagramas considerando mais de uma variável (ex. diagramas de dispersão) Elaboração de tabelas de contingência bivariáveis ou multivariáveis Cálculo de medidas de associação entre variáveis (razão ou diferença entre prevalências, entre incidências ou risco relativo ou atribuível, entre chances, coeficientes de correlação, coeficientes de regressão) Análise estratificada Análise multivariável Neto, AMS 2008. Bioestatística Sem Segredos TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA INFERENCIAL Teste Z para uma ou duas médias Cálculo do índice capa (Teste Z) Teste t para uma ou duas médias Análise de regressão linear (Testes F ou Z) Teste t para amostras emparelhadas Teste exato de Fisher Teste Z para uma ou duas proporções Teste do sinal Teste X 2 para duas ou mais proporções Teste de Wilcoxon Teste X 2 de Mantel e Haenszel Teste da mediana Teste para uma variância Teste de Mann-Whitney Teste F para duas variâncias Teste de Kruskal-Wallis Análise de variância (Teste F) Teste de Friedman Análise de correlação intraclasse (Teste F) Análise de correlação de Spearman Análise de correlação de Pearson (Teste t) Teste de McNemar Cálculo do alfa de Cronbach (Teste F) Elaboração do diagrama de barra de erro Neto, AMS 2008. Bioestatística Sem Segredos TÉCNICAS ESTATÍSTICAS NÃO ABORDADAS Técnicas de análise exploratória de dados Análise de regressão de Weibull Cálculo de medidas de associação (RR, RC, etc...) Análise de regressão de Poisson Cálculo do índice de concordância capa Análise de regressão binomial negativa Cálculo do alfa de Cronbach Análise de regressão log-linear Teste qui-quadrado de Mantel e Haenszel Análise de regressão hierárquica Teste para uma variância Análise discriminante Análise de variância / An álise de correlação intra-classe Análise de variância multinomial (MANOVA) Teste do sinal Análise de correlação de Kendall Teste de Wilcoxon Análise de contingência Teste da mediana Análise de correlação canônica Teste de Mann-Whitney Análise de correlação parcial múltipla Teste de Kruskal-Wallis Análise de escala multidimensional Teste de Friedman Análise de componentes principais Teste de McNemar Análise de fator Análise de correlação de Spearman Análise de correspondência Análise de correlação de Pearson Análise de homogeneidade Análise de regressão linear Análise de agrupamento (“cluster analysis”) Análise de regressão logística Análise por redes neurais artificiais Análise de regressão de Cox Variáveis: Características que variam entre os indivíduos estudados

CLASSIFICAÇÃO DE VARIÁVEIS Quanto à natureza Quanto à continuidade entre seus possíveis valores Quanto ao número de categorias Quanto ao seu grau de expressão quantitativa Quanto à posição no quadro de hipóteses





CLASSIFICAÇÃO DE VARIÁVEIS I. Quanto à natureza: Qualitativa (ou categórica): raça, sexo Quantitativa: peso, altura, idade, glicemia





CLASSIFICAÇÃO DE VARIÁVEIS II. Quanto à continuidade: Discreta: raça, sexo, estado civil, n ° filhos Contínua: peso, altura, idade, glicemia





CLASSIFICAÇÃO DE VARIÁVEIS III. Quanto ao número de categorias: Dicotômica Ex: sexo, hábito de fumar (respostas sim / não) Policotômica Ex: grau de instrução, raça, religião, estado civil, inserção no processo produtivo



Podem ser dicotomizadas para análise Neto, AMS 2008. Bioestatística Sem Segredos

CLASSIFICAÇÃO DE VARIÁVEIS IV. Quanto ao grau de expressão quantitativa: Nominal: não há critérios para ordenamento Ex: sexo, raça, CEP Ordinal: é possível ordenar, mas não há intervalos regulares Ex: grau de instrução Intervalar: é possível ordenar, há intervalos regulares, valor ZERO não indica ausência do fenômeno Ex: temperatura. Outros exemplos são raros. De razão: é possível ordenar, há intervalos regulares, valor ZERO indica ausência do fenômeno



Ex: idade, peso, altura, número de filhos ou gestações Neto, AMS 2008. Bioestatística Sem Segredos Misturando as classificações... NATUREZA CONTINUIDADE CATEGORIAS ESCALA Quantitativa Contínua Discreta Intervalar De razão Qualitativa (categórica) Discreta Dicotômica Policotômica Nominal Ordinal CLASSIFICAÇÃO DE VARIÁVEIS V. Quanto à posição no quadro de hipóteses: Variável independente principal Variável independente secundária Variável dependente associação principal Variável interveniente Neto, AMS 2008. Bioestatística Sem Segredos Neto, AMS 2008. Bioestatística Sem Segredos CLASSIFICAÇÃO DAS VARIÁVEIS QUANTO À POSIÇÃO NO QUADRO DE HIPÓTESES Dependente Supõe-se que sua ocorrência depende da influência das variáveis independentes Independente Principal Variável de interesse do estudo Secundárias Podem influenciar a associação principal Interveniente Encontra-se no caminho causal entre a variável independente principal e a variável dependente do estudo

CLASSIFICAÇÃO DE VARIÁVEIS VI. Quanto à fixação prévia das frequências: Fixa Igual número de casos e controles Presença ou ausência da doença (variável dependente) seria FIXA Aleatória



Hábito de fumar (variável independente) seria ALEATÓRIA Neto, AMS 2008. Bioestatística Sem Segredos

CLASSIFICAÇÃO DE VARIÁVEIS VII. Quanto à individualização da informação: Individualizada Ex: sexo (M ou F), hábito de fumar (S ou N) Agregada Ex: sexo (%M, %F), hábito de fumar (%S, %N) Ambiental Ex: nível de poluição do ar, de radioatividade Global



Ex: Grau de industrialização, densidade populacional Neto, AMS 2008. Bioestatística Sem Segredos Descrever para compreender. Acute Renal Failure after Lung Transplantation: Incidence, Predictors and Impact on Perioperative Morbidity and Mortality. Rocha et al. American Journal of Transplantation 2005; 5: 1469–1476

Tipos de dados estatísticos: Frequências Medidas de tendência central, medidas de posição, medidas de dispersão Apresentação de resultados



Texto, quadros, tabelas, gráficos TIPOS DE DADOS ESTATÍSTICOS Contagens Medições

Contagens Sexo, raça, etc... Codificação para banco de dados: Branco = 1 Negro = 2 Mulato = 3 Asiático = 4 Recodificação Branco = 1 Não-branco = 2 Medições Glicemia, TA, colesterol, etc... Transformação de medições em contagens:



Categorização de variáveis contínuas Neto, AMS 2008. Bioestatística Sem Segredos Banco de dados contendo 75 pacientes: variável idade Banco de dados contendo 75 pacientes: variável idade Neto, AMS 2008. Bioestatística Sem Segredos TIPOS DE FREQUENCIAS Simples Simples acumulada Relativa Relativa acumulada Idade Frequência simples Frequência simples acumulada Frequência relativa (%) Frequência relativa acumulada (%) 25 1 1 4,0 4,0 31 1 2 4,0 8,0 32 2 4 8,0 16,0 34 3 7 12,0 28,0 36 2 9 8,0 36,0 38 2 11 8,0 44,0 39 1 12 4,0 48,0 40 3 15 12,0 60,0 41 4 19 16,0 76,0 45 1 20 4,0 80,0 46 2 22 8,0 88,0 47 1 23 4,0 92,0 51 1 24 4,0 96,0 52 1 25 4,0 100,0 Histograma contendo a distribuição de frequências de idades dos 75 pacientes do banco Neto, AMS 2008. Bioestatística Sem Segredos Objetivo: resumir os dados de variáveis contínuas, apresentar resultados de forma compreensível MEDIDAS DE TENDÊNCIA CENTRAL Moda Média Mediana

Moda Valor mais frequente Bimodal, trimodal, etc.. Média Aritmética Ponderada Geométrica – média aritmética de variáveis expressas em escala logarítmica Harmônica – pós-teste de ANOVA Mediana Número impar de observações: posição central Número par de observações: média aritmética dos dois valores centrais Posição: (n+1) / 2





VANTAGENS Simplicidade de cálculo Não é afetada por valores extremos Pode resumir variável nominal DESVANTAGENS



Pode não ser única População: (parâmetro) Amostra: (estatística) População: (parâmetro) Amostra: (estatística)

VANTAGENS Simplicidade de cálculo Singularidade Muitas técnicas disponíveis para seu uso DESVANTAGENS Muito influenciada por valores extremos Não pode resumir variável nominal





Para o cálculo da mediana: Ordenar os valores em ordem crescente e encontrar o valor central (P 50 ) quando n é ímpar Quando n é par: média aritmética dos valores centrais





VANTAGENS Simplicidade de cálculo Singularidade Não é influenciada por valores extremos DESVANTAGENS Menos técnicas disponíveis para seu uso



Não pode resumir variável nominal * Não esquecer de checar a veracidade de valores extremos Dica: além das medidas de tendência central, checar máx. e mín. QUANDO UTILIZAR MODA, MÉDIA, MEDIANA MODA Série é unimodal MÉDIA Variável é contínua Série não contém valores extremos MEDIANA Variável é discreta e n é ímpar Série contém valores extremos* MEDIDAS DE POSIÇÃO Média Mediana Porcentil

Separa os valores de uma série de observações em duas ou mais partes, delimitando um certo porcentual de valores abaixo, acima ou entre eles. Ex: quartis Q1, P25 Q2, P50 (= mediana) Q3, P75 Aplicações: pediatria (peso, altura), academia (notas), categorização de variáveis contínuas (criação de intervalos de classe ou pontos de corte), amplitude interquartil, inferência estatística (P95, P 97,5)





Criação de intervalos de classe Qual o número ideal de intervalos de classe ? Depende... Dados da literatura: ex: DRC Fórmula de Sturges: k = 1 + 3,222 x log n k = número de intervalos de classe



n = tamanho da amostra   Cálculo do Primeiro Quartil (Q1) Desorganizado Ordem Crescente MEDIDAS DE DISPERSÃO Amplitude Amplitude interquartil Desvio médio Variância Desvio-padrão Coeficiente de variação   Número da criança na pesquisa Valores de altura (metros) 1 1,14 2 0,86 3 1,24 4 1,17 5 0,94 Número da criança na pesquisa Valores de altura (metros) 2 0,86 5 0,94 1 1,14 4 1,17 3 1,24

VANTAGENS Simplicidade DESVANTAGENS Considera apenas mínimo e máximo Menos técnicas estatísticas que a utilizam



Influenciada por valores extremos * Deve ser usada como medida complementar

Utilização de porcentis para cálculo de uma medida de dispersão Distância entre o primeiro e o terceiro quartis



AIQ = Q3 – Q1   Número da criança na pesquisa Valores de altura (metros) Média de altura Desvio em relação à média Soma dos desvios 1 1,14 1,07 + 0,07 0,00 2 0,86 - 0,21 3 1,24 + 0,17 4 1,17 + 0,10 5 0,94 - 0,13

VANTAGENS Leva em conta todos os valores da série Ao somar os módulos dos desvios, expressa o total de variabilidade em torno da média DESVANTAGENS Cálculo menos simples que a amplitude Os desvios maiores não influenciam bem mais seu resultado do que os menores Menos técnicas estatísticas que o utilizam (comparado ao DP)



Influenciado por valores extremos População: (parâmetro) Amostra: (estatística) Porque o denominador é 4 (n-1) e não 5? Número da criança na pesquisa Valores de altura (metros) Média de altura Desvio em relação à média Soma dos desvios 1 1,14 1,07 + 0,07 0,00 2 0,86 - 0,21 3 1,24 + 0,17 4 1,17 + 0,10 5 0,94 - 0,13 Graus de liberdade Ao calcular a média, perdemos 1 grau de liberdade Número da criança na pesquisa Valores de altura (metros) 1 1,14 2 0,86 3 1,24 4 1,17 5 0,94

Graus de liberdade: Cálculo Graus de liberdade = n – r n = número de observações (em nosso exemplo, quantidade de números a serem selecionados, ou seja, n = 2)



r = número de condições a serem atendidas por esses números População: (parâmetro) Amostra: (estatística) Número da criança na pesquisa Valores de altura (metros) Média de altura Desvio em relação à média Soma dos desvios 1 1,14 1,07 + 0,07 0,00 2 0,86 - 0,21 3 1,24 + 0,17 4 1,17 + 0,10 5 0,94 - 0,13

VANTAGENS Levam em conta todos os valores da série Ao somar os quadrados dos desvios, expressam o total de variabilidade em torno da média Os desvios maiores influenciam bem mais seu resultado do que os menores Muitas técnicas estatísticas os utilizam DESVANTAGENS Cálculos menos simples que a amplitude Influenciados por valores extremos Variância é expressa em escala quadrática, à qual estamos menos acostumados





Permite comparar variações em dimensões diferentes (ex. peso, altura) Permite comparar variações em trechos distintos da escala de variação de uma variável



Precisão de testes diagnósticos Número da criança na pesquisa Valores de altura (metros) Valores de peso (kg) 1 1,14 20,70 2 0,86 15,40 3 1,24 21,40 4 1,17 21,10 5 0,94 17,45 Média 1,07 19,21 Desvio-padrão 0,17 2,66 Coeficiente de variação 15,89% 13,85%

Embora as medidas de dispersão consigam captar o desvio em torno do centro, não conseguem perceber o formato deste desvio. Se o desvio for igual para os dois lados da distribuição, diz-se que a distribuição é simétrica. As distribuições também podem ser mais alongadas ou mais achatadas. Assimetria: deve ser entre -1 a +1 Curtose: deve ser próxima de zero





Comparando-se a média com a mediana. Pelo valor da medida de assimetria (skewness). Se o valor for negativo, a distribuição está desviada para a esquerda. Se o valor for positivo, está desviada para a direita. Uma distribuição razoavelmente simétrica tem coeficiente de assimetria variando entre –1 e +1. Visualmente no gráfico (histograma ou box plot, onde se verifica a presença de valores extremos “outliers”) e se pode verificar o formato da distribuição, identificando-se assimetria ou curtose. Por um teste que avalie a normalidade da distribuição (Kolmogorov-Smirnov ou Shapiro Wilk). Quando, nestes testes, o valor de p < 0.05 a distribuição não é normal.





Classificação de variáveis Estatística descritiva Medidas de tendência central Moda, Média, Mediana Medidas de posição Média, mediana, porcentis Medidas de dispersão Amplitude, Desvio-médio, Variância, DP, CV Medidas de Forma Assimetria e Curtose

Nenhum comentário:

Postar um comentário