Artigos

5.2: Fatos sobre a distribuição qui-quadrado - matemática


A notação para a distribuição qui-quadrado é:

[ chi sim chi ^ {2} _ {df} ]

onde (df = ) graus de liberdade que depende de como o qui-quadrado está sendo usado. (Se você quiser praticar o cálculo de probabilidades qui-quadrado, use (df = n - 1 ). Os graus de liberdade para os três principais usos são calculados de forma diferente.)

Para a distribuição ( chi ^ {2} ), a média da população é ( mu = df ) e o desvio padrão da população é

[ sigma = sqrt {2 (df)}. ]

A variável aleatória é mostrada como ( chi ^ {2} ), mas pode ser qualquer letra maiúscula. A variável aleatória para uma distribuição qui-quadrado com (k ) graus de liberdade é a soma de (k ) variáveis ​​normais padrão quadradas independentes.

[ chi ^ {2} = (Z_ {1}) ^ {2} + ... + (Z_ {k}) ^ {2} ]

  1. A curva é não simétrica e inclinada para a direita.
  2. Há uma curva qui-quadrada diferente para cada (df ).
Figura ( PageIndex {1} )
  1. A estatística de teste para qualquer teste é sempre maior ou igual a zero.
  2. Quando (df> 90 ), a curva qui-quadrado se aproxima da distribuição normal. Para ( chi sim chi ^ {2} _ {1.000} ) a média, ( mu = df = 1.000 ) e o desvio padrão, ( mu = sqrt {2 (1.000)} ). Portanto, (X sim N (1.000, 44,7) ), aproximadamente.
  3. A média, ( mu ), está localizada logo à direita do pico.
Figura ( PageIndex {2} )

Referências

  1. Dados de Revista Parade.
  2. “HIV / AIDS Epidemiology Santa Clara County.” Santa Clara County Public Health Department, maio de 2011.

Análise

A distribuição do qui-quadrado é uma ferramenta útil para avaliar uma série de categorias de problemas. Essas categorias de problemas incluem principalmente (i) se um conjunto de dados se ajusta a uma distribuição particular, (ii) se as distribuições de duas populações são as mesmas, (iii) se dois eventos podem ser independentes e (iv) se há uma variabilidade diferente do que o esperado dentro de uma população.

Um parâmetro importante em uma distribuição qui-quadrado são os graus de liberdade (df ) em um determinado problema. A variável aleatória na distribuição qui-quadrado é a soma dos quadrados de df variáveis ​​normais padrão, que devem ser independentes. As principais características da distribuição qui-quadrado também dependem diretamente dos graus de liberdade.

A curva de distribuição do qui-quadrado é inclinada para a direita e sua forma depende dos graus de liberdade (df ). Para (df> 90 ), a curva se aproxima da distribuição normal. As estatísticas de teste baseadas na distribuição do qui-quadrado são sempre maiores ou iguais a zero. Esses testes de aplicativos quase sempre são testes diretos.

Revisão de fórmula

[ chi ^ {2} = (Z_ {1}) ^ {2} + (Z_ {2}) ^ {2} + ... + (Z_ {df}) ^ {2} ] qui-quadrado variável aleatória de distribuição

( mu _ { chi ^ {2}} = df ) distribuição qui-quadrado média da população

( sigma _ { chi ^ {2}} = sqrt {2 (df)} ) Desvio padrão da população de distribuição qui-quadrado

Exercício ( PageIndex {1} )

Se o número de graus de liberdade para uma distribuição qui-quadrado for 25, qual será a média e o desvio padrão da população?

Responder

média (= 25 ) e desvio padrão (= 7,0711 )

Exercício ( PageIndex {2} )

Se (df> 90 ), a distribuição é _____________. Se (df = 15 ), a distribuição é ________________.

Exercício ( PageIndex {3} )

Quando a curva qui-quadrado se aproxima de uma distribuição normal?

Responder

quando o número de graus de liberdade é maior que 90

Exercício ( PageIndex {4} )

Onde ( mu ) está localizado em uma curva qui-quadrado?

Exercício ( PageIndex {5} )

É mais provável que df é 90, 20 ou dois no gráfico?

Figura ( PageIndex {3} ).

Responder

(df = 2 )


Leitura recomendada

  • Manual de funções matemáticas de Milton Abramowitz e Irene Stegun
  • Receitas numéricas em C por William H. Press, Flannery, Teukolsky e Vetterling
  • Esboço fácil de probabilidade e estatística de Schaum, por John Schiller, A. Srinivasan e Murray Spiegel

Divulgação de afiliados: recebemos uma pequena comissão pelas compras feitas por meio dos links acima

O valor p é a área sob a curva da função de densidade de probabilidade qui-quadrado (pdf) à direita do valor & chi 2 especificado. No Excel: p = CHIDIST (& chi 2, & nu).

Consulte as fórmulas Qui-quadrado para obter mais detalhes da matemática.


Simulação

11.3.3 A Distribuição Qui-Quadrado

A distribuição qui-quadrada com n graus de liberdade é a distribuição de χ n 2 = Z 1 2 + ⋯ + Z n 2 onde Z i, i = 1,…, n são normais padrão independentes. Usando o fato observado na observação no final da Seção 3.1, vemos que Z 1 2 + Z 2 2 tem uma distribuição exponencial com taxa 1 2. Portanto, quando n é par - digamos, n = 2 k - χ 2 k 2 tem uma distribuição gama com parâmetros (k, 1 2). Portanto, - 2 log ⁡ (∏ i = 1 k U i) tem uma distribuição qui-quadrada com 2k graus de liberdade. Podemos simular uma variável aleatória qui-quadrada com 2 k + 1 graus de liberdade, primeiro simulando uma variável aleatória normal padrão Z e, em seguida, adicionando Z 2 ao anterior. Isso é,

onde Z, U 1, ..., U n são independentes com Z sendo um normal padrão e os outros sendo variáveis ​​aleatórias uniformes (0, 1).


Distribuições de amostragem

Exercícios 4.2

Deixar Y têm uma distribuição qui-quadrado com 15 graus de liberdade. Encontre as seguintes probabilidades. (uma)

Deixar Y têm uma distribuição qui-quadrado com 7 graus de liberdade. Encontre as seguintes probabilidades. (uma)

A hora do fracasso T de um forno de microondas tem uma distribuição exponencial com pdf:

Se três desses fornos de microondas são escolhidos e t ¯ é a média de seus tempos de falha, encontre o seguinte: (a)

Deixar X1, X2, …, X10 ser uma amostra aleatória de uma distribuição normal padrão. Encontre os números uma e b de tal modo que:

Deixar X1, X2, …, X5 ser uma amostra aleatória da distribuição normal com média 55 e variância 223. Let

Encontre a distribuição das variáveis ​​aleatórias Y e Z.

Deixar X e Y ser variáveis ​​aleatórias qui-quadrado independentes com 14 e 5 graus de liberdade, respectivamente. Encontre um)

Um tipo específico de pacote de café embalado a vácuo contém em média 16 onças. Observou-se que o número de onças de café nesses pacotes é normalmente distribuído com σ = 1,41 onças. Uma amostra aleatória de 15 desses pacotes de café é selecionada, e as observações são usadas para calcular s. Encontre os números uma e b de tal modo que P(umaS 2b) = 0.90.

Uma empresa ótica compra placas de vidro para serem transformadas em lentes e sabe-se que a variação do índice de refração das placas de vidro não deve ser superior a 1,04 × 10 -3. A empresa rejeita uma remessa de placas de vidro se a variação da amostra de 16 peças selecionadas aleatoriamente exceder 1,15 × 10 -3. Assumindo que os valores da amostra podem ser vistos como uma amostra aleatória de uma população normal, qual é a probabilidade de que uma remessa seja rejeitada, mesmo que σ 2 = 1.04 × 10 −3 ?

Assuma isso T tem um t distribuição com 8 graus de liberdade. Encontre as seguintes probabilidades. (uma)

Assuma isso T tem um t distribuição com 15 graus de liberdade. Encontre as seguintes probabilidades. (uma)

Um psicólogo afirma que a idade média em que as crianças do sexo feminino começam a andar é de 11,4 meses. Se 20 crianças do sexo feminino selecionadas aleatoriamente começarem a andar com uma idade média de 12 meses, com desvio padrão de 2 meses, você concorda com a afirmação do psicólogo? Suponha que a amostra veio de uma população normal.

Deixar você1 e você2 ser variáveis ​​aleatórias independentes. Suponha que você1 é χ 2 com v1 graus de liberdade enquanto você = você1 + você2 é qui-quadrado com v graus de liberdade, onde v & gt v1. Então prove isso você2 é uma variável aleatória qui-quadrado com vv1 graus de liberdade.

Deixar X1,…, Xn ser uma amostra aleatória com Xeu ∼ χ 2 (1), para eu = 1, …, n. Mostre que a distribuição de

Deixar X1, X2,…, Xn ser uma amostra aleatória de uma distribuição exponencial com parâmetro θ. Mostre que a variável aleatória 2 θ - 1 (∑ i = 1 n X i) ∼ χ 2 (2 n).

Deixar X e Y ser variáveis ​​aleatórias independentes de uma distribuição exponencial com parâmetro comum θ = 1. Mostre que X / Y tem um F distribuição. Qual é o número de graus de liberdade?

Prove que se X tem um t distribuição com n graus de liberdade, então X 2 ∼ F (1, n).

Deixar X ser F distribuído com 9 graus de liberdade do numerador e 12 do denominador. Encontre um)

Encontre a média e a variância de F(n1, n2) variável aleatória.

Seja X 11, X 12,…, X 1 n 1 uma amostra aleatória com média de amostra X ¯ 1 de uma população normal com média μ1 e variância σ 1 2, e seja X 21, X 22, ..., X 2 n 2 uma amostra aleatória com média de amostra X ¯ 2 de uma população normal com média μ2 e variância σ 2 2. Suponha que as duas amostras sejam independentes. Mostre que a distribuição de amostragem de (X ¯ 1 - X ¯ 2) é normal com média μ1μ2 e variância σ 1 2 / n 1 + σ 2 2 / n 2.

Deixar X1, X2, …, Xn1 ser uma amostra aleatória de uma população normal com média μ1 e variância σ 2, e Y1, Y2, …, Yn2 ser uma amostra aleatória de uma população normal independente com média μ2 e variância σ 2 Mostra isso

Mostre que um t a distribuição tende a uma distribuição normal padrão enquanto os graus de liberdade tendem ao infinito.

Mostre que o mgf de um χ 2 variáveis ​​aleatórias com n graus de liberdade é M(t)=(1 – 2t) –n/ 2. Usando o mgf, mostre que a média e a variância de uma distribuição qui-quadrado são n e 2n, respectivamente.

Deixe as variáveis ​​aleatórias X1, X2,…, X10 ser normalmente distribuído com média 8 e variância 4. Encontre um número tal que


A Fórmula do Qui-Quadrado é

Existem dois tipos principais de testes de qui-quadrado: o teste de independência, que faz uma questão de relacionamento, como: "Existe uma relação entre o sexo do aluno e a escolha do curso?" e o teste de adequação, que pergunta algo como "Quão bem a moeda em minha mão combina com uma moeda teoricamente justa?"

Independência

Ao considerar o sexo do aluno e a escolha do curso, um χ 2 teste de independência pode ser usado. Para fazer este teste, o pesquisador iria coletar dados sobre as duas variáveis ​​escolhidas (sexo e cursos escolhidos) e, em seguida, comparar as frequências em que os alunos do sexo masculino e feminino selecionam entre as aulas oferecidas usando a fórmula fornecida acima e um χ 2 tabela estatística.

Se não houver relação entre sexo e seleção de curso (ou seja, se eles forem independentes), então as frequências reais em que os alunos do sexo masculino e feminino selecionam cada curso oferecido devem ser aproximadamente iguais, ou inversamente, a proporção de alunos do sexo masculino e feminino alunos do sexo feminino em qualquer curso selecionado devem ser aproximadamente iguais à proporção de alunos do sexo masculino e feminino na amostra. UMA χ O teste de independência pode nos dizer quão provável é que o acaso aleatório possa explicar qualquer diferença observada entre as frequências reais nos dados e essas expectativas teóricas.

Qualidade de ajuste

χ 2 fornece uma maneira de testar o quão bem uma amostra de dados corresponde às características (conhecidas ou presumidas) da população maior que a amostra pretende representar. Se os dados da amostra não se ajustarem às propriedades esperadas da população em que estamos interessados, não gostaríamos de usar essa amostra para tirar conclusões sobre a população maior.

Por exemplo, considere uma moeda imaginária com exatamente 50/50 de chance de dar cara ou coroa e uma moeda real que você joga 100 vezes. Se esta moeda real tiver um é justo, então também terá uma probabilidade igual de cair em ambos os lados, e o resultado esperado de jogar a moeda 100 vezes é que cara sairá 50 vezes e coroa 50 vezes. Nesse caso, χ 2 pode nos dizer quão bem os resultados reais de 100 lançamentos de moeda se comparam ao modelo teórico de que uma moeda justa dará resultados 50/50. O lance real pode ser 50/50, 60/40 ou mesmo 90/10. Quanto mais longe os resultados reais dos 100 lançamentos estiverem de 50/50, menos bom será o ajuste desse conjunto de lançamentos à expectativa teórica de 50/50 e mais provavelmente poderemos concluir que esta moeda não é realmente justa moeda.


5.2: Fatos sobre a distribuição qui-quadrado - matemática

A distribuição qui-quadrada permite testes estatísticos de dados categóricos. Entre esses testes estão os de adequação e independência.

12.1 A distribuição qui-quadrado

Então c 2 tem a distribuição qui-quadrada com n graus de liberdade.

A forma da distribuição depende dos graus de liberdade. Esses diagramas (figuras 48 e 49) ilustram 100 amostras aleatórias para 5 d.f. e 50 d.f.

Observe que, para um pequeno número de graus de liberdade, ele é muito enviesado. No entanto, à medida que o número aumenta, a distribuição começa a parecer normal. (Você consegue adivinhar a média e o desvio padrão?)

12.2 Testes de qualidade de ajuste do qui-quadrado

Um teste de qualidade de ajuste verifica se os dados vieram de alguma população especificada. O teste de qualidade de ajuste qui-quadrado permite testar se os dados categóricos correspondem a um modelo em que os dados são escolhidos nas categorias de acordo com algum conjunto especificado de probabilidades. Para rolar os dados, as 6 categorias (faces) seriam consideradas igualmente prováveis. Para uma distribuição de cartas, a suposição seria que algumas categorias são mais prováveis ​​do que outras.

Claro, você suspeita que se o dado for justo, a probabilidade de cada face deve ser a mesma ou 1/6. Em 150 jogadas, você esperaria que cada face tivesse cerca de 25 aparições. Ainda assim, o 6 aparece 36 vezes. Isso é coincidência ou talvez outra coisa?

A chave para responder a essa pergunta é verificar o quão distantes os dados estão do esperado. Se chamarmos f i a frequência da categoria i, e i a contagem esperada da categoria i, então a estatística c 2 é definida como sendo

Intuitivamente, isso é grande se houver uma grande discrepância entre as frequências reais e as frequências esperadas, e pequeno se não houver.
A inferência estatística é baseada na suposição de que nenhuma das contagens esperadas é menor que 1 e a maioria (80%) é maior que 5. Além disso, os dados devem ser independentes e distribuídos de forma idêntica - isto é, multinomial com alguma distribuição de probabilidade especificada.
Se essas suposições forem satisfeitas, então a estatística c 2 é aproximadamente c 2 distribuída com n -1 graus de liberdade. A hipótese nula é que as probabilidades são as especificadas, contra a alternativa de algumas não.

Observe que, para nossos dados, todas as categorias têm entradas suficientes e a suposição de que as entradas individuais são multinomiais decorre de os lançamentos de dados serem independentes.

R tem um teste embutido para este tipo de problema. Para usá-lo, precisamos especificar as frequências reais, as probabilidades assumidas e a linguagem necessária para obter o resultado que queremos. Neste caso - qualidade de ajuste - o uso é muito simples O teste de hipótese formal assume que a hipótese nula é que cada categoria i tem probabilidade pi (em nosso exemplo cada pi = 1/6) contra a alternativa de pelo menos uma categoria não tem essa probabilidade especificada.

Como vemos, o valor de c 2 é 6,72 e os graus de liberdade são 6-1 = 5. O valor p calculado é 0,2423, portanto, não temos razão para rejeitar a hipótese de que o dado é justo.

Faça um teste de hipótese de bondade de ajuste qui-quadrado para ver se as proporções das letras para este texto são p E = .29, p T = .21, p N = .17, p R = .17, p O = .16 ou são diferentes.

A solução é apenas um pouco mais difícil, pois as probabilidades precisam ser especificadas. Como as suposições do teste qui-quadrado exigem independência de cada letra, isso não é muito apropriado, mas supondo que sim. Isso indica que é improvável que este texto seja escrito em inglês.

Algumas percepções extras: por que o c s?
O que faz a estatística ter a distribuição c 2? Se assumirmos que f i - e i = Z i
( e eu )
1/2
. Ou seja, o erro é um tanto proporcional à raiz quadrada do número esperado, então, se Z i são normais com média 0 e variância 1, então a estatística é exatamente c 2. Para a distribuição multinomial, é necessário verificar que assintoticamente, as diferenças em relação às contagens esperadas são aproximadamente deste tamanho.

12.3 Testes de qui-quadrado de independência

A mesma estatística também pode ser usada para estudar se duas linhas em uma tabela de contingência são `` independentes ''. Ou seja, a hipótese nula é que as linhas são independentes e a hipótese alternativa é que não são independentes.

Por exemplo, suponha que você encontre os seguintes dados sobre a gravidade de um acidente tabulados para os casos em que o passageiro tinha ou não o cinto de segurança:

que é estimado pela proporção de `` nenhum '' (a soma da coluna dividida por n) e a proporção de `` sim: (a soma da linha dividida por n). A frequência esperada para esta célula é então este produto vezes n. Ou depois de simplificar, a soma das linhas vezes a soma das colunas dividida por n. Precisamos fazer isso para cada entrada. Melhor deixar o computador fazer isso. Aqui é bastante simples. Isso testa a hipótese nula de que as duas linhas são independentes em relação à alternativa de que não são. Neste exemplo, o valor p extremamente pequeno nos leva a acreditar que as duas linhas não são independentes (rejeitamos).

Observe, precisamos fazer um quadro de dados dos dois valores. Alternativamente, pode-se simplesmente combinar os dois vetores como linhas usando rbind.

12.4 Testes de qui-quadrado para homogeneidade

O teste de independência verifica se as linhas são independentes, um teste de homogeneidade, testa se as linhas vêm da mesma distribuição ou parecem vir de distribuições diferentes. Intuitivamente, as proporções em cada categoria devem ser aproximadamente as mesmas se as linhas forem da mesma distribuição. A estatística qui-quadrado nos ajudará novamente a decidir o que significa estar "perto" do mesmo.

Exemplo: uma diferença nas distribuições?
O teste de homogeneidade testa dados categóricos para ver se as linhas vêm de distribuições diferentes. Isso é bom? Vamos ver pegando dados de diferentes distribuições e vendo como funciona.

Podemos facilmente lançar um dado usando o comando sample. Vamos lançar um justo e um tendencioso e ver se o teste do qui-quadrado pode decidir a diferença.

Primeiro, jogue o dado justo 200 vezes e o tendencioso 100 vezes e depois tabule:

Eles parecem ser da mesma distribuição? Vemos que a moeda tendenciosa tem mais seis e muito menos dois do que deveríamos esperar. Então, claramente não parece. O teste do qui-quadrado para homogeneidade faz uma análise semelhante ao teste do qui-quadrado para independência. Para cada célula, ele calcula uma quantidade esperada e a usa para comparar com a frequência. Quais devem ser os números esperados?

Considere quantos 2's o dado justo deve rolar em 200 lançamentos. O número esperado seria 200 vezes a probabilidade de rolar um 1. Isso nós não sabemos, mas se assumirmos que as duas linhas de números são da mesma distribuição, então as proporções marginais fornecem uma estimativa. O total marginal é 30/300 = (26 + 4) / 300 = 1/10. Portanto, esperamos 200 (1/10) = 20. E tivemos 26.

Como antes, somamos todas essas diferenças ao quadrado e escalamos pelo número esperado para obter uma estatística:

Sob a hipótese nula de que ambos os conjuntos de dados vêm da mesma distribuição (homogeneidade) e de uma amostra adequada, esta tem a distribuição qui-quadrada com (2-1) (6-1) = 5 graus de liberdade. Esse é o número de linhas menos 1 vezes o número de colunas menos 1.

O trabalho pesado é feito para nós da seguinte maneira, com a função chisq.test. Observe o pequeno valor p, mas por alguns padrões ainda aceitamos o nulo neste exemplo numérico.
Se desejar ver algumas das etapas intermediárias, você pode. O resultado do teste contém mais informações do que as impressas. Como ilustração, se quisermos apenas as contagens esperadas, podemos perguntar com o valor exp do teste

12.5 Problemas

Faça um teste de hipótese para decidir se há uma diferença entre os dois tipos de programas em termos de retenção.

12.2 Foi realizada uma pesquisa com os motoristas para verificar se eles haviam sofrido um acidente durante o ano anterior e, se sim, foi um acidente menor ou maior. Os resultados são tabulados por faixa etária:


Tipo de Acidente
IDADE Nenhum menor maior
menores de 18 anos 67 10 5
18-25 42 6 5
26-40 75 8 4
40-65 56 4 6
mais de 65 57 15 1

Faça um teste de hipótese qui-quadrado de homogeneidade para ver se há diferença nas distribuições com base na idade.

12.3 Um levantamento de peixes é feito para ver se a proporção de tipos de peixes é consistente com os anos anteriores. Suponha que os 3 tipos de peixes registrados: peixe papagaio, garoupa e espiga estão historicamente em uma proporção de 5: 3: 4 e em uma pesquisa as seguintes contagens são encontradas

Faça um teste de hipótese para ver se este levantamento de peixes tem as mesmas proporções que historicamente.

12.4 O conjunto de dados R UCBAdmissions contém dados sobre a admissão na UC Berkeley por gênero. Queremos investigar se a distribuição dos homens admitidos é semelhante à das mulheres.

Para fazer isso, precisamos primeiro fazer um trabalho rápido, pois o conjunto de dados é apresentado em uma tabela de contingência complexa. O comando ftable (planificar tabela) é necessário. Para usá-lo, tente. Queremos comparar as linhas 1 e 2. Tratando x como uma matriz, podemos acessá-los com x [1: 2,].

Faça um teste de homogeneidade entre as duas linhas. O que você conclui? Repita para o grupo rejeitado.

Departamento de Matemática
College of Staten Island
Universidade da Cidade de Nova York
1S-215, 2800 Victory Boulevard, Staten Island, NY 10314
(718) 982-3600
Este site foi criado usando Twitter Bootstrap, Blosxom e Glyphicons Free.


Conteúdo

Função densidade de probabilidade

Uma função de densidade de probabilidade da distribuição qui-quadrado é

Onde denota a função Gama, que assume valores particulares em meio-inteiros.

Função de distribuição cumulativa

onde /> é a função Gamma incompleta inferior e /> é a função Gamma regularizada.

As tabelas desta distribuição & # 8212 geralmente em sua forma cumulativa & # 8212 estão amplamente disponíveis e a função está incluída em muitas planilhas e em todos os pacotes estatísticos.

Função característica

A função característica da distribuição Qui-quadrado é


ANOVA, regressão e qui-quadrado

Existe uma variedade de procedimentos estatísticos. O procedimento estatístico apropriado depende das perguntas de pesquisa que estamos fazendo e do tipo de dados que coletamos. Embora EPSY 5601 não tenha o objetivo de ser uma classe de estatística, é necessária alguma familiaridade com diferentes procedimentos estatísticos.

Análise Paramétrica de Dados

Investigando diferenças

Uma variável independente (com dois níveis) e uma variável dependente

Quando desejamos saber se as médias de dois grupos (uma variável independente (por exemplo, gênero) com dois níveis (por exemplo, homens e mulheres) diferem, um t teste é apropriado. Para calcular um t teste, precisamos saber a média, o desvio padrão e o número de indivíduos em cada um dos dois grupos. Um exemplo de t a pergunta de pesquisa de teste é & # 8220Existe uma diferença significativa entre as pontuações de leitura de meninos e meninas na sexta série?& # 8221 Um exemplo de resposta pode ser, & # 8220Boys (M=5.67, SD= 0,45) e meninas (M=5.76, SD= .50) pontuam de forma semelhante na leitura, t(23)=.54, p& gt.05. & # 8221 [Observação: (23) são os graus de liberdade de um t teste. É o número de sujeitos menos o número de grupos (sempre 2 grupos com um teste t). Neste exemplo, havia 25 assuntos e 2 grupos, então os graus de liberdade são 25-2 = 23.] Lembre-se, um t teste pode apenas comparar as médias de dois grupos (variável independente, por exemplo, gênero) em uma única variável dependente (por exemplo, pontuação de leitura). Você pode querer revisar as notas do instrutor para t testes.

Uma variável independente (com mais de dois níveis) e uma variável dependente

Se a variável independente (por exemplo, afiliação a partido político) tiver mais de dois níveis (por exemplo, democratas, republicanos e independentes) para comparar e desejamos saber se eles diferem em uma variável dependente (por exemplo, atitude sobre um corte de impostos), precisamos fazer uma ANOVA (UMalysis Of VAriance). Em outras palavras, se temos uma variável independente (com três ou mais grupos / níveis) e uma variável dependente, fazemos uma ANOVA de um fator. Um exemplo de pergunta de pesquisa é, & # 8220Os democratas, republicanos e independentes diferem em sua opção sobre um corte de impostos?& # 8221 Um exemplo de resposta é, & # 8220Democratas (M=3.56, SD= 0,56) são menos propensos a favorecer um corte de impostos do que os republicanos (M=5.67, SD= 0,60) ou independentes (M=5.34, SD=.45), F(2,120)=5.67, p& lt.05. & # 8221 [Observação: (2.120) são os graus de liberdade de uma ANOVA. O primeiro número é o número de grupos menos 1. Como tínhamos três partidos políticos, é 2, 3-1 = 2. O segundo número é o número total de assuntos menos o número de grupos. Porque tínhamos 123 sujeitos e 3 grupos, é 120 (123-3)]. A ANOVA unilateral tem uma variável independente (partido político) com mais de dois grupos / níveis (democrata, republicano e independente) e uma variável dependente (atitude em relação ao corte de impostos).

Mais de uma variável independente (com dois ou mais níveis cada) e uma variável dependente

ANOVAs podem ter mais de uma variável independente. Uma ANOVA de duas vias tem duas variáveis ​​independentes (por exemplo, partido político e gênero), uma ANOVA de três vias tem três variáveis ​​independentes (por exemplo, partido político, gênero e situação educacional), etc. Essa ANOVA ainda tem apenas uma variável dependente ( por exemplo, atitude sobre um corte de impostos). Uma ANOVA de dois fatores tem três questões de pesquisa: uma para cada uma das duas variáveis ​​independentes e uma para a interação das duas variáveis ​​independentes.

Exemplos de perguntas de pesquisa para uma ANOVA de duas vias:
Os democratas, republicanos e independentes diferem em suas opiniões sobre um corte de impostos?
Homens e mulheres diferem em suas opiniões sobre um corte de impostos?
Existe uma interação entre gênero e filiação partidária em relação às opiniões sobre redução de impostos?

Uma ANOVA de dois fatores tem três hipóteses nulas, três hipóteses alternativas e três respostas para a pergunta de pesquisa. As respostas às perguntas da pesquisa são semelhantes às respostas fornecidas para a ANOVA de um fator, apenas há três delas.

Uma ou mais variáveis ​​independentes (com dois ou mais níveis cada) e mais de uma variável dependente

Às vezes, temos várias variáveis ​​independentes e várias variáveis ​​dependentes. Neste caso fazemos uma MANOVA (Multiple UMalysis Of VAriance). Basta dizer que as estatísticas multivariadas (da qual MANOVA é membro) podem ser bastante complicadas.

Investigando Relações

Às vezes, desejamos saber se existe uma relação entre duas variáveis. Uma correlação simples mede a relação entre duas variáveis. As variáveis ​​têm status igual e não são consideradas variáveis ​​independentes ou variáveis ​​dependentes. Em nossa aula, usamos Pearson& # 8216s r que mede uma relação linear entre duas variáveis ​​contínuas. Embora existam outros tipos de relacionamento com outros tipos de variáveis, não os cobriremos nesta classe. Um exemplo de pergunta de pesquisa para uma correlação simples é, & # 8220Qual é a relação entre altura e envergadura? & # 8221 Um exemplo de resposta é: & # 8220Há uma relação entre a altura e a envergadura do braço, r(34)=.87, p& lt.05. & # 8221 Você pode revisar as notas do instrutor para correlações. Uma correlação canônica mede a relação entre conjuntos de múltiplas variáveis ​​(esta é uma estatística multivariada e está além do escopo desta discussão).

Uma extensão da correlação simples é a regressão. Na regressão, uma ou mais variáveis ​​(preditores) são usados ​​para prever um resultado (critério). Pode-se desejar prever o GPA de um estudante universitário usando o GPA do segundo grau, pontuações do SAT e especialização da faculdade. Os dados de várias centenas de alunos seriam inseridos em um programa de estatística de regressão e o programa de estatística determinaria quão bem as variáveis ​​preditoras (GPA do ensino médio, pontuações do SAT e graduação da faculdade) estavam relacionadas à variável de critério (GPA da faculdade). Com base nas informações, o programa criaria uma fórmula matemática para prever a variável de critério (GPA da faculdade) usando as variáveis ​​preditoras (GPA do ensino médio, pontuações do SAT e / ou especialização da faculdade) que são significativas. Nem todas as variáveis ​​inseridas podem ser preditores significativos. Um exemplo de pergunta de pesquisa pode ser, & # 8220Qual é o poder individual e combinado do GPA do ensino médio, pontuações do SAT e especialização da faculdade na previsão do GPA da graduação na faculdade?& # 8221 O resultado de uma análise de regressão contém uma variedade de informações. R 2 informa o quanto da variação no critério (por exemplo, GPA final da faculdade) pode ser contabilizado pelos preditores (por exemplo, GPA do ensino médio, pontuações do SAT e graduação da faculdade (dummy codificado como 0 para especialização em educação e 1 para especialização não educacional) ). Um relatório de pesquisa pode observar que & # 8220GPA do ensino médio, pontuações do SAT e especialização da faculdade são preditores significativos do GPA final da faculdade, R 2 = .56. & # 8221 Neste exemplo, 56% do GPA universitário de um indivíduo & # 8217s pode ser previsto com seu GPA no ensino médio, notas no SAT e especialização na faculdade). A equação de regressão para tal estudo pode ser semelhante à seguinte: Y & # 8217 = 0,15 + (HS GPA * 0,75) + (SAT * 0,001) + (Principal * -,75). Ao inserir um GPA individual do ensino médio, pontuação SAT e graduação da faculdade (0 para Educação e 1 para Não-Educação) na fórmula, poderíamos prever qual será o GPA final da faculdade de alguém (bom & # 8230, pelo menos 56%). Por exemplo, alguém com GPA no ensino médio de 4,0, pontuação SAT de 800 e especialização em educação (0) teria um GPA previsto de 3,95 (0,15 + (4,0 * 0,75) + (800 * 0,001) + (0 * -.75)). As universidades costumam usar regressão ao selecionar os alunos para inscrição.

Eu criei uma amostra de impressão de regressão SPSS com interpretação se você deseja explorar mais este tópico. Você não será responsável pela leitura ou interpretação da impressão do SPSS.

Análise de dados não paramétricos

Podemos contar os incidentes de algo e comparar o que nossos dados reais mostraram com o que esperaríamos. Suponha que pesquisamos 27 pessoas para saber se preferiam vermelho, azul ou amarelo como cor. Se não houvesse preferência, esperaríamos que 9 selecionasse vermelho, 9 selecionaria azul e 9 selecionaria amarelo. Usamos um qui-quadrado para comparar o que observamos (real) com o que esperamos. Se nossa amostra indicou que 2 gostaram de vermelho, 20 gostaram de azul e 5 gostaram de amarelo, podemos estar bastante confiantes de que mais pessoas preferem azul. Se nossa amostra indicou que 8 gostaram de leitura, 10 gostaram de azul e 9 gostaram de amarelo, podemos não estar muito confiantes de que o azul é geralmente preferido. O qui-quadrado nos ajuda a tomar decisões sobre se o resultado observado difere significativamente do resultado esperado. Um exemplo de pergunta de pesquisa é, & # 8220Há preferência pela cor vermelha, azul e amarela?& # 8221 Um exemplo de resposta é & # 8220Não havia preferência igual para as cores vermelho, azul ou amarelo. Mais pessoas preferiram azul do que vermelho ou amarelo, X 2 (2) = 12.54, p & lt .05 & # 8243. Assim como os testes t nos dizem o quão confiantes podemos estar ao dizer que há diferenças entre as médias de dois grupos, o qui-quadrado nos diz o quão confiantes podemos estar ao dizer que nossos resultados observados diferem dos resultados esperados.

Cada uma das estatísticas produz uma estatística de teste (por exemplo, t, F, r, R 2 , X 2 ) que é usado com graus de liberdade (com base no número de assuntos e / ou número de grupos) que são usados ​​para determinar o nível de significância estatística (valor de p) Em última análise, estamos interessados ​​em saber se p é menor ou maior que 0,05 (ou algum outro valor predeterminado pelo pesquisador). Tudo se resume ao valor de p. Se p& lt.05 dizemos que há diferenças para testes t, ANOVAs e qui-quadrados ou há relações para correlações e regressões.

Graças às melhorias no poder de computação, a análise de dados foi além da simples comparação de uma ou duas variáveis ​​para a criação de modelos com conjuntos de variáveis. Modelagem de Equações Estruturais e Modelagem Linear Hierárquica são dois exemplos dessas técnicas. Modelagem de equações estruturais (SEM) analisa caminhos entre variáveis ​​e testa os relacionamentos diretos e indiretos entre as variáveis, bem como o ajuste de todo o modelo de caminhos ou relacionamentos. Por exemplo, um pesquisador pode medir a relação entre QI e desempenho escolar, ao mesmo tempo que inclui outras variáveis, como motivação, nível de educação familiar e desempenho anterior.

O exemplo abaixo mostra as relações entre vários fatores e o prazer da escola. Quando uma linha se conecta a uma variável, há um relacionamento. If two variable are not related, they are not connected by a line. The strengths of the relationships are indicated on the lines. In this model we can see that there is a positive relationship between Parents’ Education Level and students’ Scholastic Ability. We can see that there is not a relationship between Teacher Perception of Academic Skills and students’ Enjoyment of School. We can see there is a negative relationship between students’ Scholastic Ability and their Enjoyment of School. See D. Betsy McCoach’s article for more information on SEM.

Often the educational data we collect violates the important assumption of independence that is required for the simpler statistical procedures. Students are often grouped (nested) in classrooms. Those classrooms are grouped (nested) in schools. The schools are grouped (nested) in districts. This nesting violates the assumption of independence. Hierarchical Linear Modeling (HLM) was designed to work with nested data. HLM allows researchers to measure the effect of the classroom, as well as the effect of attending a particular school, as well as measuring the effect of being a student in a given district on some selected variable, such as mathematics achievement. For more information on HLM, see D. Betsy McCoach’s article.


Critical Values of the Chi-Square Distribution

This table contains the basic estimations of the chi-square circulation. On account of the absence of balance of the chi-square appropriation, separate tables are accommodated the upper and lower tails of the dispersion.

A test measurement with ν degrees of opportunity is processed from the information. For upper-tail uneven tests, the test measurement is contrasted and an incentive from the table of upper-tail basic qualities. For two-sided tests, the test measurement is contrasted and values from both the table for the upper-tail basic qualities and the table for the lower-tail basic qualities.

The significance level, α, is demonstrated with the graph below which shows a chi-square distribution with 3 degrees of freedom for a two-sided test at significance level α = 0.05. If the test statistic is greater than the upper-tail critical value or less than the lower-tail critical value, we reject the null hypothesis. Specific instructions are given below

Given a specified value of α:

For a two-sided test, discover the segment comparing to 1-α/2 in the table for upper-tail basic qualities and reject the invalid theory if the test measurement is more prominent than the postponed worth. Essentially, discover the section comparing to α/2 in the table for lower-tail basic qualities and reject the invalid theory if the test measurement is not exactly the postponed worth.

For an upper-tail uneven test, discover the section comparing to 1-α in the table containing upper-tail basic and reject the invalid speculation if the test measurement is more prominent than the postponed worth.

For a lower-tail uneven test, discover the section comparing to α in the lower-tail basic qualities table and reject the invalid theory if the registered test measurement is not exactly the postponed worth.

Upper-tail critical values of chi-square distribution with ν graus de liberdade

Probability less than the critical value

1 2.706 3.841 5.024 6.635 10.828

2 4.605 5.991 7.378 9.210 13.816

3 6.251 7.815 9.348 11.345 16.266

4 7.779 9.488 11.143 13.277 18.467

5 9.236 11.070 12.833 15.086 20.515

6 10.645 12.592 14.449 16.812 22.458

7 12.017 14.067 16.013 18.475 24.322

8 13.362 15.507 17.535 20.090 26.125

9 14.684 16.919 19.023 21.666 27.877

10 15.987 18.307 20.483 23.209 29.588

11 17.275 19.675 21.920 24.725 31.264

12 18.549 21.026 23.337 26.217 32.910

13 19.812 22.362 24.736 27.688 34.528

14 21.064 23.685 26.119 29.141 36.123

15 22.307 24.996 27.488 30.578 37.697

16 23.542 26.296 28.845 32.000 39.252

17 24.769 27.587 30.191 33.409 40.790

18 25.989 28.869 31.526 34.805 42.312

19 27.204 30.144 32.852 36.191 43.820

20 28.412 31.410 34.170 37.566 45.315

21 29.615 32.671 35.479 38.932 46.797

22 30.813 33.924 36.781 40.289 48.268

23 32.007 35.172 38.076 41.638 49.728

24 33.196 36.415 39.364 42.980 51.179

25 34.382 37.652 40.646 44.314 52.620

26 35.563 38.885 41.923 45.642 54.052

27 36.741 40.113 43.195 46.963 55.476

28 37.916 41.337 44.461 48.278 56.892

29 39.087 42.557 45.722 49.588 58.301

30 40.256 43.773 46.979 50.892 59.703

31 41.422 44.985 48.232 52.191 61.098

32 42.585 46.194 49.480 53.486 62.487

33 43.745 47.400 50.725 54.776 63.870

34 44.903 48.602 51.966 56.061 65.247

35 46.059 49.802 53.203 57.342 66.619

36 47.212 50.998 54.437 58.619 67.985

37 48.363 52.192 55.668 59.893 69.347

38 49.513 53.384 56.896 61.162 70.703

39 50.660 54.572 58.120 62.428 72.055

40 51.805 55.758 59.342 63.691 73.402

41 52.949 56.942 60.561 64.950 74.745

42 54.090 58.124 61.777 66.206 76.084

43 55.230 59.304 62.990 67.459 77.419

44 56.369 60.481 64.201 68.710 78.750

45 57.505 61.656 65.410 69.957 80.077

46 58.641 62.830 66.617 71.201 81.400

47 59.774 64.001 67.821 72.443 82.720

48 60.907 65.171 69.023 73.683 84.037

49 62.038 66.339 70.222 74.919 85.351

50 63.167 67.505 71.420 76.154 86.661

51 64.295 68.669 72.616 77.386 87.968

52 65.422 69.832 73.810 78.616 89.272

53 66.548 70.993 75.002 79.843 90.573

54 67.673 72.153 76.192 81.069 91.872

55 68.796 73.311 77.380 82.292 93.168

56 69.919 74.468 78.567 83.513 94.461

57 71.040 75.624 79.752 84.733 95.751

58 72.160 76.778 80.936 85.950 97.039

59 73.279 77.931 82.117 87.166 98.324

60 74.397 79.082 83.298 88.379 99.607

61 75.514 80.232 84.476 89.591 100.888

62 76.630 81.381 85.654 90.802 102.166

63 77.745 82.529 86.830 92.010 103.442

64 78.860 83.675 88.004 93.217 104.716

65 79.973 84.821 89.177 94.422 105.988

66 81.085 85.965 90.349 95.626 107.258

67 82.197 87.108 91.519 96.828 108.526

68 83.308 88.250 92.689 98.028 109.791

69 84.418 89.391 93.856 99.228 111.055

70 85.527 90.531 95.023 100.425 112.317

71 86.635 91.670 96.189 101.621 113.577

72 87.743 92.808 97.353 102.816 114.835

73 88.850 93.945 98.516 104.010 116.092

74 89.956 95.081 99.678 105.202 117.346

75 91.061 96.217 100.839 106.393 118.599

76 92.166 97.351 101.999 107.583 119.850

77 93.270 98.484 103.158 108.771 121.100

78 94.374 99.617 104.316 109.958 122.348

79 95.476 100.749 105.473 111.144 123.594

80 96.578 101.879 106.629 112.329 124.839

81 97.680 103.010 107.783 113.512 126.083

82 98.780 104.139 108.937 114.695 127.324

83 99.880 105.267 110.090 115.876 128.565

84 100.980 106.395 111.242 117.057 129.804

85 102.079 107.522 112.393 118.236 131.041

86 103.177 108.648 113.544 119.414 132.277

87 104.275 109.773 114.693 120.591 133.512

88 105.372 110.898 115.841 121.767 134.746

89 106.469 112.022 116.989 122.942 135.978

90 107.565 113.145 118.136 124.116 137.208

91 108.661 114.268 119.282 125.289 138.438

92 109.756 115.390 120.427 126.462 139.666

93 110.850 116.511 121.571 127.633 140.893

94 111.944 117.632 122.715 128.803 142.119

95 113.038 118.752 123.858 129.973 143.344

96 114.131 119.871 125.000 131.141 144.567

97 115.223 120.990 126.141 132.309 145.789

98 116.315 122.108 127.282 133.476 147.010

99 117.407 123.225 128.422 134.642 148.230

100 118.498 124.342 129.561 135.807 149.449

100 118.498 124.342 129.561 135.807 149.449

Lower-tail critical values of chi-square distribution with ν graus de liberdade


5.5 Exercises

Exercise 5.1
Case study: air pollution
Topic: comparing air pollution in Rotterdam location Statenweg, and Amsterdam location Einsteinweg. The selected stations are representative of the city centers.
Hypothesis, based on literature review:
HUMA: (pi) Rotterdam > (pi) Amsterdam,
where (pi) Rotterdam ( (pi) Amsterdam) is the proportion of days in 2018 with an average PM10 level above 30 (mu) gram per m 3 in Rotterdam (Amsterdam) according to the WHO standard a daily average of more than 30 (mu) gram per m 3 is defined as unhealthy.
Data has been collected from the RIVM website.
Assume that from the 365 days, the number of ‘unhealthy’ days in Rotterdam is 85 and in Amsterdam 69. Is this difference significant? In other words, do this data support the hypothesis.

  1. Test the hypothesis that more than 10% of the houses sold have a selling price of more than 1 mln GBP.
  2. A broker states that based on historic figures houses in the Bromley district are more expensive than houses in the Croydon district. Perform a test to see if the selling prices in January 2019 give support to this assumption.
  3. Test if there is a significant difference between the proportion flats of all houses sold in the EALING district and in the GREENWICH district.
  4. “The proportion houses with a selling price of more than 1 mln GBP for the category terraced houses is higher than for the category semi-detached houses.”
    Test if the data support this statement.
  5. Use the figures of the first full week of January to test if the home sales are uniformly distributed over the weekdays. Use a chi-square goodness of fit test.
  6. Use a chi-square-of-FIT-test to test if the distribution of prices of detached houses sold is: 20% less than 500,000 GPB, 20% between 500,000 and 1,000,000 GPB, 20% between 1,000,000 and 1,500,000 GBP, 20% between 1,500,000 and 2,000,000 GPB and 20% more than 2,000,000 GBP.

Exercise 5.3
Case: Ducth cars, brands: AUDI, CITROEN, FORD, OPEL File: 20190605rdw.xlsx this file contains information from a random sample of 1000 Dutch cars

The data set is not a random sample from all registered cars in the Netherlands it is a random sample from registered cars from three brands, KIA, BMW and AUDI because of didactic reasons, KIA PICANTO’s are excluded from the sample.↩

P-values for common tests can be calculated with this web app.↩

which sample size is large enough depends on the form of the distribution in the population most textbooks say n = 30 is large enough, in most situations it is assumed that even n = 20 is large enough to use a t-test if it may be assumed that the population distribution is symmetric even n = 10 may be large enough.↩


Assista o vídeo: #16 - Tabela da Distribuição Qui Quadrado (Outubro 2021).