Artigos

1.7E: Ajustando Modelos Lineares aos Dados (Exercícios) - Matemática


seção 2.4 exercício

1. A seguir estão os dados da primeira e da segunda pontuação do questionário para 8 alunos em uma classe. Trace os pontos e, a seguir, esboce uma linha que se ajuste aos dados.

Primeiro questionário1120242533424649
Segundo questionário1016232830394049

2. Oito alunos foram solicitados a estimar sua pontuação em um questionário de 10 pontos. Suas pontuações estimadas e reais são fornecidas. Trace os pontos e, a seguir, esboce uma linha que se ajuste aos dados.

Previsto5768109107
Real667899106

Com base em cada conjunto de dados fornecidos, calcule a linha de regressão usando sua calculadora ou outra ferramenta de tecnologia e determine o coeficiente de correlação.

7. Uma regressão foi executada para determinar se há uma relação entre as horas de TV assistidas por dia ( (x )) e o número de abdominais que uma pessoa pode fazer ( (y )). Os resultados da regressão são apresentados a seguir. Use para prever o número de situps que uma pessoa que assiste 11 horas de TV pode fazer.

(y = ax + b )
(a = -1,341 )
(b = 32,234 )
(r ^ 2 = 0,803 )
(r = -0,896 )

8. Uma regressão foi executada para determinar se há uma relação entre o diâmetro de uma árvore ( (x ), em polegadas) e a idade da árvore ( (y ), em anos). Use para prever a idade de uma árvore com diâmetro de 10 polegadas.

(y = ax + b )
(a = 6,301 )
(b = -1,044 )
(r ^ 2 = 0,940 )
(r = 0,970 )

Combine cada gráfico de dispersão mostrado abaixo com uma das quatro correlações especificadas.

9. (r = 0,95 ) 10. (r = -0,89 ) 11. (r = 0,26 ) 12. (r = -0,39 )

UMA B C D

13. O censo dos Estados Unidos rastreia a porcentagem de pessoas com 25 anos ou mais que são graduadas. Esses dados para vários anos são fornecidos abaixo. Determine se a tendência parece linear. Em caso afirmativo e a tendência continuar, em que ano a porcentagem ultrapassará 35%?

Ano1990199219941996199820002002200420062008
Porcentagem de Graduados21.321.422.223.624.425.626.727.72829.4

14. A importação de vinho pelos Estados Unidos (em hectolitros) durante vários anos é apresentada a seguir. Se sim e a tendência continuar, em que ano as importações excederão 12.000 hectolitros?

Ano1992199419961998200020022004200620082009
Importações2665268835654129458456556549795084879462
Responder

1.

3. (y = 1,971x - 3,519 ), (r = 0,967 )

5. (y = -0,901x + 26,04 ), (r = -0,968 )

7. (17.483 aprox. 17 situps )

9. D

11. A

13. Sim, a tendência parece linear porque (r = 0,994 ) e excederá 35% perto do final do ano 2019.


Álgebra intermediária: funções e gráficos

A é uma descrição simplificada da realidade que usa a matemática para nos ajudar a entender um sistema ou processo.

Podemos usar um modelo para analisar dados, identificar tendências e prever os efeitos da mudança. A primeira etapa na criação de um modelo é descrever os relacionamentos entre as variáveis ​​envolvidas.

Ponto de verificação 1.1. QuickCheck 1.

Começando com uma descrição em palavras, podemos representar o relacionamento por:

Cada uma dessas ferramentas matemáticas é útil de uma maneira diferente.

  1. A lista pontos de dados específicos com valores numéricos precisos.
  2. A é uma exibição visual dos dados. É mais fácil detectar tendências e descrever o comportamento geral das variáveis ​​em um gráfico.
  3. Um é um resumo compacto do modelo. Ele pode ser usado para analisar o modelo e fazer previsões.
Ponto de verificação 1.2. QuickCheck 2.

Nos exemplos a seguir, observe a interação entre as três ferramentas de modelagem e como cada uma contribui para o modelo.

Exemplo 1.3.

Em maio de 2005, a cidade de Lyon, na França, iniciou um programa de aluguel de bicicletas. Mais de 3.000 bicicletas estão disponíveis em 350 estações computadorizadas pela cidade. Cada um dos 52.000 assinantes paga uma taxa anual de 5 euros (cerca de US $ 7,20) e recebe um PIN para acessar as bicicletas. As bicicletas são alugadas por 1 euro por hora e podem ser devolvidas em qualquer estação.

Sua comunidade decide criar um programa semelhante, cobrando uma taxa de assinatura de US $ 5 e US $ 3 por hora pelo aluguel. (Uma fração de hora é cobrada como a fração correspondente de $ 3).

Faça uma tabela de valores mostrando o custo, (C text <,> ) de alugar uma bicicleta por vários períodos de tempo, (t text <.> )

Trace os pontos em um gráfico. Desenhe uma curva através dos pontos de dados.

Escreva uma equação para (C ) em termos de (t text <.> )

Há uma taxa inicial de $ 5 e uma taxa de aluguel de $ 3 por hora. Para encontrar o custo, multiplicamos o tempo por $ 3 por hora e adicionamos o resultado à taxa de assinatura de $ 5. Por exemplo, o custo de um passeio de bicicleta de uma hora é

Um passeio de bicicleta de uma hora custa $ 8.

Calculamos o custo para os outros valores de (t ) e registramos os resultados em uma tabela conforme mostrado abaixo.

Duração do aluguel
(horas)
Custo de aluguel
(dólares)
((t, C) )
(0) (5) ( quad C = 5 + 3 ( alert <0>) quad ) ((0,5))
(1) (8) ( quad C = 5 + 3 ( alert <1>) quad ) ((1,8))
(2) (11) (C = 5 + 3 ( alert <2>) ) ((2,11))
(3) (14) (C = 5 + 3 ( alert <3>) ) ((3,14))

Cada par de valores representa um ponto no gráfico. O primeiro valor fornece a coordenada horizontal do ponto e o segundo valor fornece a coordenada vertical.

Os pontos estão em linha reta, conforme mostrado na figura. A linha se estende infinitamente em apenas uma direção, porque valores negativos de (t ) não fazem sentido aqui.

Para escrever uma equação, deixamos (C ) representar o custo do aluguel e usamos (t ) para o número de horas:

Ponto de verificação 1.4. Prática 1.

Equações de subseção para modelos lineares

A equação que escrevemos no primeiro exemplo é um exemplo de a, que descreve uma variável que aumenta ou diminui a uma taxa constante.

Definição 1.5. Modelo Linear.

A descreve uma variável que aumenta ou diminui a uma taxa constante. Tem a forma

Ponto de verificação 1.6. QuickCheck 3.

No próximo exemplo, vemos como um gráfico e sua equação estão relacionados.

Exemplo 1.7.

Use a equação (C = 5 + 3 cdot t ) que você encontrou no Exemplo 1.3 para responder às seguintes perguntas. Em seguida, mostre como encontrar as respostas usando o gráfico.

Quanto custará alugar uma bicicleta por 6 horas?

Quanto tempo você consegue andar de bicicleta por US $ 18,50?

Substituímos (t = alert <6> ) na equação para encontrar

Um passeio de bicicleta de 6 horas custará $ 23. O ponto (P ) no gráfico da figura representa o custo de um passeio de bicicleta de 6 horas. O valor no eixo (C ) - na mesma altura do ponto (P ) é 23, portanto, um passeio de bicicleta de 6 horas custa $ 23.

Substituímos (C = alert <18,50> ) na equação e resolvemos (t text <.> )

Por US $ 18,50, Annelise pode pedalar por (4 frac <1> <2> ) horas. O ponto (Q ) no gráfico representa uma viagem de bicicleta de $ 18,50. O valor no eixo (t ) - abaixo do ponto (Q ) é 4,5, então $ 18,50 compram um passeio de bicicleta de 4,5 horas.


Conteúdo

Começaremos com um exemplo simples em que nosso modelo possui apenas um parâmetro. A lei de Weber afirma que a capacidade de um sujeito perceber um aumento na intensidade do estímulo é proporcional à intensidade inicial ou de linha de base. Ou seja, se x é a intensidade do estímulo, o limite de incremento é kx, onde k é a 'fração de Weber'. Esta fração é nosso único parâmetro.

Suponha que realizamos um experimento testando a capacidade de um sujeito de detectar um aumento no peso de um objeto na mão. Os sujeitos receberam pesos iniciais (em Kg) dos seguintes valores:

Os limites de incremento são definidos aqui como o aumento de peso que pode ser detectado corretamente 80% das vezes. Isso usaria um método psicofísico, como a 'escolha forçada de duas alternativas' (2AFC), com o qual não precisamos lidar aqui. Deixe que os limites de incremento correspondentes para um assunto sejam:


Condições para a linha de mínimos quadrados

Ao ajustar uma linha de quadrados mínimos, geralmente exigimos

  • Linearidade. Os dados devem mostrar uma tendência linear. Se houver uma tendência não linear (por exemplo, painel esquerdo da Figura ( PageIndex <2> )), um método de regressão avançado de outro livro ou curso posterior deve ser aplicado.
  • Resíduos quase normais. Geralmente, os resíduos devem ser quase normais. Quando essa condição é considerada irracional, geralmente é devido a valores discrepantes ou preocupações sobre pontos de influência, que discutiremos em maior profundidade na Seção 7.3. Um exemplo de resíduos não normais é mostrado no segundo painel da Figura ( PageIndex <2> ).
  • Variabilidade constante. A variabilidade dos pontos em torno da linha dos mínimos quadrados permanece aproximadamente constante. Um exemplo de variabilidade não constante é mostrado no terceiro painel da Figura ( PageIndex <2> ).

Figura ( PageIndex <2> ): Quatro exemplos que mostram quando os métodos neste capítulo são insuficientes para serem aplicados aos dados. No painel esquerdo, uma linha reta não corresponde aos dados. No segundo painel, existem outliers, dois pontos à esquerda estão relativamente distantes do resto dos dados, e um desses pontos está muito longe da linha. No terceiro painel, a variabilidade dos dados ao redor da linha aumenta com valores maiores de x. No último painel, um conjunto de dados de série temporal é mostrado, onde observações sucessivas são altamente correlacionadas.

Seja cauteloso ao aplicar regressão aos dados coletados sequencialmente no que é chamado de série temporal. Esses dados podem ter uma estrutura subjacente que deve ser considerada em um modelo e análise. Existem outras instâncias em que as correlações nos dados são importantes. Este tópico será discutido com mais detalhes no Capítulo 8.

Devemos nos preocupar em aplicar a regressão de mínimos quadrados aos dados de Elmhurst na Figura ( PageIndex <1> )?

A tendência parece ser linear, os dados estão em torno da linha sem outliers óbvios, a variância é aproximadamente constante. Estas também não são observações de séries temporais. A regressão de mínimos quadrados pode ser aplicada a esses dados.


1.7E: Ajustando Modelos Lineares aos Dados (Exercícios) - Matemática

Um professor está tentando identificar tendências entre as notas do exame final. Sua turma tem uma mistura de alunos, então ele se pergunta se há alguma relação entre idade e notas no exame final. Uma maneira de ele analisar as pontuações é criando um diagrama que relaciona a idade de cada aluno à pontuação recebida no exame. Nesta seção, examinaremos um desses diagramas conhecido como gráfico de dispersão.

Desenhar e interpretar gráficos de dispersão

Um gráfico de dispersão é um gráfico de pontos traçados que pode mostrar uma relação entre dois conjuntos de dados. Se a relação for de um modelo linear ou quase linear, o professor pode tirar conclusões usando seu conhecimento de funções lineares. [link] mostra um gráfico de dispersão de amostra.

Um gráfico de dispersão de variáveis ​​de idade e pontuação no exame final

Observe que este gráfico de dispersão não indicam uma relação linear. Os pontos não parecem seguir uma tendência. Ou seja, não parece haver relação entre a idade do aluno e a nota no exame final.

[link] mostra o número de sons de críquete em 15 segundos, para várias temperaturas do ar diferentes, em graus Fahrenheit 1. Plote esses dados e determine se os dados parecem estar linearmente relacionados.

Chirps 44 35 20.4 33 31 35 18.5 37 26
Temperatura 80.5 70.5 57 66 68 72 52 73.5 53

Traçar esses dados, conforme descrito em [link], sugere que pode haver uma tendência. Podemos ver pela tendência nos dados que o número de chilros aumenta à medida que a temperatura aumenta. A tendência parece ser aproximadamente linear, embora certamente não perfeitamente.

Encontrando a linha de melhor ajuste

Uma vez que reconhecemos a necessidade de uma função linear para modelar esses dados, a pergunta de acompanhamento natural é & # 8220 o que é essa função linear? & # 8221 Uma maneira de aproximar nossa função linear é esboçar a linha que parece se ajustar melhor ao dados. Então podemos estender a linha até que possamos verificar o y-interceptar. Podemos aproximar a inclinação da linha estendendo-a até que possamos estimar a extensão da subida. subir correr.

Encontre uma função linear que se ajuste aos dados em [link] & # 8220estabelecendo & # 8221 uma linha que pareça caber.

Em um gráfico, poderíamos tentar esboçar uma linha.

Usando os pontos inicial e final de nossa linha desenhada à mão, pontos (0, 30) e (50, 90), este gráfico tem uma inclinação de

e um y-intercepto em 30. Isso dá uma equação de

Essa equação linear pode então ser usada para aproximar respostas a várias perguntas que podemos fazer sobre a tendência.

Reconhecendo interpolação ou extrapolação

Embora os dados da maioria dos exemplos não caiam perfeitamente na linha, a equação é nossa melhor estimativa de como o relacionamento se comportará fora dos valores para os quais temos dados. Usamos um processo conhecido como interpolação quando prevemos um valor dentro do domínio e intervalo dos dados. O processo de extrapolação é usado quando prevemos um valor fora do domínio e intervalo dos dados.

[link] compara os dois processos para os dados cricket-chirp endereçados em [link]. Podemos ver que a interpolação ocorreria se usássemos nosso modelo para prever a temperatura quando os valores para chirps estiverem entre 18,5 e 44. A extrapolação ocorreria se usássemos nosso modelo para prever a temperatura quando os valores para chirps fossem menores que 18,5 ou maiores que 44 .

Há uma diferença entre fazer previsões dentro do domínio e intervalo de valores para os quais temos dados e fora desse domínio e intervalo. Prever um valor fora do domínio e do intervalo tem suas limitações. Quando nosso modelo não se aplica mais após um certo ponto, às vezes é chamado de decomposição do modelo. Por exemplo, a previsão de uma função de custo para um período de dois anos pode envolver o exame dos dados em que a entrada é o tempo em anos e a saída é o custo. Mas se tentarmos extrapolar um custo quando x = 50, x = 50, ou seja, em 50 anos, o modelo não se aplicaria porque não poderíamos contabilizar os fatores cinquenta anos no futuro.

A interpolação ocorre dentro do domínio e intervalo dos dados fornecidos, enquanto a extrapolação ocorre fora.

Diferentes métodos de fazer previsões são usados ​​para analisar os dados.

  • O método de interpolação envolve a previsão de um valor dentro do domínio e / ou intervalo dos dados.
  • O método de extrapolação envolve a previsão de um valor fora do domínio e / ou intervalo dos dados.
  • Discriminação do modelo ocorre no ponto em que o modelo não se aplica mais.

Use os dados de críquete de [link] para responder às seguintes perguntas:

  1. A previsão da temperatura quando os grilos estão cantando 30 vezes em 15 segundos seria interpolação ou extrapolação? Faça a previsão e discuta se é razoável.
  2. A previsão do número de grilos gorjeios a 40 graus seria interpolação ou extrapolação? Faça a previsão e discuta se é razoável.
  1. O número de chirps nos dados fornecidos variou de 18,5 a 44. Uma previsão de 30 chirps por 15 segundos está dentro do domínio de nossos dados, então estaria a interpolação. Usando nosso modelo:

Podemos comparar as regiões de interpolação e extrapolação usando [link].

Nosso modelo prevê que os grilos piariam 8,33 vezes em 15 segundos. Embora isso seja possível, não temos motivos para acreditar que nosso modelo seja válido fora do domínio e do intervalo. Na verdade, geralmente os grilos param de chiar completamente abaixo de cerca de 50 graus.

De acordo com os dados de [link], que temperatura podemos prever se contarmos 20 chilros em 15 segundos?

Encontrar a linha de melhor ajuste usando um utilitário de representação gráfica

Embora a análise ocular de uma linha funcione razoavelmente bem, existem técnicas estatísticas para ajustar uma linha aos dados que minimizam as diferenças entre a linha e os valores dos dados 2. Uma dessas técnicas é chamada de regressão de mínimos quadrados e pode ser calculada por muitas calculadoras gráficas, software de planilha, software estatístico e muitas calculadoras baseadas na web 3. A regressão de mínimos quadrados é um meio de determinar a linha que melhor se ajusta aos dados, e aqui nos referiremos a esse método como regressão linear.

Dados dados de entrada e saídas correspondentes de uma função linear, encontre a linha de melhor ajuste usando a regressão linear.

  1. Insira a entrada na Lista 1 (L1).
  2. Insira a saída na Lista 2 (L2).
  3. Em um utilitário de gráfico, selecione Regressão Linear (LinReg).

Encontre a linha de regressão de mínimos quadrados usando os dados cricket-chirp em [link].

  1. Digite a entrada (chirps) na Lista 1 (L1).
  2. Insira a saída (temperatura) na Lista 2 (L2). Veja [link].
    L1443520.433313518.53726
    L280.570.5576668725273.553
  3. Em um utilitário de gráfico, selecione Regressão Linear (LinReg). Usando os dados do chirp de críquete anteriores, com a tecnologia obtemos a equação:

Observe que essa linha é bastante semelhante à equação que & # 8220 examinamos & # 8221, mas deve se ajustar melhor aos dados. Observe também que o uso desta equação mudaria nossa previsão para a temperatura ao ouvir 30 chilros em 15 segundos de 66 graus para:

O gráfico do gráfico de dispersão com a linha de regressão de mínimos quadrados é mostrado em [link].

Haverá um caso em que duas linhas diferentes servirão como o melhor ajuste para os dados?

Não. Existe apenas uma linha de melhor ajuste.

Distinguir entre modelos lineares e não lineares

Como vimos acima, com o modelo cricket-chirp, alguns dados exibem fortes tendências lineares, mas outros dados, como as pontuações do exame final plotadas por idade, são claramente não lineares. A maioria das calculadoras e software de computador também pode nos fornecer o coeficiente de correlação, que é uma medida de quão próximo a linha se ajusta aos dados. Muitas calculadoras gráficas exigem que o usuário ative um diagnóstico & # 8221 & # 8221 para encontrar o coeficiente de correlação, que os matemáticos chamam de r. r. O coeficiente de correlação fornece uma maneira fácil de ter uma ideia de quão perto de uma linha os dados estão.

Devemos calcular o coeficiente de correlação apenas para dados que seguem um padrão linear ou para determinar o grau em que um conjunto de dados é linear. Se os dados exibirem um padrão não linear, o coeficiente de correlação para uma regressão linear não fará sentido. Para ter uma ideia da relação entre o valor de r r e o gráfico dos dados, [link] mostra alguns grandes conjuntos de dados com seus coeficientes de correlação. Lembre-se, para todos os gráficos, o eixo horizontal mostra a entrada e o eixo vertical mostra a saída.

Dados traçados e coeficientes de correlação relacionados. (crédito: & # 8220DenisBoigelot, & # 8221 Wikimedia Commons)

O coeficiente de correlação é um valor, r, r, entre & # 82111 e 1.

  • r & gt 0 sugere uma relação positiva (crescente)
  • r & lt 0 sugere uma relação negativa (decrescente)
  • Quanto mais próximo o valor estiver de 0, mais dispersos serão os dados.
  • Quanto mais próximo o valor estiver de 1 ou & # 82111, menos dispersos serão os dados.

Calcule o coeficiente de correlação para dados cricket-chirp em [link].

Nota: Para algumas calculadoras, o Diagnóstico deve ser ativado para obter o coeficiente de correlação quando a regressão linear é realizada: [2nd] & gt [0] & gt [alpha] [x & # 82111] e, em seguida, role para DIAGNÓSTICO.

Predição com uma linha de regressão

Depois de determinar que um conjunto de dados é linear usando o coeficiente de correlação, podemos usar a linha de regressão para fazer previsões. Como aprendemos acima, uma linha de regressão é a linha mais próxima dos dados no gráfico de dispersão, o que significa que apenas uma dessas linhas é o melhor ajuste para os dados.

O consumo de gasolina nos Estados Unidos tem aumentado constantemente. Os dados de consumo de 1994 a 2004 são apresentados em [link] 4. Determine se a tendência é linear e, em caso afirmativo, encontre um modelo para os dados. Use o modelo para prever o consumo em 2008.

Ano '94 '95 '96 '97 '98 '99 '00 '01 '02 '03 '04
Consumo (bilhões de galões) 113 116 118 119 123 125 126 128 131 133 136

O gráfico de dispersão dos dados, incluindo a linha de regressão de mínimos quadrados, é mostrado em [link].

Podemos introduzir uma nova variável de entrada, t, t, representando os anos desde 1994.

A equação de regressão de mínimos quadrados é:

Usando a tecnologia, o coeficiente de correlação foi calculado em 0,9965, sugerindo uma tendência linear crescente muito forte.

Usando isso para prever o consumo em 2008 (t = 14), (t = 14),

O modelo prevê 144,244 bilhões de galões de consumo de gasolina em 2008.

Use o modelo que criamos usando a tecnologia em [link] para prever o consumo de gás em 2011. Isso é uma interpolação ou uma extrapolação?

Extrapolação 150,871 bilhões de galões

Acesse esses recursos online para obter instruções e práticas adicionais com o ajuste de modelos lineares aos dados.

Visite este site para questões práticas adicionais do Learningpod.

Conceitos chave

  • Os gráficos de dispersão mostram a relação entre dois conjuntos de dados. Veja [link].
  • Os gráficos de dispersão podem representar modelos lineares ou não lineares.
  • A linha de melhor ajuste pode ser estimada ou calculada, usando uma calculadora ou software estatístico. Veja [link].
  • A interpolação pode ser usada para prever valores dentro do domínio e intervalo dos dados, enquanto a extrapolação pode ser usada para prever valores fora do domínio e intervalo dos dados. Veja [link].
  • O coeficiente de correlação, r, r, indica o grau de relacionamento linear entre os dados. Veja [link].
  • Uma linha de regressão se ajusta melhor aos dados. Veja [link].
  • A linha de regressão de mínimos quadrados é encontrada minimizando os quadrados das distâncias dos pontos de uma linha que passa pelos dados e pode ser usada para fazer previsões com relação a qualquer uma das variáveis. Veja [link].

Exercícios de seção

Verbal

Descreva o que significa se houver uma quebra do modelo ao usar um modelo linear.

Quando nosso modelo não se aplica mais, após algum valor no domínio, o modelo em si não se mantém.

O que é interpolação ao usar um modelo linear?

O que é extrapolação ao usar um modelo linear?

Prevemos um valor fora do domínio e intervalo dos dados.

Explique a diferença entre um coeficiente de correlação positivo e um negativo.

Explique como interpretar o valor absoluto de um coeficiente de correlação.

Quanto mais próximo o número estiver de 1, menos dispersos serão os dados, quanto mais próximo o número estiver de 0, mais dispersos serão os dados.


Uma introdução à análise de dados bayesiana para a ciência cognitiva

Vamos revisitar a questão "Os parentes do sujeito são mais fáceis de processar do que os parentes do objeto?" Reajuste em Stan o exercício 5.1.

Em vez dos tempos de reação das respostas corretas, queremos descobrir se a precisão também muda por condição na tarefa Stroop. Ajuste os dados Stroop (mas não filtre as respostas incorretas) com uma regressão logística hierárquica (ou seja, uma probabilidade de Bernoulli com um link logit).

Em 5.1.6, vimos como ajustar um modelo de regressão distribucional. Podemos querer estender essa abordagem para Stan. Ajuste os dados de EEG a um modelo hierárquico com interceptações e inclinações por assunto e por itens variando, e, além disso, suponha que o componente de variância do modelo pode variar por assunto.

Para se ajustar a este modelo, leve em consideração que sigma é agora um vetor, e é um parâmetro transformado que depende de dois parâmetros: sigma_alpha e o vetor com elementos N_subj sigma_u. Além disso, sigma_u depende do hiperparâmetro tau_sigma_u ( ( tau _ < sigma_u> )). (Usar parametrização não centrada para sigma_u acelera o ajuste do modelo consideravelmente).


1.7E: Ajustando Modelos Lineares aos Dados (Exercícios) - Matemática

Para começar a ajustar uma regressão, coloque seus dados em uma forma esperada pelas funções de ajuste. Todas as técnicas de regressão começam com dados de entrada em uma matriz X e dados de resposta em um vetor y separado, ou dados de entrada em uma tabela ou matriz de conjunto de dados tbl e dados de resposta como uma coluna em tbl. Cada linha dos dados de entrada representa uma observação. Cada coluna representa um preditor (variável).

Para uma tabela ou matriz de conjunto de dados tbl, indique a variável de resposta com o par nome-valor 'ResponseVar':

A variável de resposta é a última coluna por padrão.

Você pode usar números categórico preditores. Um preditor categórico é aquele que obtém valores de um conjunto fixo de possibilidades.

Para uma matriz numérica X, indique os preditores categóricos usando o par nome-valor 'Categórico'. Por exemplo, para indicar que os preditores 2 e 3 de seis são categóricos:

Para uma tabela ou conjunto de dados tbl, as funções de ajuste pressupõem que esses tipos de dados são categóricos:

Se desejar indicar que um preditor numérico é categórico, use o par nome-valor 'Categórico'.

Representa os dados numéricos ausentes como NaN. Para representar dados ausentes para outros tipos de dados, consulte Valores de grupo ausentes.

Matriz de conjunto de dados para dados de entrada e resposta

Para criar uma matriz de conjunto de dados a partir de uma planilha Excel & # x00AE:

Para criar uma matriz de conjunto de dados a partir de variáveis ​​do espaço de trabalho:

Tabela para dados de entrada e resposta

Para criar uma tabela a partir de uma planilha do Excel:

Para criar uma tabela a partir de variáveis ​​do espaço de trabalho:

Matriz numérica para dados de entrada, vetor numérico para resposta

Por exemplo, para criar matrizes numéricas a partir de variáveis ​​do espaço de trabalho:

Para criar matrizes numéricas a partir de uma planilha do Excel:

Observe que as entradas não numéricas, como sexo, não aparecem em X.

Escolha um método de adaptação

Existem três maneiras de ajustar um modelo aos dados:

Ajuste de Mínimos Quadrados

Use fitlm para construir um ajuste de mínimos quadrados de um modelo aos dados. Este método é melhor quando você está razoavelmente certo da forma do modelo e principalmente precisa encontrar seus parâmetros. Este método também é útil quando você deseja explorar alguns modelos. O método requer que você examine os dados manualmente para descartar valores discrepantes, embora existam técnicas para ajudar (consulte Examinar a qualidade e ajustar o modelo ajustado).

Ajuste robusto

Use fitlm com o par nome-valor RobustOpts para criar um modelo que seja pouco afetado por outliers. O encaixe robusto evita o trabalho de descartar manualmente os valores discrepantes. No entanto, a etapa não funciona com encaixe robusto. Isso significa que, quando você usa um encaixe robusto, não pode procurar um bom modelo por etapas.

Stepwise Fit

Use stepwiselm para encontrar um modelo e ajustar os parâmetros ao modelo. stepwiselm começa a partir de um modelo, como uma constante, e adiciona ou subtrai os termos um de cada vez, escolhendo um termo ótimo a cada vez de maneira gananciosa, até que não possa melhorar mais. Use o ajuste gradual para encontrar um bom modelo, que possui apenas termos relevantes.

O resultado depende do modelo inicial. Normalmente, começar com um modelo constante leva a um modelo pequeno. Começar com mais termos pode levar a um modelo mais complexo, mas com erro quadrático médio inferior. Consulte Comparar modelos graduais grandes e pequenos.

Você não pode usar opções robustas junto com o ajuste gradual. Portanto, após um ajuste gradual, examine seu modelo em busca de valores discrepantes (consulte Examinar a qualidade e ajustar o modelo ajustado).

Escolha um modelo ou variedade de modelos

Existem várias maneiras de especificar um modelo para regressão linear. Use o que achar mais conveniente.

Para fitlm, a especificação do modelo fornecida é o modelo adequado. Se você não fornecer uma especificação de modelo, o padrão é 'linear'.

Para stepwiselm, a especificação do modelo que você fornece é o modelo inicial, que o procedimento passo a passo tenta melhorar. Se você não fornecer uma especificação de modelo, o modelo inicial padrão é 'constante' e o modelo de limite superior padrão é 'interações'. Altere o modelo de limite superior usando o par nome-valor superior.

Existem outras maneiras de selecionar modelos, como usar lasso, lassoglm, sequentialfs ou plsregress.

Breve Nome

NomeTipo de modelo
'constante' O modelo contém apenas um termo constante (interceptação).
'linear' O modelo contém uma interceptação e termos lineares para cada preditor.
'interações' O modelo contém uma interceptação, termos lineares e todos os produtos de pares de preditores distintos (sem termos quadrados).
'purquadrático' O modelo contém uma interceptação, termos lineares e termos quadrados.
'quadrático' O modelo contém uma interceptação, termos lineares, interações e termos quadrados.
'poli ijk ' O modelo é um polinômio com todos os termos até o grau eu no primeiro preditor, grau j no segundo preditor, etc. Use numerais de 0 a 9. Por exemplo, 'poly2111' tem uma constante mais todos os termos lineares e de produto e também contém termos com preditor 1 ao quadrado.

Por exemplo, para especificar um modelo de interação usando fitlm com preditores de matriz:

Para especificar um modelo usando stepwiselm e uma tabela ou matriz de conjunto de dados tbl de preditores, suponha que você deseja iniciar a partir de uma constante e ter um limite superior do modelo linear. Suponha que a variável de resposta em tbl esteja na terceira coluna.

Matriz de Termos

Uma matriz de termos T é um t-de-(p + 1) matriz especificando termos em um modelo, onde t é o número de termos, p é o número de variáveis ​​preditoras e +1 conta para a variável de resposta. O valor de T (i, j) é o expoente da variável j no termo i.

Por exemplo, suponha que uma entrada inclua três variáveis ​​preditoras x1, x2 e x3 e a variável de resposta y na ordem x1, x2, x3 e y. Cada linha de T representa um termo:

[0 0 0 0] & # 8212 Termo constante ou interceptar

[0 1 0 0] & # 8212 x2 equivalentemente, x1 ^ 0 * x2 ^ 1 * x3 ^ 0

O 0 no final de cada termo representa a variável de resposta. Em geral, um vetor coluna de zeros em uma matriz de termos representa a posição da variável de resposta. Se você tiver as variáveis ​​preditoras e de resposta em um vetor de matriz e coluna, deverá incluir 0 para a variável de resposta na última coluna de cada linha.

Fórmula

Uma fórmula para a especificação de um modelo é um vetor de caracteres ou escalar de string da forma


A1: Deixe denotar as vendas, denotar o número de unidades vendidas na TV, Rádio, Orçamentos de Jornais. Então, estamos tentando estimar, onde estão os coeficientes do modelo linear. A hipótese nula é vendas e não há relacionamento. A hipótese alternativa é que existe alguma relação entre vendas e. Os p-valores próximos a 1, indicam que a hipótese nula seja aceita / (não rejeitada?) E aqueles próximos a 0, indicam que a hipótese nula seja rejeitada. Portanto, vemos que existe alguma relação entre as vendas e os gastos com publicidade na TV e no rádio, mas não parece haver uma relação com a publicidade no jornal. Além disso, como os valores-p para todos os e Intercept são quase zero, podemos concluir que a resposta (Vendas) e as Despesas com publicidade em TV, rádio estão relacionadas.

A.2: Vamos primeiro descrever os dois métodos.

Vejamos primeiro o Classificador KNN. Primeiro fixamos um número k. Para classificar um ponto, olhamos para os k-vizinhos mais próximos de, vamos chamar essa vizinhança de as. Em seguida, estimamos a probabilidade condicional para a classe como a fração de pontos em N cujos valores de resposta são iguais a j:

Aplicando a regra de Bayes, classificamos o ponto para a classe j com maior probabilidade.

Agora, vamos dar uma olhada no Regressor KNN. Semelhante ao classificador KNN, identificamos k pontos, chamamos a vizinhança $ N $. Então, em vez de classificar um ponto para a classe com maior probabilidade, o que fazemos é atribuir o valor médio dos pontos em N à estimativa em x_0. Em outras palavras & # 8211

Assim, vemos que as principais diferenças são que o classificador classifica os pontos para a classe com maior probabilidade condicional na vizinhança K, onde como o regressor atribui a resposta média na vizinhança K como a estimativa no ponto dado.

A3. Nós temos .
(a) Se e se. Portanto, se $ X1 $ for grande o suficiente, os homens ganharão mais do que as mulheres em média. Portanto, (iii) é verdadeiro.
(b) Y (4,0,110,1) = 50 + 20 * 4 + 0,07 * 110 + 35 + 0,01 * 4 * 110-10 * 4 = 137,1 $
(c) Falso. Precisamos examinar os valores de p para concluir se a interação é estatisticamente significativa ou não.

A4. (a) Na regressão linear (polinomial), tentamos minimizar o RSS. Conforme aumentamos a ordem do polinômio, obtemos um melhor ajuste aos dados de treinamento, portanto, o RSS do modelo polinomial deve ser menor do que o do modelo linear.
(b) Não tenho certeza, mas devido ao ajuste excessivo dos dados de treinamento, podemos não ter um ajuste adequado aos dados de teste, portanto, o RSS do ajuste cúbico pode ser maior, embora não possamos ter certeza.
(c) Uma vez que estamos olhando para os dados de treinamento, aumentando a flexibilidade (polinômios de ordem superior), a cúbica se ajustará melhor aos dados de treinamento, conseqüentemente, terá RSS menor
(d) Hmm, não tenho certeza, mas acho que a resposta é a mesma que (b). Uma vez que o modelo verdadeiro pode estar mais próximo do linear ou do cúbico, isso afetará a resposta.

A.5 Observe que para fixo é constante. Então .

A.6 De (3.4), temos
e $ latex beta_0 = bar & # 8211 beta_1 bar .

Portanto, $ hat = beta_0 + beta_1 x_i = bar & # 8211 beta_1 bar + beta_1 x $. Substituindo $ x_i = bar


Continuando, o que é uma regressão linear simples?

Uma regressão linear é a abordagem de formar uma relação entre as variáveis ​​independentes e dependentes. The simplest situation you can encounter is when you are to examine a single predictor variable (independent variable x) for a certain response. In other words, you would want to check whether if a single action has any relationship to a certain response. This is called a simple linear regression.

The process is pretty straightforward. We will simply try to come up with a straight line that will best fit our data. At this point, you may feel like brushing up your high school maths. Don’t worry, I have got you covered.

Before we begin writing our algorithm, it is necessary for us to understand how is our algorithm able to figure out the equation for the straight line that will be the best fit just by looking into our data.

If you look at the diagram on the left, you can see something called the vertical offset, which is the difference between the actual data and the predicted straight line model.

Our algorithm takes the squared sum of all these vertical offsets, i.e differences, and comes up with the line for which this sum is the minimum. This is the crux of our algorithm.

In my previous article, I discussed the systematic steps of preprocessing the data for machine learning. I discussed why it is necessary and how you can split your data set into training set and test set. The data preprocessing template is available here for use.

Once you have the data ready, we will perform linear regression on our data set. We don’t have to perform the operation manually. The tedious task is made easy by a library called sklearn.linear_model, which has a class perfect for the job called LinearRegression. Obviamente!

If you remember from my previous article, the next step naturally is to create an object of that class to call the functions of that class. We will name our object regressor.

Now our regressor needs to train on our dataset. The training is also called em forma. We will feed our two training sets, X_train and y_train, as its parameter. (Please kindly refer to my previous article if this confuses you)

We are basically telling the machine to use the linear regression model and learn from our set of data points in our training sets. The machine is learning!

Now that our regressor object has learned from our training sets, we would want to examine how accurately it can predict new observations. Very simply, we will use a method called predict, available in the LinearRegression aula. As its parameter, we will feed the X_test so as to see how well it can predict the response for them (corresponding dependent variable Y). For now, let’s just call them y_pred.

This will give us a series of predicted data. Aqui, y_pred are the predicted values, while our y_test data are the actual values. We can compare both sets to evaluate how well or worse our model has performed.

We can then go on to transform our results into visual graphs. We will basically scatter plot our data and plot the best fit line. For this task, we will use the matplotlib library which is one of the most popular Python 2D plotting library.

We want a scatter plot, so will invoke the scatter método. Initially, we want to scatter plot our training sets — X_train and y_train. We may decide to represent them by the color blue.

In the midst of our scattered data, we want to plot, not scatter plot, our best fit line. On the same graph, the coordinates of the best fit line are the x-coordinates (X_train) and the corresponding predicted values. We had previously predicted the values for X_test. Simply by replacing X_test with X_train, we can find corresponding predicted values for it in similar manner. The code that follows is pretty self-explanatory:

We are basically telling to plot a line with X_train as x-coordinates and corresponding predicted values for each of the data points in X_train as y-coordinates. Let the best fit line be in red.

Now to just display the figure, we will use:

In the diagram above, the blue dots are the real values, while the data points in red are the predicted values. Blue dots above the red best fit line tells us that the actual value is higher than our predicted value, those lower tells us that the actual value is lower than our predicted value, and those that coincides with our best fit line have been accurately predicted by our model. It is based on these training set that our model (the best fit line) has trained. To figure out whether our model has fared well or not, we will draw another graph, this time we will keep the best fit line as it is, but scatter plot our test data (X_test) instead.

If more of the plots coincide with our best fit line or is considerably closer to it, it is fair to say that our model has performed well.

And just by that you will have created your own machine learning model. You have made your model train on the given dataset and find correlation between the independent and dependent variables, represented by the best fit line. The best fit line can then be used to make future predictions.


Worked example 4: Intuitive curve fitting

Examine the scatter plot below of data collected from a new shop:

  • What are the two variables being compared?
  • What type of function best fits the data?
  • Is the relationship between the two variables strong or weak?
  • Is the relationship between the two variables positive or negative?
  • Using your answers above, describe the relationship between the two variables in one sentence.
  • The variables being compared are average daily number of customers and time in months.
  • The data fit an exponential function.
  • The data points appear to fit the curve close to perfectly, so the relationship can be described as very strong.
  • As time increases, the number of customers increases, so the relationship can be described as positive.
  • There is a very strong, positive, exponential relationship between average daily customers and time in the new shop.

In the worked example above, by plotting the average daily customers and time data of a new shop on a scatter plot, we were able to identify the relationship between the two variables. Once we know the relationship between two variables, we are able to do another very useful thing - we are able to predict values where no data exist.

Interpolation and extrapolation

When we predict values that fall within the range of our data, this is known as interpolation. When we predict the values of a variable beyond the range of our data, this is known as extrapolation.

Extrapolation must be done with caution unless it is known that the observed relationship continues beyond the range of our data. For example, an exponential function may look linear if we only have the first few data points available but if we extrapolate far enough beyond the initial data points, our predictions will be inaccurate.

In order to interpolate or extrapolate values, we need to find the equation of the function which best fits the data. For linear data, we draw a straight line through the data which best approximates the available data points. This line is known as the line of best fit or trend line. Let us try our hand at this in the following example.