Artigos

7.1: Categorizando dados - Matemática


Depois de coletar os dados, podemos querer classificá-los. Grosso modo, os dados podem ser classificados como Dados categóricos ou Dados quantitativos.

Dados quantitativos e categóricos

  • Dados categóricos (qualitativos) são informações que nos permitem classificar os objetos sob investigação em várias categorias.
  • Dados quantitativos são respostas de natureza numérica e com as quais podemos realizar cálculos aritméticos significativos.

Exemplo 3

Podemos realizar uma pesquisa para determinar o nome do filme favorito que cada pessoa em uma aula de matemática viu no cinema.

Quando conduzimos essa pesquisa, as respostas seriam assim: Procurando Nemo, O Hulk, ou Terminator 3: Ascensão das Máquinas. Podemos contar o número de pessoas que dão cada resposta, mas as respostas em si não têm nenhum valor numérico: não podemos realizar cálculos com uma resposta como "Procurando Nemo. "Estes seriam dados categóricos.

Exemplo 4

Uma pesquisa pode perguntar o número de filmes que você viu no cinema nos últimos 12 meses (0, 1, 2, 3, 4, ...)

Isso seriam dados quantitativos.

Outros exemplos de dados quantitativos seriam o tempo de execução do filme que você viu mais recentemente (104 minutos, 137 minutos, 104 minutos, ...) ou a quantidade de dinheiro que você pagou por um ingresso de cinema na última vez que foi ao cinema teatro ($ 5,50, $ 7,75, $ 9, ...).

Às vezes, determinar se os dados são categóricos ou quantitativos pode ser um pouco mais complicado.

Exemplo 5

Suponha que reunamos os CEPs dos respondentes em uma pesquisa para rastrear sua localização geográfica.

CEPs são números, mas não podemos fazer cálculos matemáticos significativos com eles (não faz sentido dizer que 98036 é "duas vezes" 49018 - é como dizer que Lynnwood, WA é "duas vezes" Battle Creek, MI, o que não faz sentido algum), então os CEPs são dados realmente categóricos.

Exemplo 6

Uma pesquisa sobre o filme a que você assistiu mais recentemente inclui a pergunta "Como você classificaria o filme que acabou de assistir?" com estas respostas possíveis:

1 - foi horrível
2 - estava tudo bem
3 - gostei
4 - foi ótimo
5 - melhor filme de todos os tempos!

Novamente, há números associados às respostas, mas não podemos realmente fazer nenhum cálculo com eles: um filme que classifica 4 não é necessariamente duas vezes melhor que um filme que classifica 2, o que quer que isso signifique; se duas pessoas vêem o filme e uma delas acha que fede e a outra acha que é o melhor de todos, não faz sentido dizer que "na média eles gostaram".

Ao estudarmos os hábitos e preferências de ir ao cinema, não devemos esquecer de especificar a população em consideração. Se fizermos uma pesquisa com crianças de 3 a 7 anos, o favorito fugitivo pode ser Procurando Nemo. 13-17 anos podem preferir Terminator 3. E 33-37 anos de idade podem preferir ... bem, Procurando Nemo.

Experimente agora 3

Classifique cada medição como categórica ou quantitativa

  1. Cor dos olhos de um grupo de pessoas
  2. Alta temperatura diária de uma cidade ao longo de várias semanas
  3. Rendimento anual
Responder
  1. Categórico
  2. Quantitativo
  3. Quantitativo

7.1: Categorizando dados - Matemática

      • Condição da EducaçãoDigesto de Estatísticas de EducaçãoProjeções de Estatísticas de EducaçãoEstudos Tópicos
      • Programa de Avaliação Nacional do Progresso Educacional (NAEP) para a Avaliação Internacional de Competências de Adultos (PIAAC)
      • Programa de Atividades Internacionais (IAP)
      • Pesquisa Nacional de Educação Doméstica (NHES) do Early Childhood Longitudinal Study (ECLS)
      • Common Core of Data (CCD) Secundário Longitudinal Studies ProgramEducation Demographic and Geographic Estimates (EDGE) National Teacher and Principal Survey (NTPS) more.
      • Programa de estatísticas da biblioteca
      • Baccalaureate and Beyond (B & ampB) Carreira / Estatística de Educação Técnica (CTES) Sistema Integrado de Dados da Educação Pós-secundária (IPEDS) Estudo Nacional de Auxílio ao Estudante Pós-Secundário (NPSAS) mais.
      • Padrões Comuns de Dados Educacionais (CEDS) Fórum Nacional de Estatísticas Educacionais Programa de Concessão de Sistemas Longitudinais de Dados em todo o Estado - (SLDS) mais.
      • Treinamento em conjunto de dados de ensino à distância Programa de padrões estatísticos da Cooperativa Nacional de Educação Pós-secundária (NPEC )mais.
        • EDATDelta Cost ProjectIPEDS Data CenterComo se inscrever para a Licença de Uso Restrito
        • ASC-ED TablesData LabElementary Secondary Information SystemInternational Data Explorer
        • ACS DashboardCollege Navigator Escolas privadas Distritos escolares públicosEscolas públicasPesquise por escolas e faculdades
        • NAEP State Profiles (Nationsreportcard.gov) Public School District Finance Peer SearchEducation Finance Statistics CenterIPEDS Data Center
        • NAEP Question ToolNAAL Questions Tool
        • ACS-ED DashboardACS-ED MapsCollegeMapLocale LookupMapEdSAFEMapSchool and District Navigator
        • Inventário de dados bibliografiaED
        • AvaliaçõesEarly ChildhoodElementary and SecondaryLibraryPostsecondary and BeyondResources
        • NCES BlogO que há de novo no NCESConferências / treinamentoNotíciasFlashOportunidades de financiamento Comunicados à imprensaStatChat
        • Pesquisar publicações e produtosRelatórios anuais Licenças de dados de uso restrito
          Publicações recentesPor índice de assunto A-ZPela pesquisa e áreas do programa Produtos de dados dos últimos 6 meses
        • Sobre NCESCommissionerContact NCESStaffHelp
        Relatórios anuais e equipe de informações (relatórios anuais)

        Indicadores COE

        Características da Família
        Educação pré-primária, elementar e secundária
        Educação Pré-Primária (3)
        Matrícula Elementar e Secundária (6)
        Escolas e distritos (2)
        Crime e segurança escolar
        Mortes violentas (1)
        Vitimização não fatal de alunos e professores (3)
        Ambiente escolar (6)
        Lutas, armas e substâncias ilegais (4)
        Medo e evasão (2)
        Disciplina, segurança e práticas de proteção (3)
        Tecnologia (2)
        Professores e funcionários (6)
        Aprendizagem do Aluno
        Avaliações (8)
        Cursos (1)
        Persistência e conclusão do ensino médio (2)
        Finanças e governança (2)
        Educação pós-secundária
        Alunos de nível superior (7)
        Instituições (1)
        Crime e segurança no campus (2)
        Corpo Docente e Funcionários (1)
        Taxas de conclusão e graduação (5)
        Finanças e recursos (6)
        Características da População e Resultados Econômicos
        Características da população (2)
        Resultados econômicos (5)
        Comparações Internacionais
        Avaliações (3)
        Inscrição e realização (2)
        Finanças (1)
        Crime e segurança escolar
        Mortes violentas (1)
        Vitimização não fatal de alunos e professores & # xD & # xA (3)
        Ambiente escolar (6)
        Lutas, armas e substâncias ilegais (4)
        Medo e evasão (2)
        Disciplina, segurança e práticas de proteção (3)
        Crime e segurança no campus (2)
        Holofote
        2021 Holofotes (2)
        Arquivo Spotlight

        Sites relacionados

        Resumo da Condição da Educação
        Guia do leitor
        Guia para fontes
        Acesse o site da Avaliação Nacional do Progresso Educacional (NAEP)
        Tabelas resumidas
        Publicações e produtos de relatórios anuais
        Fatos rápidos

        6.8 Conjuntos de dados e distribuições

        Nesta unidade, os alunos aprendem sobre populações e variáveis ​​de estudo associadas a uma população. Eles entendem e usam os termos "dados numéricos", "dados categóricos", "pesquisa" (como substantivo e verbo), "questão estatística", "variabilidade", "distribuição" e "frequência". Eles fazem e interpretam histogramas, gráficos de barras, tabelas de frequências e diagramas de caixa. Eles descrevem as distribuições (mostradas em telas gráficas) usando termos como "simétrico", "picos", "lacunas" e "clusters". Eles trabalham com medidas de centro - entendendo e usando os termos "média", "média" e "mediana". Eles trabalham com medidas de variabilidade - compreendendo e usando os termos “intervalo”, “desvio médio absoluto” ou MAD, “quartil” e “intervalo interquartil” ou IQR. Eles interpretam medidas de centro e variabilidade em contextos.

        Lições

        Dados, variabilidade e questões estatísticas

        Gráficos de pontos e histogramas

        Medidas de Centro e Variabilidade

        Mediana e IQR

        Vamos colocar isso para funcionar

        IM 6–8 Math foi originalmente desenvolvido pela Open Up Resources e de autoria da Illustrative Mathematics®, e possui direitos autorais 2017-2019 da Open Up Resources. É licenciado sob a Licença Internacional Creative Commons Atribuição 4.0 (CC BY 4.0). O Currículo de Matemática 6–8 do NOSSO está disponível em https://openupresources.org/math-curriculum/.

        As adaptações e atualizações do IM 6–8 Math são copyright 2019 da Illustrative Mathematics e são licenciadas pela Creative Commons Atribuição 4.0 International License (CC BY 4.0).

        As adaptações para adicionar suporte adicional ao aluno do idioma inglês são copyright 2019 da Open Up Resources e estão licenciadas sob a Licença Creative Commons Atribuição 4.0 Internacional (CC BY 4.0).

        O segundo conjunto de avaliações de inglês (marcado como conjunto "B") é protegido por direitos autorais 2019 da Open Up Resources e está licenciado sob a Licença Internacional Creative Commons Atribuição 4.0 (CC BY 4.0).

        A tradução para o espanhol das avaliações "B" possui copyright 2020 da Illustrative Mathematics e está licenciada pela Creative Commons Atribuição 4.0 International License (CC BY 4.0).

        O nome e o logotipo da Illustrative Mathematics não estão sujeitos à licença Creative Commons e não podem ser usados ​​sem o consentimento prévio e expresso por escrito da Illustrative Mathematics.

        Este site inclui imagens de domínio público ou imagens licenciadas abertamente que são protegidas por direitos autorais de seus respectivos proprietários. As imagens com licença aberta permanecem sob os termos de suas respectivas licenças. Veja a seção de atribuição de imagem para mais informações.


        O modo de um conjunto de dados

        Problema: o número de pontos obtidos em uma série de jogos de futebol está listado abaixo. Qual pontuação ocorreu com mais frequência?

        Solução: ordenando as pontuações da menor para a maior, obtemos:

        Resposta: A pontuação que ocorre com mais frequência é 18.

        Este problema realmente nos pediu para encontrar o modo de um conjunto de 7 números.

        Definição: O modo de um conjunto de dados é o valor no conjunto que ocorre com mais frequência.

        No problema acima, 18 é o modo. É fácil lembrar a definição de um modo, pois contém a palavra a maioria iniciar. As palavras modo e a maioria ambos começam com as letras mo. Vejamos mais alguns exemplos.

        Exemplo 1: A seguir está o número de problemas que a Sra. Matty atribuiu para lição de casa em 10 dias diferentes. Qual é o modo?

        Solução: ordenando os dados do menor ao maior, obtemos:

        Exemplo 2: Em um teste de colisão, 11 carros foram testados para determinar qual velocidade de impacto era necessária para obter danos mínimos no pára-choque. Encontre o modo das velocidades fornecidas em milhas por hora abaixo.

        24, 15, 18, 20, 18, 22, 24, 26, 18, 26, 24

        Solução: ordenando os dados do menor para o maior, obtemos:

        15, 18, 18, 18, 20, 22, 24, 24, 24, 26, 26

        Resposta: Uma vez que 18 e 24 ocorrem três vezes, os modos são 18 e 24 milhas por hora. Este conjunto de dados é bimodal.

        Exemplo 3: Uma corrida de maratona foi concluída por 5 participantes. Qual é o modo desses tempos dados em horas?

        2,7 horas, 8,3 horas, 3,5 horas, 5,1 horas, 4,9 horas

        Solução: ordenando os dados do menor ao maior, obtemos:

        Resposta: Uma vez que cada valor ocorre apenas uma vez no conjunto de dados, há nenhum modo para este conjunto de dados.

        Exemplo 4: Em um dia frio de inverno em janeiro, a temperatura de 9 cidades norte-americanas é registrada em Fahrenheit. Qual é o modo dessas temperaturas?

        Ordenando os dados do menor ao maior, obtemos:

        Resposta: O modo dessas temperaturas é 0.

        Vamos comparar os resultados dos dois últimos exemplos. No Exemplo 3, cada valor ocorre apenas uma vez, portanto, não há modo. No Exemplo 4, o modo é 0, uma vez que 0 ocorre com mais frequência no conjunto. Não confunda um modo de 0 com nenhum modo.

        Resumo: modo de um conjunto de dados é o valor no conjunto que ocorre com mais frequência. Um conjunto de dados pode ser bimodal. Também é possível ter um conjunto de dados sem modo.

        Exercícios

        Instruções: Encontre o modo de cada conjunto de dados. Clique uma vez em uma CAIXA DE RESPOSTA, digite sua resposta e clique em ENTER. Depois de clicar em ENTER, uma mensagem aparecerá na CAIXA DE RESULTADOS para indicar se sua resposta está correta ou incorreta. Para recomeçar, clique em LIMPAR.


        O que é isso?

        A análise de dados é o processo de interpretação do significado dos dados que coletamos, organizamos e exibimos na forma de uma tabela, gráfico de barras, gráfico de linha ou outra representação. O processo envolve procurar padrões - semelhanças, disparidades, tendências e outros relacionamentos - e pensar sobre o que esses padrões podem significar.

        Ao analisar os dados, faça aos alunos perguntas como:

        O que este gráfico mostra a você?

        Quem pode usar esses dados? Como eles poderiam usar isso?

        Por que esses dados são mostrados em um gráfico de linha?

        O processo de coleta, organização e análise de dados nem sempre é um processo simples e sequencial, às vezes uma análise preliminar de um conjunto de dados pode nos levar a olhar para os dados de outra forma, ou mesmo voltar e coletar dados adicionais para testar um hipótese emergente. Por exemplo, os alunos podem pesquisar seus colegas de classe sobre como são transportados para a escola (por exemplo, de carro, ônibus, a pé ou de outra forma) e, em seguida, exibir os dados em um gráfico circular.

        Depois de analisar os dados neste gráfico, os alunos podem olhar para os dados de uma maneira diferente. Os alunos podem estar interessados ​​em saber mais sobre as pessoas que são transportadas para a escola de carro. Por que eles vão de carro para a escola? Eles estão em uma rota de ônibus? Eles fazem caronas com outros alunos? Eles estão perto o suficiente da escola para caminhar, mas preferem pedalar? A vizinhança entre a casa e a escola é perigosa demais para ser atravessada? As pessoas que às vezes andam também andam de carro? Eles podem descobrir que a maioria dos alunos na categoria "outra" vai de bicicleta para a escola e decidir criar uma categoria adicional.

        Em todas as séries, os alunos olham para exibições gráficas e as descrevem identificando aspectos como o maior valor, o menor valor e a relação de um ponto de dados para outro. Os alunos nas séries intermediárias aprendem a resumir ou caracterizar um conjunto de dados em maior profundidade, determinando o intervalo e duas medidas de centro, o modo e a mediana. Os alunos nas séries superiores aprendem a encontrar a terceira medida do centro, a média, e também a determinar quartis, identificar outliers e, para gráficos de dispersão, calcular uma linha ou curva de melhor ajuste e descrever qualquer correlação resultante. Os alunos do ensino médio devem ser capazes de planejar suas próprias investigações que incluam amostragem eficaz, dados representativos e uma interpretação imparcial dos resultados.

        Em cada série, você deve incentivar os alunos a pensar sobre o significado dos dados que coletaram e exibiram. A questão crucial é "Por quê?"

        Por que isso é importante?

        A capacidade de fazer inferências e previsões com base em dados é uma habilidade crítica que os alunos precisam desenvolver.

        A análise de dados é crucial para o desenvolvimento de teorias e novas ideias. Prestando muita atenção aos padrões, as histórias por trás dos valores discrepantes, as relações entre os conjuntos de dados e os fatores externos que podem ter afetado os dados, os alunos podem vir a ter uma compreensão mais profunda da distinção crucial entre teoria e evidência.


        Cálculo em Aprendizado de Máquina:

        Muitos alunos que não gostavam de aprender o cálculo que era ensinado na escola tomarão um grande choque, pois ele é parte integrante do aprendizado de máquina. Felizmente, você pode não precisar dominar o cálculo, é importante apenas aprender e compreender os princípios do cálculo. Além disso, você precisa entender as aplicações práticas do aprendizado de máquina por meio do cálculo durante a construção do modelo.

        Portanto, se você entender como a derivada da função retorna sua taxa de variação no cálculo, você será capaz de entender o conceito de gradiente descendente. Na descida de gradiente, precisamos encontrar os mínimos locais para uma função e assim por diante. Se acontecer de você ter pontos de sela ou múltiplos mínimos, uma descida gradiente pode descobrir um mínimo local e não um mínimo global, a menos que você comece a partir de vários pontos. Alguns dos tópicos necessários para dominar a parte do cálculo na ciência de dados são cálculo diferencial e integral, derivadas parciais, funções de valores vetoriais e gradientes direcionais.

        O cálculo multivariado é utilizado no treinamento do algoritmo, bem como na descida do gradiente. Derivadas, divergência, curvatura e aproximações quadráticas são conceitos importantes que você pode aprender e implementar.

        A matemática do aprendizado de máquina pode parecer intimidante para você agora, no entanto, você será capaz de entender os conceitos de cálculo necessários para construir um modelo de aprendizado de máquina bem-sucedido poucos dias após o aprendizado construtivo.


        Problemas divertidos de matemática para profissionais de aprendizado de máquina

        Isso faz parte de uma série que apresenta os seguintes aspectos do aprendizado de máquina:

        • Matemática, simulações, algoritmos de benchmarking baseados em dados sintéticos (em suma, ciência de dados experimentais)
        • Opiniões, por exemplo sobre o valor de um doutorado em nossa área, ou o uso de algumas técnicas
        • Analista de negócios
        • Técnicas Básicas

        Esta edição se concentra em problemas matemáticos interessantes que vêm com conjuntos de dados, código-fonte e algoritmos. Muitos têm um sabor estatístico, probabilístico ou experimental, e alguns lidam com sistemas dinâmicos. Eles podem ser usados ​​para ampliar seu conhecimento de matemática, praticar suas habilidades de aprendizado de máquina em problemas originais ou por curiosidade. Meus artigos, postados na Data Science Central, são sempre escritos em inglês simples e acessíveis a profissionais com normalmente um ano de treinamento em cálculo ou estatística, em nível de graduação. Eles são voltados para pessoas que usam dados, mas são interessantes em obter experiência analítica mais prática. O estilo é compacto, voltado para pessoas que não têm muito tempo livre.

        Apesar dessas restrições, os resultados mais avançados e inovadores, bem como os segredos comerciais do aprendizado de máquina e o material de pesquisa são compartilhados com frequência. Referências à literatura mais avançada (minhas e de outros autores) são fornecidas para aqueles que desejam se aprofundar nos tópicos de interesse discutidos.

        1. Problemas divertidos de matemática para praticantes de aprendizado de máquina

        Esses artigos enfocam técnicas que têm amplas aplicações ou que, de outra forma, são fundamentais ou seminais por natureza.

        2. Livros grátis

          Estatísticas: novas bases, caixa de ferramentas e receitas de aprendizado de máquina

        Disponivel aqui. Em cerca de 300 páginas e 28 capítulos, cobre muitos novos tópicos, oferecendo uma nova perspectiva sobre o assunto, incluindo regras práticas e receitas que são fáceis de automatizar ou integrar em sistemas de caixa preta, bem como novos modelos livres de dados fundamentos direcionados à ciência estatística e análise preditiva. A abordagem concentra-se em técnicas robustas - é de baixo para cima (dos aplicativos à teoria), em contraste com a abordagem tradicional de cima para baixo.

        O material é acessível a profissionais com experiência de um ano de nível universitário em estatísticas e probabilidade. O estilo compacto e tutorial, apresentando muitos aplicativos com inúmeras ilustrações, é voltado para profissionais, pesquisadores e executivos em vários campos quantitativos.

        Disponivel aqui. Título completo: Processos estocásticos aplicados, modelagem do caos e propriedades probabilísticas de sistemas de numeração (104 páginas, 16 capítulos.) Este livro é destinado a profissionais em ciência de dados, ciência da computação, pesquisa operacional, estatística, aprendizado de máquina, big data e matemática . Em 100 páginas, cobre muitos novos tópicos, oferecendo uma nova perspectiva sobre o assunto.

        É acessível a profissionais com experiência de nível universitário de dois anos em estatísticas e probabilidade. O estilo compacto e tutorial, apresentando muitos aplicativos (Blockchain, algoritmos quânticos, HPC, geração de números aleatórios, criptografia, Fintech, rastreamento da web, testes estatísticos) com inúmeras ilustrações, é direcionado a profissionais, pesquisadores e executivos em vários campos quantitativos.

        Para receber um resumo semanal dos nossos novos artigos, subscreva a nossa newsletter, aqui.


        Para a sua informação

        • Ao contrário da leitura em que o PRF é um indicador geral das habilidades de leitura de um aluno, não há nenhum indicador geral das habilidades de matemática de um aluno.
        • Na ausência de medidas de monitoramento de progresso adequadas ou amostras de trabalho, o National Center on Intensive Intervention fornece informações sobre maneiras de avaliar as habilidades matemáticas de um aluno: contagem, fatos básicos, conceitos de valor posicional, cálculo de número inteiro e frações como números.

        Depois de marcar os erros, é importante analisá-los mais detalhadamente para ajudar a identificar quais tipos de erros foram cometidos. Vários dos erros mais comuns que os alunos cometem com cálculos matemáticos podem ser encontrados na tabela abaixo.

        Tipos comuns de erros de computação
        Tipo de Erro Exemplo
        Não domina fatos básicos sobre números: O aluno não conhece fatos básicos sobre adição, subtração, multiplicação e divisão. O aluno não é fluente em fatos básicos de números.
        Incompreensão do valor local: O aluno registra a resposta de forma que os números não fiquem na coluna apropriada. O aluno não entende o valor posicional. O aluno somou todos os números juntos como no primeiro exemplo ou registrou a resposta com os números invertidos como no segundo exemplo.
        Incompreensão de reagrupamento: O aluno não se reagrupa ou aplica mal as estratégias de reagrupamento. No primeiro exemplo, o aluno adicionou 8 + 3 corretamente, mas não & # 8217t reagrupou & # 82201 & # 8221 à coluna das dezenas. No segundo exemplo, o aluno adicionou da esquerda para a direita ou não & # 8217t reagrupou & # 82201 & # 8221 na coluna das dezenas, mas escreveu & # 822011. & # 8221
        Não reagrupando com 0: Quando um problema contém um ou mais 0 & # 8217s no número superior (minuendo), o aluno não tem certeza do que fazer. O aluno subtrai 0 de 3 em vez de pedir emprestado.
        Executando operação incorreta: Os alunos geralmente subtraem quando deveriam adicionar ou vice-versa. No entanto, os alunos também podem realizar outras operações incorretas, como multiplicar em vez de somar. No primeiro exemplo, o aluno adicionou em vez de subtrair. No segundo exemplo, o aluno multiplicou em vez de somar.
        Subtraindo o menor número do maior: Independentemente da colocação, o aluno sempre subtrai o menor do maior número. Em cada coluna, o aluno subtraiu o menor número do maior.
        Adicionando e subtraindo frações: O aluno não consegue encontrar o denominador comum ao adicionar ou subtrair frações. O aluno adiciona os numeradores e depois os denominadores sem encontrar o denominador comum.
        Dividindo Frações: O aluno não inverte a segunda fração (use o recíproco) e se multiplica. O aluno não inverteu 2 em ½ antes de multiplicar para obter a resposta correta de ¼.
        Não alinhando decimais ao adicionar ou subtrair: O aluno alinha os números independentemente de onde o decimal está localizado. O aluno justificou os números à direita sem alinhar os decimais. O aluno não tem um bom entendimento do valor posicional.
        Não colocar o decimal no local apropriado ao multiplicar ou dividir: O aluno não conta o número correto de casas decimais na resposta final. Tal como acontece com a adição ou subtração, o aluno reduziu a casa decimal em vez de contar o número de dígitos à direita das casas decimais.

        Tipos comuns de erros computacionais

        • O exemplo é 7 mais 4, que o aluno respondeu incorretamente com 13.
        • O primeiro exemplo é 28 mais 9. A resposta do aluno, 19, está incorreta. O segundo exemplo é 10 mais 9. A resposta do aluno, 91, também está incorreta.
        • O primeiro exemplo é 23 mais 78. A resposta do aluno, 91, está incorreta. O segundo exemplo é 34 mais 57. O aluno responde incorretamente 811.
        • O exemplo é 102 menos 31. O aluno responde incorretamente 131.
        • O primeiro exemplo é 234 menos 45, que o aluno responde incorretamente como 279. O segundo exemplo é 3 mais 2. A resposta do aluno, 6, está incorreta.
        • O exemplo é 321 mais 245. O aluno responde incorretamente com 124.
        • O exemplo é ¾ mais 1/3, que o aluno responde como 4/7.
        • A equação no exemplo é ½ dividido por 2 igual a ½ vezes 2/1 igual a 2/2 igual a 1.
        • O exemplo é 6,45 mais 72,1, que o aluno respondeu incorretamente como 137,5.
        • O exemplo é 7,2 vezes 0,3. A resposta do aluno, 21.6, está incorreta.

        Agora que você revisou vários tipos de erros matemáticos comuns, vamos revisar a planilha de Cole & # 8217s acima. Clique aqui para ver a planilha.

        Observe que os únicos problemas que Cole respondeu incorretamente foram problemas de subtração. Ao analisarmos esses problemas, parece que ele sempre subtrai o número menor do número maior, independentemente de o número menor estar na parte superior (minuendo) ou na parte inferior (subtraendo). Os três primeiros problemas que ele respondeu incorretamente estão descritos na tabela abaixo.

        Na coluna de um, Cole subtraiu 7 de 9, em vez de subtrair 9 de 7. Como ele não pegou emprestado, o dígito da coluna de 10 também está incorreto.

        Problemas analisados ​​da planilha de Cole

        • O problema é 47 menos 39. Cole respondeu 12.
        • O problema é 154 menos 80. Cole respondeu 134.
        • O problema é 406 menos 295. Cole respondeu 291.

        Os professores também podem realizar uma análise de erros para problemas de álgebra. Clique aqui para ver Análise Sistemática dos Erros dos Alunos, uma ferramenta que os professores podem usar para identificar os tipos de erros que os alunos cometem de forma consistente ao resolver problemas de álgebra.


        Conteúdo

        Edição de intuição

        A premissa subjacente ao TDA é que a forma é importante. Os dados reais em dimensões altas são quase sempre esparsos e tendem a ter recursos dimensionais baixos relevantes. Uma das tarefas do TDA é fornecer uma caracterização precisa desse fato. Um exemplo ilustrativo é um sistema presa-predador simples governado pelas equações Lotka-Volterra. [1] Pode-se observar facilmente que a trajetória do sistema forma um círculo fechado no espaço de estados. O TDA fornece ferramentas para detectar e quantificar esse movimento recorrente. [2]

        Muitos algoritmos para análise de dados, incluindo aqueles usados ​​no TDA, requerem a escolha de vários parâmetros. Sem conhecimento prévio do domínio, a coleção correta de parâmetros para um conjunto de dados é difícil de escolher. O principal insight da homologia persistente é que podemos usar as informações obtidas de todos os valores de um parâmetro. É claro que esse insight sozinho é fácil de fazer, a parte difícil é codificar essa enorme quantidade de informações em uma forma compreensível e fácil de representar. Com o TDA, existe uma interpretação matemática quando a informação é um grupo de homologia. Em geral, a suposição é que os recursos que persistem para uma ampla gama de parâmetros são recursos "verdadeiros". As características que persistem apenas para uma faixa estreita de parâmetros são consideradas ruído, embora a justificativa teórica para isso não seja clara. [3]

        Editar história primitiva

        Os precursores do conceito completo de homologia persistente apareceram gradualmente com o tempo. [4] Em 1990, Patrizio Frosini introduziu a função de tamanho, que é equivalente à 0ª homologia persistente. [5] Quase uma década depois, Vanessa Robins estudou as imagens de homomorfismos induzidos pela inclusão. [6] Finalmente, logo depois disso, Edelsbrunner et al. introduziu o conceito de homologia persistente juntamente com um algoritmo eficiente e sua visualização como um diagrama de persistência. [7] Carlsson et al. reformulou a definição inicial e deu um método de visualização equivalente denominado código de barras de persistência, [8] interpretando a persistência na linguagem da álgebra comutativa. [9]

        Na topologia algébrica, a homologia persistente surgiu por meio do trabalho de Sergey Barannikov na teoria de Morse. O conjunto de valores críticos da função de Morse suave foi canonicamente particionado em pares "nascimento-morte", os complexos filtrados foram classificados, seus invariantes, equivalentes ao diagrama de persistência e códigos de barras de persistência, juntamente com o algoritmo eficiente para seu cálculo, foram descritos sob o nome de formas canônicas em 1994 por Barannikov. [10] [11]

        Edição de Conceitos

        Alguns conceitos amplamente utilizados são apresentados a seguir. Observe que algumas definições podem variar de autor para autor.

        UMA Nuvem é frequentemente definido como um conjunto finito de pontos em algum espaço euclidiano, mas pode ser considerado qualquer espaço métrico finito.

        O Complexo Čech de uma nuvem de pontos é o nervo do cobrir de bolas de raio fixo em torno de cada ponto da nuvem.

        Edição de propriedade básica

        Teorema da estrutura Editar

        O primeiro teorema de classificação para homologia persistente apareceu em 1994 [10] através das formas canônicas de Barannikov. O teorema de classificação que interpreta a persistência na linguagem da álgebra comutativa apareceu em 2005: [9] para um módulo de persistência finitamente gerado C < displaystyle C> com coeficientes de campo F < displaystyle F>,

        A homologia persistente é visualizada por meio de um código de barras ou diagrama de persistência. O código de barras tem sua raiz na matemática abstrata. Ou seja, a categoria de complexos filtrados finitos sobre um campo é semi-simples. Qualquer complexo filtrado é isomórfico à sua forma canônica, uma soma direta de complexos filtrados simples uni e bidimensionais.

        Edição de estabilidade

        Edição de fluxo de trabalho

        O fluxo de trabalho básico no TDA é: [16]

        O primeiro algoritmo sobre todos os campos para homologia persistente em configuração de topologia algébrica foi descrito por Barannikov [10] através da redução à forma canônica por matrizes triangulares superiores. O primeiro algoritmo para homologia persistente sobre F 2 < displaystyle F_ <2>> foi fornecido por Edelsbrunner et al. [7] Zomorodian e Carlsson forneceram o primeiro algoritmo prático para calcular a homologia persistente em todos os campos. [9] O livro de Edelsbrunner e Harer fornece orientação geral sobre topologia computacional. [18]

        Um problema que surge na computação é a escolha do complexo. O complexo Čech e o complexo Vietoris – Rips são mais naturais à primeira vista, no entanto, seu tamanho cresce rapidamente com o número de pontos de dados. O complexo Vietoris – Rips é preferível ao complexo Čech porque sua definição é mais simples e o complexo Čech requer esforço extra para ser definido em um espaço métrico finito geral. Formas eficientes de reduzir o custo computacional da homologia foram estudadas. Por exemplo, o complexo α e o complexo testemunha são usados ​​para reduzir a dimensão e o tamanho dos complexos. [19]

        Recentemente, a teoria de Morse discreta mostrou-se promissora para a homologia computacional porque pode reduzir um dado complexo simplicial a um complexo celular muito menor que é homotópico ao original. [20] Esta redução pode de fato ser realizada conforme o complexo é construído usando a teoria matróide, levando a aumentos de desempenho adicionais. [21] Outro algoritmo recente economiza tempo ao ignorar as classes de homologia com baixa persistência. [22]

        Vários pacotes de software estão disponíveis, como javaPlex, Dionysus, Perseus, PHAT, DIPHA, GUDHI, Ripser e TDAstats. Uma comparação entre essas ferramentas é feita por Otter et al. [23] Giotto-tda é um pacote Python dedicado a integrar o TDA no fluxo de trabalho de aprendizado de máquina por meio de uma API scikit-learn. Um pacote R TDA é capaz de calcular conceitos recentemente inventados, como paisagem e o estimador de distância do kernel. [24] O Topology ToolKit é especializado para dados contínuos definidos em variedades de baixa dimensão (1, 2 ou 3), como normalmente encontrado na visualização científica. Outro pacote R, TDAstats, implementa a biblioteca Ripser para calcular a homologia persistente. [25]

        Os dados de alta dimensão são impossíveis de visualizar diretamente. Muitos métodos foram inventados para extrair uma estrutura de baixa dimensão do conjunto de dados, como análise de componente principal e escalonamento multidimensional. [26] No entanto, é importante notar que o problema em si é mal colocado, uma vez que muitas características topológicas diferentes podem ser encontradas no mesmo conjunto de dados. Thus, the study of visualization of high-dimensional spaces is of central importance to TDA, although it does not necessarily involve the use of persistent homology. However, recent attempts have been made to use persistent homology in data visualization. [27]

        Carlsson et al. have proposed a general method called MAPPER. [28] It inherits the idea of Serre that a covering preserves homotopy. [29] A generalized formulation of MAPPER is as follows:

        This is not quite the original definition. [28] Carlsson et al. choose Z to be R > or R 2 ^<2>> , and cover it with open sets such that at most two intersect. [3] This restriction means that the output is in the form of a complex network. Because the topology of a finite point cloud is trivial, clustering methods (such as single linkage) are used to produce the analogue of connected sets in the preimage f − 1 ( U ) (U)> when MAPPER is applied to actual data.

        Three successful applications of MAPPER can be found in Carlsson et al. [33] A comment on the applications in this paper by J. Curry is that "a common feature of interest in applications is the presence of flares or tendrils." [34]

        A free implementation of MAPPER is available online written by Daniel Müllner and Aravindakshan Babu. MAPPER also forms the basis of Ayasdi's AI platform.

        Multidimensional persistence Edit

        Multidimensional persistence is important to TDA. The concept arises in both theory and practice. The first investigation of multidimensional persistence was early in the development of TDA, [35] . Carlsson-Zomorodian introduced the theory of multidimensional persistence in [36] and in collaboration with Singh [37] introduced the use of tools from symbolic algebra (Grobner basis methods) to compute MPH modules. Their definition presents multidimensional persistence with n parameters as a Z^n graded module over a polynomial ring in n variables. Tools from commutative and homological algebra are applied to the study of multidimensional persistence in work of Harrington-Otter-Schenck-Tillman. [38] The first application to appear in the literature is a method for shape comparison, similar to the invention of TDA. [39]

        The definition of an n-dimensional persistence module in R n ^> is [34]

        It might be worth noting that there are controversies on the definition of multidimensional persistence. [34]

        One of the advantages of one-dimensional persistence is its representability by a diagram or barcode. However, discrete complete invariants of multidimensional persistence modules do not exist. [40] The main reason for this is that the structure of the collection of indecomposables is extremely complicated by Gabriel's theorem in the theory of quiver representations, [41] although a finitely n-dim persistence module can be uniquely decomposed into a direct sum of indecomposables due to the Krull-Schmidt theorem. [42]

        Some basic properties include monotonicity and diagonal jump. [43] Persistent Betti numbers will be finite if X is a compact and locally contractible subspace of R n ^> . [44]

        Persistent space, a generalization of persistent diagram, is defined as the multiset of all points with multiplicity larger than 0 and the diagonal. [48] It provides a stable and complete representation of PBNs. An ongoing work by Carlsson et al. is trying to give geometric interpretation of persistent homology, which might provide insights on how to combine machine learning theory with topological data analysis. [49]

        The first practical algorithm to compute multidimensional persistence was invented very early. [50] After then, many other algorithms have been proposed, based on such concepts as discrete morse theory [51] and finite sample estimating. [52]

        Other persistences Edit

        The standard paradigm in TDA is often referred as sublevel persistence. Apart from multidimensional persistence, many works have been done to extend this special case.

        Zigzag persistence Edit

        The nonzero maps in persistence module are restricted by the preorder relationship in the category. However, mathematicians have found that the unanimity of direction is not essential to many results. "The philosophical point is that the decomposition theory of graph representations is somewhat independent of the orientation of the graph edges". [53] Zigzag persistence is important to the theoretical side. The examples given in Carlsson's review paper to illustrate the importance of functorality all share some of its features. [3]

        Extended persistence and levelset persistence Edit

        Some attempts is to lose the stricter restriction of the function. [54] Please refer to the Categorification and cosheaves and Impact on mathematics sections for more information.

        It's natural to extend persistence homology to other basic concepts in algebraic topology, such as cohomology and relative homology/cohomology. [55] An interesting application is the computation of circular coordinates for a data set via the first persistent cohomology group. [56]

        Circular persistence Edit

        Normal persistence homology studies real-valued functions. The circle-valued map might be useful, "persistence theory for circle-valued maps promises to play the role for some vector fields as does the standard persistence theory for scalar fields", as commented in D. Burghelea et al. [57] The main difference is that Jordan cells (very similar in format to the Jordan blocks in linear algebra) are nontrivial in circle-valued functions, which would be zero in real-valued case, and combining with barcodes give the invariants of a tame map, under moderate conditions. [57]

        Two techniques they use are Morse-Novikov theory [58] and graph representation theory. [59] More recent results can be found in D. Burghelea et al. [60] For example, the tameness requirement can be replaced by the much weaker condition, continuous.

        Persistence with torsion Edit

        The proof of the structure theorem relies on the base domain being field, so not many attempts have been made on persistence homology with torsion. Frosini defined a pseudometric on this specific module and proved its stability. [61] One of its novelty is that it doesn't depend on some classification theory to define the metric. [62]

        Categorification and cosheaves Edit

        One advantage of category theory is its ability to lift concrete results to a higher level, showing relationships between seemingly unconnected objects. Bubenik et al. [63] offers a short introduction of category theory fitted for TDA.

        Category theory is the language of modern algebra, and has been widely used in the study of algebraic geometry and topology. It has been noted that "the key observation of [9] is that the persistence diagram produced by [7] depends only on the algebraic structure carried by this diagram." [64] The use of category theory in TDA has proved to be fruitful. [63] [64]

        One advantage of using category theory in TDA is a clearer understanding of concepts and the discovery of new relationships between proofs. Take two examples for illustration. The understanding of the correspondence between interleaving and matching is of huge importance, since matching has been the method used in the beginning (modified from Morse theory). A summary of works can be found in Vin de Silva et al. [65] Many theorems can be proved much more easily in a more intuitive setting. [62] Another example is the relationship between the construction of different complexes from point clouds. It has long been noticed that Čech and Vietoris-Rips complexes are related. Specifically, V r ( X ) ⊂ C 2 r ( X ) ⊂ V 2 r ( X ) (X)subset C_<>r>(X)subset V_<2r>(X)> . [66] The essential relationship between Cech and Rips complexes can be seen much more clearly in categorical language. [65]

        The language of category theory also helps cast results in terms recognizable to the broader mathematical community. Bottleneck distance is widely used in TDA because of the results on stability with respect to the bottleneck distance. [12] [15] In fact, the interleaving distance is the terminal object in a poset category of stable metrics on multidimensional persistence modules in a prime field. [62] [67]

        Sheaves, a central concept in modern algebraic geometry, are intrinsically related to category theory. Roughly speaking, sheaves are the mathematical tool for understanding how local information determines global information. Justin Curry regards level set persistence as the study of fibers of continuous functions. The objects that he studies are very similar to those by MAPPER, but with sheaf theory as the theoretical foundation. [34] Although no breakthrough in the theory of TDA has yet used sheaf theory, it is promising since there are many beautiful theorems in algebraic geometry relating to sheaf theory. For example, a natural theoretical question is whether different filtration methods result in the same output. [68]

        Stability Edit

        Stability is of central importance to data analysis, since real data carry noises. By usage of category theory, Bubenik et al. have distinguished between soft and hard stability theorems, and proved that soft cases are formal. [64] Specifically, general workflow of TDA is

        The soft stability theorem asserts that H F is Lipschitz continuous, and the hard stability theorem asserts that J is Lipschitz continuous.

        These two results summarize many results on stability of different models of persistence.

        For the stability theorem of multidimensional persistence, please refer to the subsection of persistence.

        Structure theorem Edit

        The structure theorem is of central importance to TDA as commented by G. Carlsson, "what makes homology useful as a discriminator between topological spaces is the fact that there is a classification theorem for finitely generated abelian groups." [3] (see the fundamental theorem of finitely generated abelian groups).

        The main argument used in the proof of the original structure theorem is the standard structure theorem for finitely generated modules over a principal ideal domain. [9] However, this argument fails if the indexing set is ( R , ≤ ) ,leq )> . [3]

        In general, not every persistence module can be decomposed into intervals. [70] Many attempts have been made at relaxing the restrictions of the original structure theorem. [ esclarecimento necessário ] The case for pointwise finite-dimensional persistence modules indexed by a locally finite subset of R > is solved based on the work of Webb. [71] The most notable result is done by Crawley-Boevey, which solved the case of R >. Crawley-Boevey's theorem states that any pointwise finite-dimensional persistence module is a direct sum of interval modules. [72]

        Although the result of Crawley-Boevey is a very powerful theorem, it still doesn't extend to the q-tame case. [70] A persistence module is q-tame if the rank of ρ s t ^> is finite for all s < t . There are examples of q-tame persistence modules that fail to be pointwise finite. [74] However, it turns out that a similar structure theorem still holds if the features that exist only at one index value are removed. [73] This holds because the infinite dimensional parts at each index value do not persist, due to the finite-rank condition. [75] Formally, the observable category O b > is defined as P e r s / E p h /mathrm > , in which E p h > denotes the full subcategory of P e r s > whose objects are the ephemeral modules ( ρ s t = 0 ^=0> whenever s < t ). [73]

        Note that the extended results listed here do not apply to zigzag persistence, since the analogue of a zigzag persistence module over R > is not immediately obvious.

        Statistics Edit

        Real data is always finite, and so its study requires us to take stochasticity into account. Statistical analysis gives us the ability to separate true features of the data from artifacts introduced by random noise. Persistent homology has no inherent mechanism to distinguish between low-probability features and high-probability features.

        One way to apply statistics to topological data analysis is to study the statistical properties of topological features of point clouds. The study of random simplicial complexes offers some insight into statistical topology. K. Turner et al. [76] offers a summary of work in this vein.

        A third way is to consider the cohomology of probabilistic space or statistical systems directly, called information structures and basically consisting in the triple ( Ω , Π , P ), sample space, random variables and probability laws. [82] [83] Random variables are considered as partitions of the n atomic probabilities (seen as a probability (n-1)-simplex, | Ω | = n ) on the lattice of partitions ( Π n > ). The random variables or modules of measurable functions provide the cochain complexes while the coboundary is considered as the general homological algebra first discovered by Hochschild with a left action implementing the action of conditioning. The first cocycle condition corresponds to the chain rule of entropy, allowing to derive uniquely up to the multiplicative constant, Shannon entropy as the first cohomology class. The consideration of a deformed left-action generalises the framework to Tsallis entropies. The information cohomology is an example of ringed topos. Multivariate k-Mutual information appear in coboundaries expressions, and their vanishing, related to cocycle condition, gives equivalent conditions for statistical independence. [84] Minima of mutual-informations, also called synergy, give rise to interesting independence configurations analog to homotopical links. Because of its combinatorial complexity, only the simplicial subcase of the cohomology and of information structure has been investigated on data. Applied to data, those cohomological tools quantifies statistical dependences and independences, including Markov chains and conditional independence, in the multivariate case. [85] Notably, mutual-informations generalize correlation coefficient and covariance to non-linear statistical dependences. These approaches were developed independently and only indirectly related to persistence methods, but may be roughly understood in the simplicial case using Hu Kuo Tin Theorem that establishes one-to-one correspondence between mutual-informations functions and finite measurable function of a set with intersection operator, to construct the Čech complex skeleton. Information cohomology offers some direct interpretation and application in terms of neuroscience (neural assembly theory and qualitative cognition [86] ), statistical physic, and deep neural network for which the structure and learning algorithm are imposed by the complex of random variables and the information chain rule. [87]

        Classification of applications Edit

        More than one way exists to classify the applications of TDA. Perhaps the most natural way is by field. A very incomplete list of successful applications includes [91] data skeletonization, [92] shape study, [93] graph reconstruction, [94] [95] [96] [97] [98] image analysis, [99] [100] material, [101] progression analysis of disease, [102] [103] sensor network, [66] signal analysis, [104] cosmic web, [105] complex network, [106] [107] [108] [109] fractal geometry, [110] viral evolution, [111] propagation of contagions on networks , [112] bacteria classification using molecular spectroscopy, [113] hyperspectral imaging in physical-chemistry [114] and remote sensing. [115]

        Another way is by distinguishing the techniques by G. Carlsson, [77]

        one being the study of homological invariants of data one individual data sets, and the other is the use of homological invariants in the study of databases where the data points themselves have geometric structure.

        Characteristics of TDA in applications Edit

        There are several notable interesting features of the recent applications of TDA:

        1. Combining tools from several branches of mathematics. Besides the obvious need for algebra and topology, partial differential equations, [116] algebraic geometry, [40] representation theory, [53] statistics, combinatorics, and Riemannian geometry [75] have all found use in TDA.
        2. Quantitative analysis. Topology is considered to be very soft since many concepts are invariant under homotopy. However, persistent topology is able to record the birth (appearance) and death (disappearance) of topological features, thus extra geometric information is embedded in it. One evidence in theory is a partially positive result on the uniqueness of reconstruction of curves [117] two in application are on the quantitative analysis of Fullerene stability and quantitative analysis of self-similarity, separately. [110][118]
        3. The role of short persistence. Short persistence has also been found to be useful, despite the common belief that noise is the cause of the phenomena. [119] This is interesting to the mathematical theory.

        One of the main fields of data analysis today is machine learning. Some examples of machine learning in TDA can be found in Adcock et al. [120] A conference is dedicated to the link between TDA and machine learning. In order to apply tools from machine learning, the information obtained from TDA should be represented in vector form. An ongoing and promising attempt is the persistence landscape discussed above. Another attempt uses the concept of persistence images. [121] However, one problem of this method is the loss of stability, since the hard stability theorem depends on the barcode representation.

        Impact on mathematics Edit

        Topological data analysis and persistent homology have had impacts on Morse theory. Morse theory has played a very important role in the theory of TDA, including on computation. Some work in persistent homology has extended results about Morse functions to tame functions or, even to continuous functions. A forgotten result of R. Deheuvels long before the invention of persistent homology extends Morse theory to all continuous functions. [122]

        One recent result is that the category of Reeb graphs is equivalent to a particular class of cosheaf. [123] This is motivated by theoretical work in TDA, since the Reeb graph is related to Morse theory and MAPPER is derived from it. The proof of this theorem relies on the interleaving distance.

        Persistent homology is closely related to spectral sequences. [124] [125] In particular the algorithm bringing a filtered complex to its canonical form [10] permits much faster calculation of spectral sequences than the standard procedure of calculating E p , q r ^> groups page by page. Zigzag persistence may turn out to be of theoretical importance to spectral sequences.


        Assista o vídeo: Creating a Boxplot in Excel 2016 (Outubro 2021).