AVALIAÇÕES – PARTE III: TCT – TEORIA CLÁSSICA DOS TESTES I

Olá, pessoal. Como mencionado na semana passada, nesta publicação gostaria de falar de modo um pouco mais detalhado e técnico sobre uma das modelagens estatísticas usadas na elaboração e análise de testes padronizados, a Teoria Clássica dos Testes (TCT). Basicamente, a TCT (também conhecida como análise clássica) visa, através de seus parâmetros descritivos, fornecer ao avaliador informações para determinar a qualidade dos itens/questões da prova, quantificando a capacidade de cada item em diagnosticar proficiência discente na habilidade avaliada. Ou seja, ela é uma ferramenta que ajuda o professor a analisar se as questões que usou (ou pretende usar) foram bem elaboradas para a finalidade desejada e, quando se mostrarem falhas, o que especificamente precisa ser corrigido (nível de dificuldade ou reelaboração de alguma alternativa, etc). Além disso, pode ajudar o avaliador a planejar ações de recuperação direcionadas para cada grupo ou aluno individualmente.

TCT5

A ideia hoje é oferecer alguns detalhes importantes sobre os parâmetros descritivos da TCT e como interpretá-los, mas vou me policiar para não ficar técnico demais (com muitas equações), assim, caso alguém queira mais detalhes sobre a construção matemática de cada parâmetro, basta acessar as referências que estudei, são bem completas, descritivas e detalhadas nesse sentido. Foram basicamente 4 fontes bibliográficas: 1 artigo (de 2012), 1 livro (de 2013) e 2 dissertações de mestrado (de 2015 e 2018) que deixarei linkados no final do texto para consulta.

Em uma contextualizada rápida, o início do desenvolvimento da TCT data do final do século XIX e início do século XX e sua construção matemática vem evoluindo desde então. Como já informei no texto anterior, essas modelagens têm diversas variações segundo os parâmetros estatísticos e a dimensão associada. Aqui vou falar da versão mais comum, que é a unidimensional (onde cada item/questão tem apenas UMA habilidade latente principal) com 3 (ou 4 dependendo do ponto de vista) parâmetros descritivos. São eles: Índice de dificuldade, Índice de discriminação (correlação bisserial) e proporção de marcação. É importante mencionar que toda essa análise é baseada em itens dicotômicos, ou seja, cada item/questão tem apenas dois escores (notas) possíveis, 1 (acerto) ou 0 (erro).

Índice de dificuldade do item:

TCT2

No índice de dificuldade é calculada a proporção de acertos de uma dada questão. Deste modo, o índice varia entre 0 (nenhum estudante acertou aquela questão) e 1 (todos acertaram), sendo gerado a partir da razão entre o número de estudantes que acertaram e o número total de alunos que fizeram a questão. Assim, um índice de dificuldade igual a 0,17 significa que apenas 17% dos alunos acertaram aquele item. Como o índice mede a proporção de acertos, quanto maior o índice, mais fácil o item é, já que mais alunos acertaram, assim, alguns sugerem que o índice deveria se chamar índice de facilidade.

Alguns autores (como este e este) sugerem que para que uma avaliação educacional tenha um nível ideal de dificuldade, o quantitativo de itens segundo sua dificuldade deve ser distribuído dentro de uma curva normal, ou seja, na proporção sugerida na tabela abaixo:

tabeladificuldade

Índice de discriminação do item:

TCT3

Nesse índice, determina-se o percentual de acertos dos estudantes com melhor e pior desempenho, visando discriminar (como o nome já diz) os alunos que dominam ou não a habilidade avaliada no item. Para calcular esse índice, os alunos/respondentes são divididos em 3 grupos: Grupo superior (27% dos alunos com as maiores notas), grupo inferior (27% dos alunos com as menores notas) e o intermediário (os 46% restantes). A partir daí, estima-se o índice de dificuldade do grupo superior para o item em questão (ou seja, quantos daqueles 27% de alunos acertaram o item). Faz-se o mesmo para o grupo inferior.

O índice de discriminação será a diferença entre o índice de dificuldade do item para o grupo superior e para o grupo inferior. Para ficar mais claro, vamos analisar a tabela a seguir com os índices de dificuldade para os dois grupos em um teste com 4 questões.

discriminação

Vamos analisar a questão 1 (primeira linha da tabela). Apenas 20% dos alunos do grupo superior (os 27% com melhores notas) acertaram essa questão, enquanto 60% dos alunos do grupo inferior (27% com as piores notas), marcaram a resposta certa. Assim, para esse item, o índice de discriminação seria – 0,40. A interpretação desse valor sugere que o item foi mal elaborado. Isso porque se o item fosse bem elaborado de modo a diferenciar bem os alunos que sabem do que não sabem, os alunos com maior escore (grupo superior) deveriam, em geral, acertar o item (uma vez que seu escore maior implicaria em maior proficiência no conteúdo), enquanto que os alunos com menor número de acertos (grupo inferior) deveriam, de modo geral, errar o item.

Desse modo, para os alunos do grupo superior o índice de dificuldade (proporção de alunos que acertaram) deveria ser maior do que o índice para o grupo inferior, fazer do a diferença entre eles ser positiva. De fato, quanto maior o índice de discriminação, mais o item é eficiente em discriminar se o aluno tem ou não proficiência na habilidade avaliada no item.

Analisemos o item 4 do teste (quarta linha da tabela). Neste caso, 90% dos alunos do grupo superior acertaram o item enquanto que apenas 5% do grupo inferior obtiveram êxito. Isso gera um índice de discriminação de 0,85 que, em outras palavras significa que os alunos que estão dominando o conteúdo (27% que tiveram maior nota) acertaram essa questão enquanto que os alunos com mais dificuldade (27% com menor nota) não. Ou seja, é uma questão que, basicamente, apenas quem tem proficiência no assunto acerta, logo é um bom item para diagnosticar proficiência.

A maioria dos autores, de modo geral, classifica o item em função do seu índice de discriminação de acordo com a tabela abaixo:

discrimina2.png

Índice de Correlação Bisserial:

O índice de correlação bisserial estabelece, como o nome diz, uma correlação entre o desempenho do respondente no item e no teste como um todo. Assim, ele funciona muito bem como um índice de discriminação, porém mais sofisticado que o descrito anteriormente. Na verdade, existem dois índices de correlação que podem gerar alguma confusão para quem for pesquisar sobre o assunto, o chamado ponto-bisserial, para variáveis (itens) não-dicotômicas, e o bisserial (sem “ponto”), para variáveis dicotômicas, que admitem apenas dois valores (1 – certo ou 0 – errado). O segundo (bisserial) é uma variação do primeiro (que inclusive depende do valor do primeiro para ser calculado) para análises como as que estamos interessados, onde os itens (que são as variáveis que o parâmetro avalia) são dicotômicos.

TCT1

Embora seja um cálculo relativamente simples de se fazer, não vou colocar aqui a forma matemática para o cálculo de ambos porque, como disse no começo, não quero focar muito na construção matemático-estatística do método e sim no seu uso, e colocar aqui as expressões demandaria uns dois parágrafos extras descrevendo as variáveis envolvidas. Vou apenas dizer que é um cálculo perfeitamente possível de se reproduzir com uma calculadora de bolso e há aplicativos, softwares e rotinas gratuitas disponíveis que fazem essa estimativa a partir das respostas do teste. Assim, vou apenas focar na faixa de valores desse índice e como interpretá-lo para classificar um item, e quem tiver interesse basta checar qualquer uma das fontes que citei no começo.

Este índice assume valores dentro de um intervalo que vai de -1 até 1. Valores próximos de zero e negativos indicam que alunos com as melhores notas estão errando o item, ou seja, o item tem baixo poder de discriminação dentro do teste e precisa ser reformulado. De fato, itens são considerados com boa discriminação de proficiência quando têm índice bisserial acima de 0,30. Além disso, é possível calcular um índice de correlação bisserial para cada alternativa do item. Assim, é possível julgar individualmente a qualidade das alternativas. Alternativas erradas (distratores) devem ter coeficiente bisserial negativo enquanto a alternativa correta deve ter o coeficiente positivo e, preferencialmente acima de 0,30. Alternativas erradas com coeficiente bisserial positivo indicam que alunos com bom desempenho no teste estão escolhendo aquela alternativa, o que pode indicar um erro induzido, ou seja, uma pegadinha.

Como tanto o coeficiente bisserial quanto o índice de discriminação têm como finalidade determinar a qualidade do item em discriminar proficiência, alguns autores consideram esses parâmetros complementares e, portanto, um parâmetro apenas. Por isso, no começo mencionei que essa TCT podia ser de 3 ou 4 parâmetros dependendo da interpretação.

Porcentagem de marcação por alternativa

TCT4

Este último parâmetro ajuda a avaliar a qualidade das alternativas erradas em um item. Como o próprio nome diz, ele representa a proporção de marcação de cada alternativa. O ideal é que, para as alternativas erradas, haja uma proporção similar de distribuição. Para compreender melhor, vamos imaginar um item com 5 alternativas (1 certa, 4 erradas). Se uma das alternativas erradas tiver uma porcentagem de escolha muito baixa em relação as demais, significa que o erro daquela alternativa estava óbvio demais, de modo que seu poder de avaliação fica baixo e ela precisa ser reformulada.

Ao mesmo tempo, se uma das 4 alternativas erradas tem uma porcentagem de escolha muito maior que as outras 3, significa que essa alternativa é, de fato, o único distrator eficiente naquela questão (e as outras são apenas figurativas), de modo que as outras 3 alternativas precisam ser reformuladas. Outra informação importante que esse item fornece é que a marcação de alternativas com baixíssima porcentagem de escolha (obviamente erradas) podem indicar escolha aleatória, ou seja, um chute cego.

Bom, o post ficou um pouco grande, mas acredito que consegui o que queria nesta parte, que era dar uma ideia geral e o mais didática possível de como funciona a TCT. Para complementar, eu preparei alguns exemplos práticos de análise de itens através dos parâmetros que acabamos de discutir. Mas deixo para o próximo post para que esse não fique ainda mais longo. Gostaria de agradecer a meu colega, o professor de matemática Daniel de Oliveira, que tem ajudado muito nestes estudos do tema, inclusive emprestando/indicando material. Como sempre, espero ter contribuído e até semana que vem.

Links das fontes usadas:

Artigo: Análise clássica de testes com diferentes graus de dificuldade.

Dissertação de Mestrado: Teoria clássica dos testes e teoria de resposta ao item aplicadas em uma avaliação de matemática básica – 2018

Dissertação de Mestrado: Uma proposta de análise de desempenho dos estudantes e de valorização da primeira fase da OBMEP – 2015

Livro: Avaliação Educacional: fundamentos, metodologia e aplicações no contexto brasileiro.

Um comentário em “AVALIAÇÕES – PARTE III: TCT – TEORIA CLÁSSICA DOS TESTES I

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s