Olá pessoal, essa semana vamos continuar sobre a TCT agora com alguns exemplos de aplicação para analisar itens via seus parâmetros. É fundamental para acompanhar esse post, que o anterior tenha sido lido, por isso, se você não leu ainda, clica no link ali e da uma lida antes de prosseguir. Foi la? Leu? Ótimo, então, passemos a mágica.
Existem softwares e plataformas para estimar os parâmetros da TCT, sendo mais comum o software R. Mas, usando um programa como o Excel e as fórmulas descritas no post anterior (e nos trabalhos lá linkados) é possível gerar os parâmetros para cada item. O ideal é que, além dos parâmetros seja construída também um gráfico chamado “Análise Gráfica do Item” (AGI). AGI, dentro da TCT, é o modelo matemático que representa o alcance do item e consiste em um gráfico de linhas onde cada linha representa uma alternativa da questão/item. No eixo horizontal temos a nota total no teste (indo de 0 até a maior nota obtida) e, no eixo vertical, temos a porcentagem de marcação para cada item (indo de 0 a 1). A figura abaixo contém um exemplo de AGI que vamos usar para entender como interpretá-la. Ela se refere a um teste onde a maior nota foi 14 (que pode ter tido mais de 14 itens).
O ponto indicado pela seta vermelha, por exemplo, mostra que 100% dos alunos que tiveram nota igual a 11 escolheram a alternativa E (linha amarela) para o item representado na AGI, ou seja, todos os que tiveram nota igual a 11, erraram este item.
Assim, uma análise completa de cada item implica em uma combinação da AGI com uma tabela com os parâmetros calculados para aquele item. Vamos ao primeiro exemplo, um item de um teste cuja AGI + parâmetros está representado a seguir:
Olhando para o índice de dificuldade, vemos que apenas 13% dos respondentes acertaram o item, de modo que o item é considerado difícil.
O coeficiente bisserial geral do item (que é o bisserial da alternativa certa, no caso a B) é 0,47, ou seja, considerado bom (positivo, acima de 0,30) indicando que alunos com maior nota estão acertando o teste. Assim, esse item é um bom discriminante da proficiência do conteúdo (alunos que foram bem no teste estão acertando o item e alunos que foram mal, estando errando). Agora o coeficiente bisserial das alternativas erradas mostra um problema. O das alternativas A e D está correto, tem valores negativos como deveria ser, mas o coeficiente bisserial positivo da alternativa C, sugere que muitos alunos que com notas altas marcaram esse distrator (alternativa errada), que indica que ela pode estar induzindo respondentes ao erro (uma pegadinha).
Por fim, analisando a porcentagem de marcação por alternativa (representada por p_A, p_B e assim por diante), vemos que as alternativas A e D foram escolhidas apenas 5% e 6% das vezes, respectivamente. Ou seja, são alternativas pouco plausíveis (óbvias demais) e, portanto, devem ser reelaboradas. Já o índice p_C confirma o que o bisserial positivo da alternativa C já indicada. Que 66% dos alunos marcaram essa alternativa errada que deve estar altamente atrativa. Esse dado, combinado com o bisserial, confirma ainda mais a hipótese dessa alternativa estar sendo uma pegadinha.
A partir desses parâmetros vemos que a questão tem um índice de dificuldade alto e deve compor os 10% de questões difíceis do teste, mas que isso pode ser graças a “pegadinha” da alternativa C combinada que, inclusive, pode ser o que está “esvaziando” as alternativas A e D de marcações. Com relação ao item a proposta de ação seria reformular a alternativa C e reaplicar a questão para verificar se isso corrige o problema ou se mudanças nas alternativas A e D precisam ser feitas também. Com relação aos alunos a sugestão é de duas ações. Para os que marcaram a letra A e D, a possibilidade é de que tenham realizado um chute cego e, portanto, caso tenham uma nota geral baixa, devem receber atenção maior na recuperação, seu nível de conhecimento os impediu inclusive de interpretar a questão de modo a serem atraídos para a “pegadinha” da alternativa C. Já para os alunos que foram bem e escolheram a alternativa C, a ação deve ser pontual de acordo com o conteúdo da questão e da alternativa.
Agora analisemos os parâmetros de um conjunto de 10 itens como o apresentado na Figura abaixo:
Analisando vemos que as questões, 3, 5 e 7 são os itens mais problemáticos (linhas em vermelho e laranja), enquanto as questões 2 e 8 são exemplos de itens bem elaborados (linhas em azul).
As questões 5 e 7 (marcadas em vermelho) têm problemas na discriminação nas alternativas erradas. Ambas possuem coeficiente bisserial positivo para alternativas erradas (C para o item 5 e B e C para o item 7), o que indica que muitos alunos de bom desempenho foram atraídos para essas alternativas. Assim, o recomendado é re-elaborar a alternativa C do item 5 e as alternativas B e C do item 7.
Já a questão 3 possui boa discriminação, com coeficiente bisserial da alternativa correta B positivo e acima de 0,30 e das demais alternativas negativo, como é esperado. O problema está na proporção de marcação da alternativa errada A (apenas 6%) em relação a proporção das alternativas C e D (29% e 22% respectivamente). Isso indica que o erro da alternativa A pode estar muito óbvio, de modo que ela não representa um distrator pedagogicamente eficiente. O recomendado então seria re-elaborar a alternativa A desse item.
Por fim, os itens 2 e 8 estão com parâmetros excelentes. Coeficiente bisserial positivo para alternativa correta e negativo para as erradas e distribuição homogênea da proporção de marcação entre as alternativas erradas.
Como esse tipo de estudo, vemos que a TCT permite fazer uma análise muito criteriosa dentro de um teste/grupo, de modo que o professor é capaz de estimar de modo mais detalhado o desempenho dos alunos e seu relacionamento com o conteúdo combinando o enunciado/conteúdo de cada questão com seus parâmetros TCT. Isso permite, por exemplo, estruturar de modo mais preciso e direcionado atividades de recuperação e reforço, o que faz da TCT uma poderosa ferramenta de diagnóstico pedagógico.
Mas, nem tudo são flores. Algumas das principais críticas a TCT é o fato de que ela analisa as questões no contexto geral do teste o que pode gerar alguns problemas. Primeiro porque, em caso de testes realizados em grande escala (com milhares de respondentes), algumas análises usam apenas uma amostra de todas as respostas para fazer a estimativa dos parâmetros descritivos. Nestes casos, dependendo do recorte usado a análise pode ser distorcida. Por exemplo, se a amostra selecionada contiver, por coincidência, os alunos de melhor desempenho, os índices de dificuldade ficarão subestimados, já se o oposto ocorrer, ficarão superestimados. Esse problema desaparece quando se usa todo o espaço amostral (todas as respostas), o que nem sempre é possível (pense no ENEM com milhões de respondentes, a demanda de poder de processamento computacional fica elevada).
Além disso, os parâmetros para cada item são consistentes apenas dentro de um teste específico, de modo que não é possível construir um banco de questões a longo prazo ou fazer um comparativo de desempenho entre diferentes grupos. A mesma questão pode ter índices de dificuldade e coeficiente bisserial diferentes, se aplicada a outro espaço amostral de modo que para um determinado grupo o item foi extremamente eficiente em diagnosticar eficiência enquanto que para outro ele pode se mostrar ruim e/ou um item com pegadinha.
Bom, acredito que com esses dois últimos posts dá para ter uma boa ideia de como funciona a TCT e como ela pode ser usada como ferramenta para analisar avaliações. Na próxima semana pretendo fazer o mesmo com a TRI, que surge com a proposta de tentar sanar alguns dos problemas da TCT, principalmente para testes aplicados em larga escala. Como sempre, espero ter contribuído e até semana que vem.
3 comentários em “AVALIAÇÕES – PARTE IV: TCT – TEORIA CLÁSSICA DOS TESTES II”