AVALIAÇÕES PARTE V: TRI – TEORIA DE RESPOSTA AO ITEM II

Olá, pessoal. Na publicação de semana passada falei sobre a TRI, um pouco de sua origem histórica e as versões de modelos logísticos de 1, 2 e 3 parâmetros. Nesta semana eu quero exemplificar o uso dos parâmetros da TRI para classificar uma questão e falar um pouco sobre a “calibração” que deve ser feita.

Para ilustrar a aplicação da TRI vou usar uma questão tirada do livro “Avaliação Educacional” que mencionei nas publicações sobre TCT.

escher

Exemplo: Representar objetos tridimensionais em uma folha de papel nem sempre é tarefa fácil. O artista holandês Escher (1898-1972) explorou essa dificuldade criando várias figuras planas impossíveis de serem construídas com objetos tridimensionais, a exemplo da fotografia Belvedere, na figura ao lado.

Considere que um marceneiro tenha encontrado algumas figuras supostamente desenhadas por Escher e deseje construir uma delas com ripas rígidas de madeira que tenham o mesmo tamanho. Qual dos desenhos a seguir poderia reproduzir em um modelo tridimensional real?

alternativas

Após a devida calibração do item (mais sobre isso a seguir), temos que a Curva Característica do Item (CCI) para ele tem a forma representada a seguir.

CCI

A partir dessa CCI temos que os 3 parâmetros TRI são a = 1,31, b = 0,96 e c = 0,15. Esse item apresenta ótimos parâmetros uma vez que ele tem boa discriminação (a = 1,31), indicando que ele é um bom termômetro para avaliar presença ou ausência de proficiência na habilidade trabalhada no item, apresenta dificuldade média (b = 0,96) e o índice de acerto ao acaso (chute) c = 0,15, ficou abaixo do máximo permitido (0,2).

Note, neste exemplo, que nenhum parâmetro demandou um teste ou escore total de alunos. Essa é a maior vantagem da TRI sobre a TCT, o fato de que os parâmetros são obtidos para um item individualmente e independem do teste como um todo, o que permite ao elaborador a construir um banco de questões no médio e longo prazo.

meme

Além disso, essa independência para cada item, permite que os itens sejam comparados entre si, de modo que diferentes testes feitos em diferentes épocas e com diferentes respondentes podem, a princípio, ter seus resultados comparados desde que, à luz dos parâmetros de modelagem, os itens sejam considerados equivalentes.

Agora, uma dúvida que me surgiu quando eu estudava o assunto e pode ter aparecido para algum de vocês é a seguinte: O professor constrói o item com suas alternativas, gera a curva CCI do item da qual ele tira os parâmetros a, b e c. A partir daí ele usa os parâmetros para julgar, dentro do teste, o nível de proficiência de cada respondente. Porém, de onde saiu a curva CCI para o item em questão? Como foi estimada essa função que relaciona a habilidade do aluno θ com a probabilidade de acerto P(θ)?

Esse processo (de gerar a curva CCI do item) é chamado de “calibragem” da questão. E me incomodava não ter ideia de como era feita essa calibragem, principalmente porque a maioria esmagadora dos materiais que falam sobre essa modelagem não descreve esse procedimento. Esse aspecto de “caixa preta” no processo me gerava enorme desconfiança.

Até que consegui emprestado o livro Psicometria – Teoria dos Testes na Psicologia e na Educação. Nele, esse processo está matematicamente descrito em detalhes e finalmente consegui compreender minimamente como é feita essa calibração. Não vou entrar em muitos detalhes, porque senão esse texto viraria um artigo de matemática estatística, mas posso descrever de modo geral o que é feito. Basicamente, após um item ser construído ele é testado com um determinado grupo de respondentes. As respostas de cada aluno produzem um matriz onde cada coluna representa um respondente e cada linha um item, com o valor de 1 para item acertado pelo respondente e 0 para item errado (Figura a seguir).

matriz

Com um botado de álgebra linear combinando essa matriz com a função de probabilidade P(θ) do modelo logístico de 3 parâmetros (se for esse o caso, se for de 2, usa-se a função para 2 parâmetros), é construído um sistema de equações diferenciais ordinárias que vão ser resolvidas numericamente através de modelos computacionais.

Essa solução usa um modelo de retroalimentação onde primeiro se assume valores aproximados para os parâmetros a, b e c. Em seguida, a partir desses parâmetros e os demais elementos, o modelo numérico computacional gera uma CCI e dela, no fim do processo, calcula novos parâmetros a, b e c e compara os valores calculados com os valores chutados. Caso dê diferença, os novos valores calculados de a, b e c são alimentados no modelo (substituindo os chutes iniciais) e o processo é refeito. Isso acontece em loop até que os valores calculados no final processo coincidam com os valores inseridos como palpites iniciais.

Todo esse processo explica o porquê da TRI ter sido adotada de modo mais sistemático, apenas a partir da década de 1980, com o advento da computação e integradores numéricos. Assim, todos os grandes testes padronizados (PISA, ENEM, SAEB, etc) que usam TRI, fazem esse processo de calibração com amostragem e softwares bem sofisticados. Para isso os itens elaborados são testados em provas e testes respondidos previamente. O próprio INEP faz testes amostrais das questões em avaliações prévias em diferentes contextos, com a finalidade de calibrá-las para construir um banco de itens que poderão compor provas como ENEM, SAEB e Prova Brasil.

Um dos softwares mais comuns para calibrar questões e gerar a CCI de itens é o R citado detalhadamente nessa dissertação de mestrado.

Outra ferramenta que pode ser interessante é esse site da Assessment Systems que oferece a calibração e análise de itens em diferentes etapas do processo.

Bom, vou encerrando por aqui antes que essa publicação  fique muito grande. De modo geral, tanto a TCT e a TRI são bem eficientes em avaliar a qualidade de itens de acordo com a dificuldade e capacidade de discriminação tornando-os ferramentas de avaliação mais eficientes.

A TCT tem a vantagem de ser matematicamente mais simples de se compreender o que a torna bem mais fácil e direta de usar e aprender manipular. A desvantagem é a questão e que toda a análise do item está relacionada ao contexto de um teste específico e de um grupo de respondentes o que impede a criação de um banco de questões de longo prazo ou a comparação entre resultados em diferentes contextos, testes e épocas.

Já a TRI é bem mais complexa do ponto de vista matemático e seu uso demanda o domínio de softwares e ferramentas mais complexos, o que torna seu entendimento e uso bem mais trabalhoso e custoso. Porém, ao gerar parâmetros de um item com independência local, a TRI permite, em tese, a criação de banco de questões calibradas e a comparação de resultados em diferentes contextos e testes, o que permite a garantia de provas e testes de mesmo nível mesmo em diferentes épocas.

O que vai diferenciar mais qual dos dois é mais recomendado, é o propósito e o contexto da avaliação, bem como os recursos disponíveis para lidar com a modelagem. Gostaria de agradecer novamente ao meu colega, o professor Daniel de Oliveira, que me ajudou muito no processo de entendimento desse conteúdo emprestando material e trocando ideias. Espero que tenha conseguido passar um entendimento básico (porém mais técnico) das duas modelagens e como sempre espero ter contribuído. Até a próxima semana.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *