Provão 2001 Psicologia

Estudo Sobre as Questões de Múltipla Escolha

 

Cilio Ziviani
Universidade Gama Filho

 

Dados da Prova de Psicologia 2001 do Exame Nacional de Cursos ENC do Instituto Nacional de Estudos e Pesquisas Educacionais INEP / MEC foram aqui organizados com a intenção de (1) reunir em um único lugar informação relevante a questões da prova para facilitar o exame do instrumento utilizado e (2) manter em aberto local para apresentação de considerações e estudos que venham a ser feitos sobre cada questão.

Este primeiro estudo baseia-se nos dados das questões de múltipla escolha referentes aos 8.563 (84%) formandos que responderam validamente todas as quarenta questões, selecionados dentre os 9.242 (91%) que responderam validamente pelo menos uma questão, dentre os 10.185  (100%) inscritos segundo arquivo fornecido pelo INEP.

A exposição apoia-se em análises organizadas segundo o material abaixo, referido ao longo da apresentação e sempre que conveniente, ligado ao texto pelo respectivo "hiperlink". O programa de computador utilizado em todas as análises (RUMM2010) foi desenvolvido por Andrich, Lyne, Sheridan & Luo (2001).

Distribuições IES  Pessoas e questões de quatro tipos de IES na escala 'logit' usada na mensuração Rasch.

Estimativas Rasch  Ordenação das pessoas pelas categorias de escore total e a localização na escala de mensuração Rasch construída pelo modelo.

Mapa de Localização de Pessoas e Itens   Localização de pessoas e questões na mesma escala intervalar com unidades 'logit'.
Psicometria Clássica: Facilidade e Discriminação  Ordenação das questões pela facilidade / dificuldade.
 
Questões (múltipla escolha)
Q01 Q02 Q03 Q04 Q05 Q06 Q07 Q08
Q09 Q10 Q11 Q12 Q13 Q14 Q15 Q16
Q17 Q18 Q19 Q20 Q21 Q22 Q23 Q24
Q25 Q26 Q27 Q28 Q29 Q30 Q31 Q32
Q33 Q34 Q35 Q36 Q37 Q38 Q39 Q40

 

Conteúdo

Introdução

Fundamentos do Modelo Rasch

Formulação do Modelo Rasch

Outros Modelos na Teoria da Resposta ao Item e o Presente Uso do Modelo Rasch

Suposições e Propriedades Específicas do Modelo Rasch Mais Adequadas ao Provão

Resultados da Presente Aplicação Introdutória do Modelo Rasch      R1   R2   R3   R4

Análise Gráfica das Quarenta Questões do Provão 2001

Referências

 

Introdução volta ao índice

Cabe inicialmente uma palavra acerca do contexto sob o qual o trabalho que nesta oportunidade apresento tem se desenvolvido. Uma das reuniões patrocinadas pelo INEP ano passado congregou membros da Comissão de Especialistas e membros da Comissão de Psicologia do Exame Nacional de Cursos. Foi assim que sentei-me ao lado da Profa. Carolina M. Bori, Diretora Científica do Núcleo de Pesquisas sobre Ensino Superior - NUPES, centro temático da Universidade de São Paulo dedicado a pesquisa sobre Ensino Superior. Ao longo do dia fiz alguns comentários sobre resultados de análise com dados parciais do Provão de Psicologia de 2000. A Profa. Carolina mostrou-se interessada no problema que apresentei e marcamos encontro na USP em São Paulo.

Levei para esse encontro no NUPES dados das quarenta questões de múltipla escolha dos formandos do Instituto de Psicologia da Universidade Federal do Rio de Janeiro e da Pontifícia Universidade Católica do Rio de Janeiro, organizados em planilhas separadas, contendo os acertos (codificados como '1') e os não-acertos (codificados como '0') de forma que a seqüência de 1's e 0's, coluna após coluna, caracterizava todos os acertos e erros de cada participante, cada um deles formando uma linha de quarenta colunas, incluindo no final um total para cada linha e um total para cada coluna. A Profa. Carolina passou a explorar os dados apresentados nas planilhas e concluiu sugerindo que eu largasse o que pudesse para me dedicar a esse trabalho de análise dos dados do provão de Psicologia.

 

Fundamentos do Modelo Rasch volta ao índice

O que foi visto, discutido e entendido nesse encontro na USP que impressionou a Profa. Carolina? Com tais dados verifica-se que a soma de todas as colunas ao longo de uma linha fornece o total de questões acertadas, ou escore bruto de cada pessoa que tenha passado pelas questões. A soma de todas as linhas ao longo de uma coluna fornece o total de acertos para a questão caracterizada naquela coluna, ou escore bruto de cada questão que tenha passado pelas pessoas. A quantidade de pessoas acertando e não-acertando determinado item caracteriza o item pela facilidade/dificuldade. A quantidade de itens acertados e não-acertados por determinada pessoa caracteriza essa pessoa pela competência/incompetência.

Esse encontro da competência / incompetência da pessoa (quantas questões a pessoa acertou / não-acertou) com a facilidade/dificuldade da questão (quantas pessoas acertaram / não acertaram a questão) é organizado de forma ordenada pela classificação decrescente das linhas utilizando como variável a coluna contendo a quantidade total de acertos para cada pessoa e pela classificação decrescente das colunas utilizando como variável a linha contendo a quantidade de acertos para cada questão.

A matriz de dados assim organizada se apresenta de forma que as pessoas encontram-se ordenadas (nas linhas) da mais competente para a menos competente (de cima para baixo) e as questões encontram-se ordenadas (nas colunas) da mais fácil para a mais difícil (da esquerda para a direita). Quanto mais alto estejam localizadas na tabela, mais competentes são as pessoas, pois a quantidade de questões acertadas é maior. Quanto mais para a direita estejam localizadas na tabela, mais difíceis são as questões, pois a quantidade de acertos é menor.

O exame visual da matriz assim ordenada costuma apresentar um padrão emergente claramente percebido se por exemplo a célula contendo '1' (acerto) for de fundo claro e a célula contendo '0' (não-acerto) for de fundo escuro. Por exemplo, como poderia uma pessoa competente (cujo escore final é alto, acertou muitas questões, sua linha está localizada por ordenação no alto da matriz), como poderia essa pesoa NÃO ter acertado uma questão fácil (que tantas outras pessoas acertaram, questão cuja coluna está localizada à esquerda da matriz)? Parece improvável, mas acontece. Do mesmo modo, como poderia uma questão difícil (que tantas outras pessoas não acertaram) ser acertada, por exemplo, logo por essa pessoa com tão poucas questões acertadas? Parece improvável, mas também acontece.

A possibilidade da rápida distinção entre respostas intuitivamente prováveis ou verossímeis ("likely") e respostas improváveis ou inverossímeis ("unlikely") facilita o entendimento da essência do Modelo Rasch. Intuitivamente, vê-se que para cada resposta de cada pessoa podemos fazer corresponder uma probabilidade de resposta. Pois é isso que o Modelo Rasch faz, atribui uma probabilidade à resposta para uma determinada questão dependendo apenas de dois parâmetros a serem estimados, a competência da pessoa e a dificuldade da questão.

A partir dessa ordenação de pessoas (pela suposta competência) e de itens (pela suposta dificuldade) Rasch (1993/1960, p. 66) desenvolveu um modelo matemático, uma função logística para a construção de medidas baseadas na relação probabilística entre competência (de qualquer pessoa) e a dificuldade (de qualquer item) após minucioso desenvolvimento a partir da dicotomia ordenação versus mensuração, que inicia afirmando que "...esta ordenação de itens e pessoas entretanto não implica uma mensuração de graus de dificuldade e competência em uma escala de razão." (Rasch, 1993/1960, p. 69).

Argumentou Rasch que a diferença entre essas duas medidas deveria governar a probabilidade de qualquer pessoa ser bem sucedida em qualquer questão específica. Todas as pessoas têm probabilidade maior de acertar itens mais fáceis e probabilidade menor de acertar itens mais difíceis. Ao cuidar da interpretação dos graus de dificuldade (dos itens) e de competência (das pessoas) estimados a partir da ordenação conjunta e simultânea de pessoas e itens, Rasch (1993/1960, p. 107) conclui que se pode escolher o grau de dificuldade de um item como unidade e usar a razão entre a probabilidade de acerto e a probabilidade de não-acerto (o 'odds ratio'), isto é, usar "... a chance da aposta de a pessoa resolver o item corretamente, em jogo justo" (" the betting odds in a fair bet on his solving this item correctly" ).

 

Formulação do Modelo Rasch volta ao índice

Na sua forma mais simples, o modelo dicotômico adotado no presente trabalho prediz a probabilidade condicional de um resultado binário (correto/incorreto, acerto/não-acerto), dada a competência da pessoa e a dificuldade da questão. Com a codificação adotada aqui de '1' para resposta correta e '0' para resposta incorreta, o modelo então expressa a probabilidade de se observar uma resposta correta, ou seja, de se observar '1' ao invés de '0', como uma função da diferença entre a competência ('B') da pessoa e a dificuldade ('D') da questão.

Essa diferença 'B - D', ou 'competência - dificuldade' é a relação fundamental que funciona como expoente na função logística. O Modelo Rasch é portanto uma fórmula matemática para a relação entre a probabilidade de sucesso (P) e a diferença entre a competência de uma pessoa (B) e a dificuldade de um item (D).

Matematicamente, temos P = exp (B - D) / (1 + exp (B - D)), ou ainda  log [ P / (1 - P) ] = B - D.

Essa definição formalmente concisa e clara encontra-se no glossário desenvolvido na Universidade de Chicago e oferecido em [ http://www.rasch.org/rmt/glossary.htm ] sob a responsabilidade de Benjamim D. Wright e John M. Linacre e em muitos outros textos apresentados no mesmo "site" onde se encontram as tradicionais publicações online "Rasch Measurement Transactions".

Por exemplo, na situação da competência ser igual à dificuldade o resultado da operação de subtrair a dificuldade D da competência B é zero, pois as quantidades se equivalem. Esse zero, ao atuar como expoente do número  ´e´  faz com que o resultado seja zero (todo número elevado à zero é igual à unidade). Temos, portanto,  P = 1 / 1 + 1 ou  P = 1 / 2  ou  P = 0,50. Caso a competência seja maior que a dificuldade teremos, pelo mesmo raciocínio seguindo a fórmula, resultado positivo, isto é, acima de zero. Caso a competência seja menor que a dificuldade teremos resultado negativo, isto é, abaixo de zero.

A unidade de medida usada por Rasch para 'calibrar' itens (estimar 'dificuldade') e medir pessoas (estimar 'competência') passou a ser chamada de 'logit' por causa da transformação logaritmica ('log odds') da probabilidade de uma resposta correta. Sempre variando com valores positivos e negativos em torno do zero arbitrário da escala.

Ou ainda, como dizem Wright & Stone (1979, p. 17), a competência de uma pessoa em 'logits' é o logaritmo natural da sua chance (is the natural log odds) de acertar questões do tipo escolhido para definir o ponto 'zero' da escala. Por outro lado, a dificuldade de um item em 'logits' é o logaritmo natural da sua chance de eliciar o não-acerto em pessoas de competência 'zero' (is the natural log odds for eliciting failure from persons with 'zero' ability).

 

Outros Modelos na Teoria da Resposta ao Item e o Presente Uso do Modelo Rasch volta ao índice

Embora para muitos o Modelo Rasch seja apenas um modelo (de um parâmetro, o da dificuldade do item) da Teoria da Resposta ao Item (TRI), no presente trabalho defendo o uso do Modelo Rasch por suas características únicas e exclusivas que se destacam na comparação com outros modelos da TRI. Essas características, além da simplicidade e parcimônia face aos demais modelos, o tornam mais adequado para aplicação em situações da natureza do provão (impossibilidade de experimentação apriorística de questões por causa do sigilo sendo uma das principais).

Outros modelos da Teoria da Resposta ao Item incluem parâmetros adicionais como a discriminação e a resposta ao acaso (Pasquali, 1996). Entretanto, preconizo ainda o uso do Modelo Rasch na situação de se estudar os dados do provão a posteriori porque seu uso torna mais clara a demarcação entre o uso de análises estatísticas e o uso de análises substantivas. Como diz Andrich (1988, p. 86), quando se tem a intenção de manter o Modelo Rasch por causa de suas propriedades especiais de mensuração, o fato de os dados não se adequarem ao modelo implica trabalho adicional no problema substantivo de construção da escala de medida, e NÃO na identificação de modelos mais complexos que poderiam "explicar melhor" os dados.

 

Suposições e Propriedades Específicas do Modelo Rasch Mais Adequadas ao Provão volta ao índice

Uma suposição importante feita pelos modelos da Teoria da Resposta ao Item é a de que a resposta a uma questão não deve influir na resposta a outras (suposição da independência local). Ou ainda, "... mantidas constantes as aptidões que afetam o teste, as respostas dos sujeitos a quaisquer dois itens são estatisticamente independentes" (Pasquali, 1996, p. 176). Correlações entre os itens seriam explicáveis tão somente pelo que se quer estimar nas pessoas, a competência, ou aptidão, ou capacidade, ou traço latente, freqüentemente denotada na literatura da TRI por meio da letra grega teta (correspondendo, em inglês, a latent trait, ability, proficiency).

Outra suposição da TRI é a de que as questões constituam uma única dimensão (suposição da unidimensionalidade). Embora seja postulada a existência de apenas uma aptidão responsável pela realização de um conjunto de tarefas ou itens "... é suficiente admitir que haja uma aptidão dominante (...) responsável pelo conjunto de itens" (Pasquali, 1996, p. 176). Sobre este ponto, Muñiz (1997, p. 27-28) observa que a unidimensionalidade perfeita "... aparece como uma idealização matemática difícil, senão impossível, de se alcançar com dados psicológicos reais" e que a avaliação psicológica terá que acostumar-se a conviver com uma unidimensionalidade imperfeita.

Textos que apresentam pontos essenciais dessas suposições de forma pertinente ao que vem aqui sendo discutido são Pasquali (1996), Hambleton, Swaminathan & Rogers (1991), Embretson & Reise (2000), Nunnaly & Bernstein (1994). Diferenças e semelhanças entre o Modelo Rasch e outros modelos discutidos sob a rubrica da Teoria da Resposta ao Item encontram-se em Embretson & Herschberger (1999), Fischer (1995) e Wright (1999). Destaco enfaticamente, do ponto de vista didático e da clareza conceitual, a contribuição seminal de Wright & Stone (1979) e recentemente, do ponto de vista prático, o livro de Bond & Fox (2001).

Mas quais propriedades específicas do Modelo Rasch seriam compartilhadas por outros modelos da Teoria da Resposta ao Item? Essa pergunta tem merecido resposta sistemática nos últimos anos por parte de muitos autores. Aqui não seria o local adequado para a discussão dessa resposta. Mas uma delas merece destaque por causa da situação peculiar do provão e eventos similares onde é impossível a experimentação prévia e o resultado deve ser dado pela via inequívoca da quantidade de questões acertadas.

Trata-se da propriedade do Modelo Rasch chamada de suficiência. Entendendo-se a suficiência do escore bruto, da simples soma das questões acertadas para uma determinada categoria, ser estatística suficiente para a estimar a competência da pessoa de responder nessa categoria. Particularmente, como sintetiza Rost (2001, p. 27) suficiência significa que não importa quais os itens foram acertados pela pessoa, importa apenas quantos itens foram acertados.

Ao estudar padrões ou configurações de respostas individuais (quais questões foram acertadas e não-acertadas por uma determinada pessoa) que definem o perfil individual, Andrich (1988, p. 76-81) faz importante consideração para situações de avaliação do tipo do provão:

"Como já vimos, a probabilidade de cada configuração, dado o escore total, pode ser calculada, e se uma configuração for extremamente inverossímil ("unlikely" ), pode ser considerado que a pessoa não tenha sido medida adequadamente. Portanto, embora a configuração de resposta de uma pessoa seja irrelevante para a estimativa de localização, ela é crucial para o estudo do ajuste. E o estudo da configuração de respostas pode ser chamado de análise de perfil." (Andrich, 1988, p. 77)

Um dos autores consagrados por suas contribuições para a Teoria da Resposta ao Item, David Thissen (ao invés de contribuições para a filosofia de medida que gira em torno do Modelo Rasch) tem uma interessante observação que considero altamente pertinente para a situação específica do provão . Ao discutirem os modelos logísticos de um parâmetro, categoria sob a qual teóricos da TRI incluem o Modelo Rasch, Thissen & Orlando (2001) observam que

"Uma característica curiosa do modelo Rasch é a de que esse modelo TRI implica que todos os examinandos com o mesmo escore total somado tenham o mesmo escore TRI na escala (...) Esta característica do modelo Rasch é freqüentemente chamada de suficiência do escore somado porque o escore somado é uma estatística suficiente para a proficiência, quando isso é considerado como o parâmetro de interesse no modelo. Esta é uma conseqüência da razão-desenvolvimento do modelo." (Thissen & Orlando, 2001, p. 75-76)

Essa expressão "razão-desenvolvimento" (ratio-development) diz respeito a uma das características formais do Modelo Rasch com implicação direta no conceito de o escore total obtido por cada pessoa ser suficiente, tal e qual o INEP vem fazendo, desde que os dados observados se ajustem razoavelmente ao modelo. Defendo aqui que o modelo deve ser o Modelo Rasch tal como definido acima. Daí a importância de se eleger como estratégia básica a decisão de se estudar pessoas e questões que não se ajustam ao modelo de medida escolhido, ao invés de se experimentar diferentes modelos e escolher a posteriori o que melhor venha a se ajustar aos dados.

Como conseqüência a estratégia de ação a ser adotada entre um provão e outro poderá ser inspirada no conselho que nos dá Bond & Fox (2001) após discutir a questão da unidimensionalidade como uma questão de grau, oferecendo contexto adequado para a interpretação dos resultados do uso da modelagem Rasch em termos de um diálogo entre a teoria e a prática.

Desajuste de itens ao modelo de medida exige revisão das intenções teóricas ou dos esforços de operacionalização da teoria posta em prática, no nosso caso posta em prática pela banca encarregada de produzir itens sob a forma das questões desenvolvidas sob orientação genérica da Comissão. Mas o que fazer após a verificação de desajustes ao modelo de medida escolhido? Eis o conselho de Bond & Fox (2001):

"Itens deveriam ser incluídos nos testes por causa da existência de muito boas razões para que lá estejam. Desenvolvedores de testes deveriam "vestir a camisa" das questões que desenvolvem. O desajuste da questão portanto sinaliza ao pesquisador "Pense de novo!" e não o usual "Jogue fora!". (Bond & Fox, 2001, p. 103-104)

Neste ponto tornam-se particularmente significativas as observações de Pasquali (1997) sobre o uso da Teoria da Resposta ao Item entre nós, especialmente sobre a mudança de enfoque na construção de instrumentos de avaliação. Uma das conseqüências mais radicais da TRI no campo dos testes, diz Pasquali (1997), consiste em que o objetivo básico nesta área não reside em elaborar e validar testes ou instrumentos psicológicos, como se fazia tradicionalmente; mas consiste

"... em elaborar e validar tarefas, itens (...) porque a TRI visa calibrar itens ou tarefas individuais e não testes ou conjuntos de itens (...) o objetivo final deste modo de pensar em instrumentação psicológica consiste na criação de bancos de itens (...) a tarefa do psicometrista já não será mais de validar e normatizar testes e sim de parametrizar tarefas ou itens (...) consiste em redigir a carteira de identidade de cada item, contendo seus parâmetros distintivos (...) a tarefa é gigantesca, pois exige a definição teórica elaborada dos construtos a serem representados e medidos via comportamento." (Pasquali, 1997, p. 59-60)

Outras propriedades como separabilidade, aditividade e objetividade específica, esta última sendo a preferida pelo próprio Rasch (Rasch, 1993/1960) e por ele considerada a mais importante (Andersen & Olsen, 2001, p. 21-23) não são discutidas aqui, bastando já ter destacado propriedades que trazem vantagens específicas para a situação do provão. Os interessados encontrarão discussão destes pontos, além da distinção das especificidades do Modelo Rasch, em Embretson & Reise (2000), Embretson & Herschberger (1999), Rost (2001) e Wright (1999).

 

Resultados da Presente Aplicação Introdutória do Modelo Rasch volta ao índice

 

Freqüências de Pessoas e Itens Distribuídos na Escala ´Logit´ volta ao índice

Examinemos agora a página Distribuições IES na qual distribuições de freqüência de pessoas e de itens na mesma escala comum com unidades em ´logits´ são apresentadas, respectivamente, para as Instituições de Ensino Superior Federal, Estadual, Municipal e Privada. Há grande diferença no número de observações de uma categoria de IES para outra, portanto esse resultado deve ser tomado como preliminar, mostrado aqui apenas com o objetivo de introduzir o Modelo Rasch de mensuração em uma de suas utilizações. A escala ´logit´ encontra-se no eixo dos X. O eixo dos Y reflete a freqüência de pessoas (e de itens) em determinada posição em ´logits´.

No primeiro gráfico, referente a IES federais, 1.228 pessoas distribuem-se entre -1,5 e +2,5 ´logits´. O mesmo ocorre com os quarenta itens da prova de múltipla escolha, mas estes ocupam amplitude muito maior da escala. Há um item adjacente à marca de -4 ´logits´no extremo inferior (à esquerda) e outro item no extremo oposto superior da escala, adjacente à marca de +3,0 ´logits´.

No segundo e terceiro gráficos, referentes a IES estaduais (301 examinandos) e municipais (171 pessoas), nota-se o gradual deslocamento da distribuição de freqüência das pessoas para posições inferiores na escala. A distribuição dos itens permanece constante, pois são sempre os mesmos quarenta itens para todas as pessoas, muito embora tenham sido considerados na presente análise apenas trinta e nove itens por não termos tido acesso aos resultados da Questão 25 que foi anulada (os dados estão em branco nos arquivos do INEP).

Finalmente no quarto gráfico, referente a IES privadas (6.953 examinandos), percebe-se muito maior ajuste da freqüência da distribuição das pessoas com a freqüência da distribição dos itens. Em outras palavras, à maior coluna de freqüência das pessoas, corresponde a maior coluna de freqüência dos itens; idem para a segunda maior coluna; idem para a terceira maior coluna e assim por diante. Conclui-se, pela escala ´logit´, que as pessoas e os itens ajustam-se mutuamente melhor na categoria IES privada do que em qualquer das três outras. O que não implica, absolutamente, juízo algum de valor.

 

Estimativas de Competência e Respectiva Localização na Escala ´Logit´ volta ao índice

Voltemo-nos agora para a página Estimativas Rasch onde são apresentadas as estimativas para as diferentes categorias de escore total e a respectiva localização na escala de mensuração construída pelo modelo.

Na coluna EscTot observa-se que ninguém obteve escore 0 ou 1 ou 2. Não obstante, as estimativas foram calculadas para essas categorias de escore. Ainda na coluna EscTot, logo abaixo da linha em branco, observa-se que 5 pessoas obtiveram escore total, ou acertaram, 3 questões. Oito pessoas (coluna Freqüência) acertaram 4 questões, e assim por diante, até a última linha ocupada onde se vê que apenas duas pessoas (coluna Freqüência) acertaram 34 questões. As duas colunas seguintes, FreqAc e PorcAcum acumulam a freqüência e acumulam a porcentagem dessa freqüência, respectivamente.

Restam agora as colunas Estimativa e ErroPadrão que, respectivamente, apresentam a estimativa da competência, para cada categoria de escore total, feita pelo Modelo Rasch utilizado, acompanhada de seu respectivo erro padrão da estimativa. Percebe-se que o erro padrão das estimativas é maior nos extremos das localizações na escala ´logit´ dada pela estimativa, 0,657 e 0,530 para, respectivamente, estimativas de -3,113 e +2,446.

A estimativa de competência de +2,446 ´logits´ refere-se aos dois participantes que lograram obter 34 acertos nas trinta e nove questões válidas da prova. Já a estimativa de competência de -3,113 é atribuída às 5 pessoas que obtiveram o escore total de apenas 3 questões acertadas, mesmo tendo respondido validamente todas as trinta e nove questões sob exame. Parece até uma tendência de evitar a opção correta de resposta. Beira o incrível, isso. O mesmo poder-se-ia dizer das outras pessoas que, em menor grau, conseguiram acertar muito menos do que seria de se esperar ao acaso.

De qualquer modo, o Modelo Rasch indica localizações altamente improváveis na escala ´logit´ para essas pessoas. Tipicamente a escala de ´logits´ para pessoas varia entre -2,0 e +2,0 ´logits´. Verifica-se que apenas as categorias de escore total 3, 4, 5 e 6 ultrapassam, descendo, o limite de -2,0 ´logits´ e que apenas as categorias de escore total de 33 e 34 ultrapassam, subindo, o limite de +2,00 ´logits´ (estimativas de +2,183 e +2,446, respectivamente).

Verifica-se que as estimativas de localização na escala ´logit´ trocam de sinal exatamente na metade da prova, ou seja, na vigésima questão. Na categoria de 19 acertos encontram-se 611 pessoas que recebem a estimativa negativa de localização de -0,071, com erro padrão de 0,363. Na categoria de 20 questões acertadas encontram-se 616 pessoas que recebem a estimativa positiva de localização +0,060, com erro padrão, igualmente, de 0,363. Este, observa-se, é o ponto de inflexão dos erros padrão que, ao passar pelo zero, trocam de sinal. Observe-se ainda que este ponto divide a distribuição de escores brutos exatamente ao meio, isto é, a porcentagem acumulada passa de 45,9 para 53,1.

Finalmente, as estatísticas no final da página sintetizam o conjunto de resultados. O Alfa de Cronbach (0,717), na psicometria clássica, reflete a proporção que as intercorrelações entre os itens ocupam na variância total da escala, comparativamente com soma das respectivas variâncias independentes por parte de cada item. Seu entendimento mais comum é o de indicar a consistência interna dos itens. Embora não faça sentido sua consideração substantiva no âmbito da Teoria da Resposta ao Item, especialmente no que diz respeito ao Modelo Rasch, fica aqui registrado como uma das pontes da presente abordagem com os demais resultados da psicometria clássica considerados nesse trabalho, a saber, o índice de discriminação.

 

Mapa de Localização de Pessoas e Questões na Escala ´Logit´ volta ao índice

O curto tempo reservado para exposição e a própria natureza do presente trabalho impedem de entrar em detalhes sobre as estimativas de localização das questões na escala ´logit´ em termos numéricos, com os respectivos erros padrão das estimativas, tal como acabamos de fazer com a localização das pessoas. A análise numérica, mais detalhada, é aqui substituída pela página Mapa de Localização de Pessoas e Itens na qual apresenta-se a localização de pessoas e questões na mesma escala intervalar com unidades 'logit'.

A escala ´logit´ de localização encontra-se do lado esquerdo da tabela, tendo na parte superior o indicativo de posição +3,0 e na parte inferior o indicativo de posição -4,0. As pessoas estão representadas pela letra X maiúscula, sendo que cada X corresponde a 64 pessoas. Essa distribuição apenas gráfica corresponde rigorosamente à distribuição numérica de freqüência que acabamos de examinar na seção anterior. Difere daquela, entretanto, no que diz respeito à posição física relativa a cada unidade de 64 pessoas representadas por um X. As questões estão representadas em posição relativa exatamente correspondente à escala ´logit´ (X) apresentada na página Distribuições IES já comentada, com as distribuições de freqüência de pessoas e itens.

O desajuste de itens extremos foram já praticamente todos detectados pela pesquisa do INEP, analisando em gráficos a relação entre facilidade/dificuldade das questões (X) e o respetivo índice de discriminação (Y) oferecidos pela psicometria clássica. Cabe chamar atenção no gráfico da página Mapa de Localização de Pessoas e Itens sobre a posição relativa dos itens na escala em ´logits´ da estimativa de sua dificuldade/facilidade face à distribuição das estimativas das competências das pessoas na mesma escala.

Imaginemos que a linha vertical pontilhada seja uma dobradiça. Ao dobrar o lado dos itens sobre o lado das pessoas, verifica-se que as questões Q13 e Q05 são as que mais se afastam na direção da dificuldade extrema. Estão separadas por espaço em branco do grupo das três questões abaixo, Q12, Q15 e Q24. Note-se que não há correspondência, do lado oposto, a essas questões. Não há pessoas que a elas correspondam em competência, para que possam ser respondidas com sucesso.

O mesmo acontece no extremo oposto inferior na escala ´logit´. A competência das pessoas está acima da dificuldade dos itens Q35 e Q01. Ambos estes últimos estão muitíssimo acima da questão Q32. Em outras palavras, estas três questões poderiam medir alguma coisa em pessoas de muito menor competência, não encontradas dentre os milhares de formandos que passaram pela provão de Psicologia de 2001. Agora cabe mencionar os itens que se ajustam em maior ou menor grau ao Modelo Rasch.

As questões Q33, Q09, Q17 e Q40 situam-se exatamente no ponto zero da escala ´logit´. Lembremo-nos que a média das dificuldades dos itens é localizada arbitrariamente no ponto zero. Da mesma forma, a média das competências das pessoas está igualmente localizada nesse ponto zero, do lado oposto da escala. Deixando de lado temporariamente o erro padrão da medida tanto para as pessoas (já comentado e apresentado) quanto para os itens (apenas mencionado na apresentação oral e não apresentado aqui), verifica-se que essas questões apresentam a estimativa exata da dificuldade, situada em 0 (zero) ´logits´, de forma que as localizações das pessoas igualmente no zero da escala indicam que têm a probabilidade de 0,50 ou 50% de acertar um desses itens.

Em outras palavras, pessoas com competência de zero ´logits´ têm a probabilidade de 50% de acertar, e 50% de não acertar, os itens a elas opostos no mesmo ponto zero ´logit´ de dificuldade. Se temos o maior número de X´s exatamente no ponto zero da escala ´logit´ (contei 20 X´s), isto significa que 64 x 20 = 1.280 pessoas aproximadamente têm a probabilidade de acertar as questões Q33, Q09, Q17 e Q40 igual à probabilidade de não acertar.

Dizendo ainda de outra maneira, a chance de acertar é exatamente igual à chance de não acertar, ou seja, o odds é de 1 para 1. Essas mesmas mil duzentas e tantas pessoas teriam chances melhores de acertar (acima de 50%) nos itens de dificuldade estimada em ´logits´ negativos e chances piores de acertar (abaixo de 50%) nos itens de dificuldade estimada em ´logits´ positivos. O ponto de 50% de chance de acertar e 50% de chance de não acertar é um limiar, ou "threshold".

Voltando a contar o número de X´s na linha corresponte ao ponto +0,7 da escala ´logit´ na página Mapa de Localização de Pessoas e Itens verificamos que essa linha tem 15 X´s e tem do lado oposto seis questões, Q06, Q36, Q27, Q22, Q23 e Q21. Como cada X representa 64 pessoas nesse mapa, observa-se que as chances das cerca de 15 x 64 = 960 pessoas acertarem cada uma dessas questões isoladamente é de 1 para 1, ou seja, de 50%. Claro que suas chances de não acertar qualquer dessas questões é também de 1 para 1 ou 50%.

Pode-se agora concluir que o Mapa de Localização de Pessoas e Itens agrega em categorias detalhes que individualizam pessoas e questões disponíveis a qualquer momento. Torna-se assim perfeitamente possível identificar quais as pessoas para quem a Q11 apresenta-se como questão de chance 1 para 1. Como tem um único X oposto a ela, sabemos que são cerca de 60 pessoas. Do mesmo modo, cerca de 250 pessoas têm chances iguais (1 para 1) de acertar / não acertar a Q10.

Agora, não seria interessante pesquisar a configuração de acertos e não-acertos em todas as questões das pessoas que acertaram os itens para as quais não houve atribuição alguma de X´s? Por exemplo, as questões Q05 e Q13 foram acertadas por respectivamente 557 e 606 pessoas (tal como indicado na parte inferior da página Psicometria Clássica: Facilidade e Discriminação discutida a seguir). Mas do lado oposto a esses acertos não correspondeu X algum.

Também não houve X algum atribuído às questões Q01, Q32 e Q35. Mas como, se na parte superior da página Psicometria Clássica: Facilidade e Discriminação está dito que, por exemplo, 7.818 pessoas acertaram essa primeira questão?

Não obstante a presença de muitos acertadores, o Modelo Rasch excluiu as pessoas dessas questões (não colocou X algum oposto a elas). Por quê? Minha hipótese, melhor dizendo, meu palpite, foi porque o programa de computador não teria encontrado configuração de respostas suficientemente verossímil ("likely") que tenha passado pelo "pente fino" das iterações sucessivas em busca da estimativa de máxima verossimilhança ("maximum likelihood estimate").

Embora não caiba aqui entrar a fundo neste ponto, menciono a teoria com o objetivo de exemplificar as possibilidades de uso do modelo. A probabilidade de resposta a um conjunto de itens, isto é, a probabilidade de uma determinada configuração de acertos e não-acertos é igual ao produto das probabilidades das respostas da pessoa a cada item individual (ver, por exemplo, Pasquali, 1996, p. 176; Hambleton, Swaminathan & Rogers, 1991, p. 33-35; Embretson & Reise, 2000, p. 53-60).

No nosso caso, a estimativa dos parâmetros de competência (da pessoa) e de dificuldade (da questão) se faz a partir dos dados empíricos iniciais, ou seja, respectivamente, quantas questões a pessoa acertou e quantas pessoas a questão atraiu para a opção certa. Como nos diz Pasquali (1996), o procedimento

"... consiste em se escolher como parâmetros para os itens aqueles valores que maximizam a probabilidade de ocorrência dos dados que de fato apareceram nas respostas dos sujeitos (...) este método de avaliação se chama de máxima verossimilhança (maximum likelihood), porque os valores estimados são os mais verosssímeis, plausíveis, com respeito aos dados obtidos." (Pasquali, 1996, p. 181).

 

O Índice de Facilidade/Dificuldade e o Índice de Discriminação Utilizado pela Pesquisa do INEP volta ao índice

Para finalizar, apresento estatísticas calculadas com o efeito de cotejar os resultados do INEP utilizando recursos da psicometria clássica para a análise de itens, a saber, os índices de facilidade e de discriminação tal como apresentados à Comissão de Psicologia, e alguns dos resultados aqui discutidos até agora.

O exame da tabela Psicometria Clássica: Facilidade e Discriminação apresenta a ordenação das questões pela facilidade/dificuldade como ponto de partida para a ordenação simultânea de pessoas e questões, base fundamental do Modelo Rasch. Os itens estão classificados nas categorias de muito fácil, fácil, médio, difícil e muito difícil, adotada pelo INEP. Dentro de cada categoria as questões foram reclassificadas em ordem alfabética crescente, para facilitar sua localização no cotejo com resultados do INEP.

Logo após o nome está o número total de acertos na questão. Por exemplo, a Questão 01 foi acertada por 7.818 formandos dentre um total de 8.563 aqui examinados. A proporção ´p´ é portanto p = 7.818 / 8.563, ou 0,91 e q = 1 - 0,91, ou 0,09. Na coluna à direita estão os coeficientes de correlação ponto biserial, relacionando a dicotomia acerto/não-acerto com o escore total utilizados para produzir o índice de discriminação.

Por exemplo, para Nunnally & Bernstein (1994), o critério primário para a inclusão de um item no instrumento de medida é o seu índice de discriminação, isto é, a correlação corrigida entre o item e o escore total. Observe-se, entre parênteses, que para esses autores o Modelo Rasch existe apenas como o modelo mais simples, de um parâmetro, da Teoria da Resposta ao Item, "... no qual supõe-se que os itens variem apenas com respeito a sua dificuldade" (Nunnaly & Bernstein, 1994, p. 394). O importante, para esses autores, é a discriminção. Sob todas as circunstâncias práticas, dizem Nunnally & Bernstein, "... itens com altos valores do ´r´ item-total apresentam mais variância relacionada com o que os itens têm em comum e adicionam mais para a fidedignidade do teste do que os itens com valores baixos de ´r´." (1994, p. 305).

Cabe portanto examinar com mais cuidado os itens que atendem a esses requisitos. A questão de mais alta discriminação, a Questão 26 (correlação ponto biserial r p.bis = 0,50) está assinalada em vermelho com três asteriscos (***). As duas questões logo abaixo em capacidade de discriminação são as Questões 27 e 37, assinaladas com dois asteriscos (**). Finalmente, estão assinaladas com um asterisco (*) três outras questões com índice de discriminação menor ou igual a 0,40 (Questões 14, 20 e 40).

Torna-se assim possível, e interessante, cotejar os dados da página Psicometria Clássica: Facilidade e Discriminação com os resultados discutidos até agora. Há grande coincidência de resultados nas questões de melhor discriminação. Por exemplo, todas as onze questões consideradas pelo INEP como de discriminação "excelente" ocupam posições de igual excelência na escala ´logit´ (assinaladas em negrito na página em discussão).

Note-se ainda que a maior parte das questões de maior discriminação não são fáceis nem difíceis, são de facilidade/dificuldade "média" (seis delas, Q03, Q26, Q29, Q37, Q39 e Q40). Embora classificadas como "fáceis", quatro delas discriminam bastante bem (Q08, Q14, Q20 e Q30). Dentre as consideradas "difíceis", apenas uma, a Q27, apresentou boa discriminação.

 

Análise Gráfica das Quarenta Questões do Provão 2001 volta ao índice

Conforme mostrado no início do texto, as quarenta questões da prova de 2001 estão acessíveis diretamente a partir do presente trabalho, de forma a facilitar o exame de suas características de Conteúdo e Habilidade esperados.

Além disso, cada uma delas apresenta gráfico mostrando o comportamento de cada um dos distratores funcionando ao lado da opção correta, com a probabilidade Rasch no eixo dos Y em função da escala ´logit´ no eixo dos X. O comentário detalhado sobre algumas delas fica para a próxima oportunidade de complementar seguidamente esse trabalho em andamento, do qual esta é a primeira apresentação.

 

Referências volta ao índice

Andersen, E. B. & Olsen, L. W. (2001). The life of Georg Rasch as a mathematician and as a statistician. Em A. Boomsma, M. A J. van Duijn & T. A. B. Snijders (Eds.), Essays on item response theory (pp. 3-24). New York: Springer-Verlag.

Andrich, D. (1988). Rasch models for measurement. Newbury Park, CA: Sage.

Andrich, D., Lyne, A., Sheridan, B. & Luo, G. (2001). RUMM2010: Rasch unidimensional measurement models for analysing assessment and attitude questionaire data. Disponível: http://www.rummlab.com.au/. Acessado: 15 de março de 2002.

Bond, T. G. & Fox, C. M. (2001). Applying the Rasch model: Fundamental measurement in the human sciences. Mahwah, NJ: Lawrence Erlbaum.

Embretson, S. E. & Herschberger, S. L. (1999). Summary and future of psychometric methods in testing. Em S. E. Embretson & S. L. Hershberger (Eds.), The new rules of measurement: What every psychologist and educator should know (pp. 243-254). Mahwah, NJ: Lawrence Erlbaum.

Embretson, S. E. & Reise, S. P. (2000). Item response theory for psychologists. Mahwah, NJ: Lawrence Erlbaum.

Fischer, G. H. (1995). Derivations of the Rasch model. Em Fischer, G. H. & Molenaar, I. W. (Eds.), Rasch models: Foundations, recent developments, and applications. New York: Springer-Verlag.

Hambleton, R. K., Swaminathan, H. & Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park, CA: Sage.

Muñiz, J. (1997). Fiabilidad. Em J. Muñiz (Ed.), Psicometría (pp. 1-47). Madrid: Universitas.

Nunnally, J. C. & Bernstein, I. H. (1994). Psychometric theory (3rd. Ed.). New York: McGraw-Hill.

Pasquali, L. (1996). Teoria da resposta ao item - IRT: uma introdução. Em L. Pasquali (Org.), Teoria e métodos de medida em ciências do comportamento (pp. 173-195). Brasíla, DF: INEP.

Pasquali, L. (1997). O investimento em testes psicológicos. Anais do VII Encontro Nacional sobre Testes Psicológicos e I Congresso Ibero-Americano de Avaliação Psicológica (pp. 59-60). Porto Alegre, RS: PUC-RS, UFRGS e UNISINOS.

Rasch, G. (1993). Probabilistic models for some intelligence and attainment tests. With a foreword and afterword by Benjamim D. Wright. Chicago: The University of Chicago Press / MESA Press. (Trabalho original publicado em 1960)

Rost, J. (2001). The growing family of Rasch models. Em A. Boomsma, M. A J. van Duijn & T. A. B. Snijders (Eds.), Essays on item response theory (pp. 25-42). New York: Springer-Verlag.

Thissen, D. & Orlando, M. (2001). Item response theory for items scored in two categories. Em D. Thissen & H. Wainer (Eds.), Test scoring (pp. 73-140). Mahwah, N.J.: Lawrence Erlbaum.

Wright, B. D. (1999). Fundamental measurement for psychology. Em S. E. Embretson & S. L. Hershberger (Eds.), The new rules of measurement: What every psychologist and educator should know (pp. 65-104). Mahwah, NJ: Lawrence Erlbaum.

Wright, B. D. & Stone, M. H. (1979). Best test design. Chicago, IL: Mesa Press.

 

 

 

 

Hosted by www.Geocities.ws

1