869 resultados para item response theory
Resumo:
This paper proposes a framework to analyse performance on multiple choice questions with the focus on linguistic factors. Item Response Theory (IRT) is deployed to estimate ability and question difficulty levels. A logistic regression model is used to detect Differential Item Functioning questions. Probit models testify relationships between performance and linguistic factors controlling the effects of question construction and students’ background. Empirical results have important implications. The lexical density of stems affects performance. The use of non-Economics specialised vocabulary has differing impacts on the performance of students with different language backgrounds. The IRT-based ability and difficulty help explain performance variations.
Resumo:
Resumen: Se aplicó el Modelo de Crédito Parcial (MCP) de la Teoría de Respuesta al Ítem (TRI) al análisis de ítems de una escala que mide Afecto hacia la Matemática. Esta variable describe el interés de los estudiantes de Psicología por involucrarse en actividades vinculadas a la matemática y los sentimientos asociados al uso de sus conceptos. La prueba consta de 8 ítems con formato de respuesta Likert de 6 opciones. Participaron 1875 estudiantes de Psicología de la Universidad de Buenos Aires (Argentina) de los cuales un 82% fueron mujeres. El análisis de la consistencia interna brindó un índice altamente satisfactorio (Alfa = .91). Se verificó la condición de unidimensionalidad requerida por el modelo mediante un análisis factorial exploratorio. Todos los análisis basados sobre la TRI se realizaron con el programa Winsteps. La estimación de los parámetros del modelo se efectuó por Máxima Verosimilitud Conjunta. El ajuste del MCP fue satisfactorio para todos los ítems. La Función de Información del Test fue elevada en un rango amplio de niveles del rasgo latente. Un ítem presentó una inversión en dos parámetros de umbral. Como consecuencia, 1 de las 6 categorías del ítem no fue máximamente probable en ningún intervalo de la escala del rasgo latente. Se analizan las implicancias de este hallazgo en la evaluación de la calidad psicométrica del ítem. Los resultados de este estudio permitieron profundizar el análisis del constructo y aportaron evidencias de validez basadas en las estructura interna de la escala
Resumo:
Building on Item Response Theory we introduce students’ optimal behavior in multiple-choice tests. Our simulations indicate that the optimal penalty is relatively high, because although correction for guessing discriminates against risk-averse subjects, this effect is small compared with the measurement error that the penalty prevents. This result obtains when knowledge is binary or partial, under different normalizations of the score, when risk aversion is related to knowledge and when there is a pass-fail break point. We also find that the mean degree of difficulty should be close to the mean level of knowledge and that the variance of difficulty should be high.
Resumo:
Apresentamos os resultados de nossa pesquisa para concepção, execuçãoo e avaliação de uma ferramenta adaptativa informatizada, denominada DIA, que permita tanto avaliar como fornecer feedback a estudantes sob uma perspectiva de avaliação formativa. Na primeira etapa, usamos os PCN: Ciências da Natureza, Matemática e suas Tecnologias (BRASIL, 1998) e as Matrizes Curriculares de Referência do Instituto Nacional de Estudos e Pesquisas Educacionais - INEP, para o Sistema de Avaliação para a Educação Básica- SAEB (BRASIL, 2005), para construir uma escala, em que os objetivos estão em ordem crescente, de acordo com o desenvolvimento vertical da construção do conhecimento em Matemática. Entrelaçamos os objetivos propostos para criar um Banco de Itens (BI), que foi usado em nossas simulações. Analisamos os resultados obtidos em nosso ensaio para avaliar o diálogo entre o BI e a escala sob a perspectiva de oferecer um diagnóstico de lacunas na construção do conhecimento matemático. Em nosso ensaio, simulamos o funcionamento da ferramenta DIA através de um teste adaptativo informatizado baseado na Teoria de Resposta ao Item (TRI). Também estamos interessados em determinar um perfil de um Banco de Itens, que seja capaz de forma significativa de dialogar com nossa escala através de TRI. A escala e o banco de itens a ela associado devem viabilizar um feedback construtivo que ajude os alunos a desenvolverem competências metacognitivas.
Resumo:
During the past 11 years, with the rapid development of the Internet, more and more psychologists began to realize and take advantage of it, which led to a growing number of psychological test administrated on the internet for data collection. But there were some controversy about the reliability and representatively of this new method. To examine the applicability of the Online Survey and how different types of scales used on the internet, we first reversed the measurement instrument, then from three different levels to investigate the equivalence of online survey and paper-and-pencil assessment, namely, sample level, scale level and item level. Both Classical Test Theory and Item Response Theory were used to analyze the invariance of different types of scale applicability on the internet. The main conclusions of this study could be drawn as follows: 1. In the sample-based study, self-select sample of the online survey was compared to the random sampled sample of paper-and-pencil assessment. The results showed there were no gender difference between them (p>0.05), but the online survey sample was characterized with high qualifications, high-income and younger features (88% of the sample with post-secondary education or above, and 71% aged 20 -29 years). There were significant differences on the scores of all scales between online survey and paper-and-pencil assessment (p<0.01). With demographic controlled, there was no significant difference on the variable of Neurotic between different surveys (p>0.05). 2. With in-group design, it was proved equivalence of the scale of BI (Attitude toward Brand Importance), BT (Attitude toword Brand Switcher), Extraversion, and Conscientiousbess in the compared study in the reliability, construct validity and average scores. 3. On the item level, the results based on the Item Response Theory analysis showed that 2PLM is appropriate for personality and attitude scales. With regard to personality scale, there emerged some items with DIF in the dimensions of Openness to the experience subscale and Agreeable subscale. However, there were no significant differences about the test function. 4. Exploring the psychometrics properties of answer formats of five-, six-, seven-, ten-points, it was showed that different measurement validity between online survey and paper-and-pencil test. It was also described the lower reliability and validity of six-point scale. In conclusion, the results support the application of personality scale online, but for attitude scale, we need to choose prudently.
Resumo:
This paper is about performance assessment in serious games. We conceive serious gaming as a process of player-lead decision taking. Starting from combinatorics and item-response theory we provide an analytical model that makes explicit to what extent observed player performances (decisions) are blurred by chance processes (guessing behaviors). We found large effects both theoretically and practically. In two existing serious games random guess scores were found to explain up to 41% of total scores. Monte Carlo simulation of random game play confirmed the substantial impact of randomness on performance. For valid performance assessments, be it in-game or post-game, the effects of randomness should be included to produce re-calibrated scores that can reasonably be interpreted as the players´ achievements.
Resumo:
Item Response Theory, IRT, is a valuable methodology for analyzing the quality of the instruments utilized in assessment of academic achievement. This article presents an implementation of the mentioned theory, particularly of the Rasch model, in order to calibrate items and the instrument used in the classification test for the Basic Mathematics subject at Universidad Jorge Tadeo Lozano. 509 responses chains of students, obtained in the june 2011 application, were analyzed with a set of 45 items, through eight case studies that are showing progressive steps of calibration. Criteria of validity of items and of whole instrument were defined and utilized, to select groups of responses chains and items that were finally used in the determination of parameters which then allowed the classification of assessed students by the test.
Resumo:
Tese de doutoramento (co-tutela), Psicologia (Psicologia da Educação), Faculdade de Psicologia da Universidade de Lisboa, Faculdade de Psicologia e de Ciências da Educação da Universidade de Coimbra, Technial University of Darmstadt, 2014
Resumo:
Thesis (Ph.D.)--University of Washington, 2015
Resumo:
QUESTIONS UNDER STUDY / PRINCIPLES: The main aim of this study was to investigate profiles of drug users, with a particular focus on illicit drugs other than cannabis, and to explore the effect of early-onset intensive use (drunkenness, daily smoking, high on cannabis) on profiles of illicit drug use. METHODS: Baseline data from a representative sample of 5,831 young Swiss men in the ongoing Cohort Study on Substance Use Risk Factors were used. Substance use (alcohol, tobacco, cannabis and 15 types of other illicit drug) and age of onset of intensive use were assessed. The Item Response Theory (IRT) and prevalence rates at different ages of onset were used to reveal different profiles of illicit drug use. RESULTS: In addition to cannabis, there were two profiles of other illicit drug use: (a) "softer" drug users (uppers, hallucinogens and inhaled drugs), among which ecstasy had the highest discriminatory potential (IRT slope = 4.68, standard error (SE) = 0.48; p <0.001); and (b) "harder" drug users (heroin, ketamine, gamma-hydroxybutyrate/gamma-hydroxylactone, research chemicals, crystal meth and spice), among which ketamine had the highest discriminatory potential (slope = 4.05; SE = 0.63; p <0.001). Onset of intensive use at the age of 12 years or younger also discriminated between these two profiles. CONCLUSION: Both the IRT model and the effect of onset of intensive use enabled two groups of illicit drugs to be identified. In particular, very early onset (at 12 years or younger) intensive use of any substance was a marker for later use of the second group of drugs.
Resumo:
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
Le monde actuel, marqué par une augmentation incessante des exigences professionnelles, requiert des enseignants une adaptation constante aux changements sociaux, culturels et économiques. Si, pour les enseignants expérimentés, l’accommodation à ces transformations est accompagnée de plusieurs défis, pour les nouveaux enseignants qui ne maîtrisent pas complètement tous les aspects de la profession, l’intégration au milieu scolaire peut être extrêmement difficile ou même insupportable, au point où certains quittent le métier. Néanmoins, à force de persévérance, un certain nombre des nouveaux enseignants franchissent les obstacles imposés par la profession. Dans leur cas, la satisfaction et l’engagement professionnel peuvent être des caractéristiques importantes qui les incitent à continuer à exercer leurs activités d’enseignement. Dans ce contexte, l’étude vise l’analyse des éléments liés à la construction de l’identité professionnelle des enseignants lors de leur insertion dans le métier, à partir des perceptions des nouveaux enseignants et de celles des gestionnaires des écoles primaires et secondaires. L’harmonie entre la perception de ces deux groupes d’acteurs scolaires peut constituer un important facteur du rendement des professionnels dans leur métier et de l’efficacité des institutions d’enseignement. Ainsi, du côté des nouveaux enseignants, l’étude examine les variables qui peuvent être liées à leur engagement professionnel et de celui des gestionnaires, elle vise à analyser les éléments qui peuvent être liés à leur satisfaction sur le travail effectué par les nouveaux enseignants. La présente étude, de type quantitatif, est constituée des analyses secondaires des données issues des enquêtes pancanadiennes auprès des directions et des enseignants d’écoles primaires et secondaires du Canada, menées en 2005 et 2006 par une équipe de professeurs de différentes universités canadiennes. Les analyses statistiques sont basées sur deux modèles théoriques : (1) l’engagement professionnel des nouveaux enseignants et (2) la satisfaction des gestionnaires sur le travail effectué par les nouveaux enseignants. Ces modèles sont examinés en suivant la théorie classique des tests (TCT) et celle des réponses aux items (TRI) afin de profiter des avantages de chacune des méthodes. Du côté de la TCT, des analyses de cheminement et des modélisations aux équations structurelles ont été effectuées pour examiner les modèles théoriques. Du côté de la TRI, des modélisations de Rasch ont été utilisées pour examiner les propriétés psychométriques des échelles utilisées par la recherche afin de vérifier si les données sont bien ajustées aux modèles et si les items se regroupent de façon logique pour expliquer les traits latents à l’étude. Les résultats mettent en évidence le rapport humain qui définit la profession enseignante. Autrement dit, pour les nouveaux enseignants, les émotions en classe, conséquence du processus d’interaction avec leurs élèves, sont le facteur majeur lié à l’engagement professionnel. Dans le même sens, la relation des nouveaux enseignants avec les divers membres de la communauté scolaire (parents des élèves, gestionnaires, personnel de l’école et autres enseignants) est un facteur-clé de la satisfaction des gestionnaires quant au travail des nouveaux enseignants. Les analyses indiquent également l’importance de la satisfaction au travail dans le modèle des nouveaux enseignants. Cette variable est un important déterminant de l’engagement professionnel et peut être associée à tous les autres éléments du modèle des nouveaux enseignants. Finalement, les résultats indiquent le besoin de construction des variables latentes avec un plus grand nombre d’items pour mieux positionner les personnes dans l’échelle de mesure. Ce résultat est plutôt important pour le modèle des gestionnaires qui indique de mauvais ajustements items-personnes.
Resumo:
L’utilisation des mesures subjectives en épidémiologie s’est intensifiée récemment, notamment avec la volonté de plus en plus affirmée d’intégrer la perception qu’ont les sujets de leur santé dans l’étude des maladies et l’évaluation des interventions. La psychométrie regroupe les méthodes statistiques utilisées pour la construction des questionnaires et l’analyse des données qui en sont issues. Ce travail de thèse avait pour but d’explorer différents problèmes méthodologiques soulevés par l’utilisation des techniques psychométriques en épidémiologie. Trois études empiriques sont présentées et concernent 1/ la phase de validation de l’instrument : l’objectif était de développer, à l’aide de données simulées, un outil de calcul de la taille d’échantillon pour la validation d’échelle en psychiatrie ; 2/ les propriétés mathématiques de la mesure obtenue : l’objectif était de comparer les performances de la différence minimale cliniquement pertinente d’un questionnaire calculée sur des données de cohorte, soit dans le cadre de la théorie classique des tests (CTT), soit dans celui de la théorie de réponse à l’item (IRT) ; 3/ son utilisation dans un schéma longitudinal : l’objectif était de comparer, à l’aide de données simulées, les performances d’une méthode statistique d’analyse de l’évolution longitudinale d’un phénomène subjectif mesuré à l’aide de la CTT ou de l’IRT, en particulier lorsque certains items disponibles pour la mesure différaient à chaque temps. Enfin, l’utilisation de graphes orientés acycliques a permis de discuter, à l’aide des résultats de ces trois études, la notion de biais d’information lors de l’utilisation des mesures subjectives en épidémiologie.
Resumo:
L’apport disproportionné aux taux de criminalité des membres des gangs de rue est, nul doute, une proposition empirique robuste. De nombreuses études ont conclu que l’association aux gangs de rue est un facteur de risque supplémentaire à celui que constitue déjà la fréquentation de pairs délinquants au nombre des meilleurs prédicteurs de la délinquance avec les antécédents criminels et les traits antisociaux de la personnalité. Pourtant, la contribution spécifique de l’association aux gangs de rue à l’explication de la délinquance est largement méconnue. Au nombre des variables les plus souvent citées pour l’expliquer figure néanmoins le concept de l’adhésion à la culture de gang qui n’a toutefois jamais été spécifiquement opérationnalisé. Le but de la thèse est d’étudier la contribution spécifique de l’adhésion d’un contrevenant à la culture des gangs de rue à l’explication de la délinquance. Plus précisément, elle a comme objectifs de définir la culture des gangs de rue, d’opérationnaliser l’adhésion à la culture des gangs de rue, d’examiner la fidélité de la mesure de l’adhésion à la culture de gang et d’étudier sa relation avec la nature, la variété et la fréquence des conduites délinquantes de contrevenants placés sous la responsabilité des centres jeunesse et des services correctionnels du Québec. Trois articles scientifiques, auxquels un chapitre régulier est joint, ont servi la démonstration de la thèse. D’abord, le premier article présente les démarches relatives au développement de la première Mesure de l’adhésion à la culture de gang, la MACg. Plus précisément, l’article présente la recension des écrits qui a permis de proposer une première définition de la culture de gang et d’opérationnaliser le concept. Il fait aussi état de la démarche de la validation de la pertinence de son contenu et des données préliminaires qui révèlent la très bonne cohérence interne de la MACg. Cette première étude est suivie de la présentation, dans le cadre d’un chapitre régulier, des résultats de l’examen de la cotation des principaux indicateurs de la culture de gang. Cette démarche constitue un complément nécessaire à l’examen de la validité apparente de la MACg. Les résultats révèlent des degrés de concordance très satisfaisants entre les observations de divers professionnels des centres jeunesse et des services correctionnels du Québec qui ont été invités à coter les indicateurs de la culture de gang à partir de deux histoires fictives d’un contrevenant mineur et d’un second d’âge adulte. Puis, le deuxième article présente les résultats d’un premier examen de la fidélité de la MACg à l’aide du modèle de Rasch de la Théorie de la réponse aux items. Ses résultats soutiennent l’unidimensionnalité de la MACg et sa capacité à distinguer des groupes d’items et de personnes le long d’un continuum de gravité d’adhésion à la culture de gang. Par contre, le fonctionnement différentiel et le mauvais ajustement de certains items sont observés, ainsi que l’inadéquation de la structure de réponses aux items (de type Likert) privilégiée lors de l’élaboration de la MACg. Une version réaménagée de cette dernière est donc proposée. Enfin, le troisième et dernier article présente les résultats de l’examen de la relation entre la délinquance et l’adhésion d’un contrevenant à la culture de gang telle que mesurée par la MACg. Les résultats soutiennent l’apport unique de l’adhésion d’un contrevenant à la culture de gang à la diversité et à la fréquence des conduites délinquantes auto-rapportées par des contrevenants placés sous la responsabilité des centres jeunesse et des services correctionnels du Québec. Le score à l’échelle originale et réaménagée de la MACg s’avère, d’ailleurs, un facteur explicatif plus puissant que l’âge, la précocité criminelle, les pairs délinquants et la psychopathie au nombre des meilleurs prédicteurs de la délinquance. L’étude met aussi en lumière l’étroite relation entre une forte adhésion à la culture de gang et la présence marquée de traits psychopathiques annonciatrice de problèmes particulièrement sérieux. Malgré ses limites, la thèse contribuera significativement aux développements des bases d’un nouveau modèle explicatif de l’influence de l’association aux gangs de rue sur les conduites des personnes. La MACg pourra aussi servir à l’évaluation des risques des hommes contrevenants placés sous la responsabilité du système de justice pénale et à l’amélioration de la qualité des interventions qui leur sont dédiées.
Resumo:
Self-report measures of obsessive-compulsive disorder (OCD) in children and adolescents are needed for practical evaluation of severity and treatment response. We compared the self- and parent-report Obsessional Compulsive Inventory Revised (CHOCI-R) to the interview-based Child Yale-Brown Obsessive-Compulsive Scale (CY-BOCS) in a clinical sample of 285 children and adolescents with OCD. Classical test theory and item-response theory were applied to compare the instruments. The self- and parent-report CHOCI-R had good internal consistency and were strongly related to each other. The self- and parent-report CHOCI-R severity scores correlated with the CY-BOCS (Pearson's r 0.55 and 0.45 respectively). The CY-BOCS discriminated better at the severe end of the spectrum. The CHOCI-R provided better discrimination in the mild to moderate range. The time-efficient self- and parent-report alternatives will enable routine measurement of OCD severity in clinical practice. Estimates of equivalent summed scores are provided to facilitate comparison. (c) 2007 Elsevier Ltd. All rights reserved.