En jämförande simuleringsstudie av ekvivaleringsmetoder
2023 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
A comparative simulation study of equating methods (English)
Abstract [sv]
Högskoleprovet används för antagning till universitet och högskola och kan således vara avgörande för en individs framtid. Därför är det viktigt att den erhållna poängen är baserad på individens kunskapsnivå och inte provets svårighetsnivå. För att säkerställa detta används olika ekvivaleringsmetoder som omvandlar råpoängen från provet till ett ekvivalerat poäng, för att sedan omvandla det till ett normerat poäng. I högskoleprovet är den normerade poängen mellan 0.0 och 2.0.
Även om det går att se till att proven från år till år ligger på ungefär samma svårighetsnivå går det inte att kontrollera att provtagargrupperna inte skiljer sig åt åren emellan. Denna studies syfte är därför att ta reda på om det finns någon av tre utvalda ekvivaleringsmetoder, linjär ekvivalering, ekvi-percentil ekvivalering och Item Response Theory ekvivalering (IRT) som presterar bättre än de andra vid två scenarion. Det ena scenariot är när två provtagargrupper har samma generella förmåga medan det andra scenariot ekvivalerar två grupper som skiljer sig åt i förmåga. Detta kontrolleras genom att genomföra studien med simulerat data som liknar högskoleprovet. Syftet med att använda simulerat data är att under kontrollerade förhållanden välja provtagarnas förmåga och provens svårighetsgrad. Jämförelser av metoderna görs genom utvärderingsmåtten bias, medelfel och Root Mean Squared Error (RMSE), samt Difference That Matters (DTM).
Resultatet visade att samtliga metoder presterar tillräckligt bra när grupperna har samma generella förmåga. Om de däremot inte har samma generella förmåga bör samtliga eller till och med fler metoder användas innan den ekvivalerade poängen tas fram.
Abstract [en]
The Swedish Scholastic Aptitude Test (SweSAT) is used for college admissions and can therefore be crucial for an individuals’ future. This is one reason why it is important that the test scores are based on the persons’ ability and is not dependent on variation of difficulty between test versions. To ensure that this is the case different equating methods are used to transform the raw score of the test to an equated score. The SweSAT then standardizes the equated score to a scale between 0.0 and 2.0.
Even if it is possible to make sure that the test versions from one year to another are at a similar difficulty level it is not possible to account for the difference between the groups taking the test each time. This study aims to investigate whether any of three chosen equating methods, linear equating, equi-percentile equating and Item Response Theory equating (IRT), perform better than any of the others in two scenarios. The scenarios are when the equated groups generally have the same general ability and when the equated groups differ in ability. This is controlled by performing the study on simulated data made to resemble the SweSAT. The purpose of simulating data is to, in a controlled environment, adjust the test takers abilities and the difficulty of each test version. For comparison between the methods this study uses the Difference That Matters (DTM), Standard Error, bias and Root Mean Squared Error (RMSE).
The conclusion drawn is that all methods perform decently when the groups have the same ability, although when the groups have a different ability it is more difficult for all the methods to present a decent equated score. Therefore, several equating methods should be performed before setting the final score.
Place, publisher, year, edition, pages
2023.
National Category
Probability Theory and Statistics
Identifiers
URN: urn:nbn:se:umu:diva-214176OAI: oai:DiVA.org:umu-214176DiVA, id: diva2:1795021
2023-09-072023-09-072023-09-07Bibliographically approved