Tidigare studier har visat att koefficientskattningar för logistisk regression inte är pålitliga när EPV (events per variable, händelser per variabel) är lågt. Baserat på dessa studier har en tumregel på minst 10 EPV föreslagits. Tumregeln kallas ’rule of ten’ och är vad som har undersökts i den här studien. För att utvärdera tumregeln gjordes en simuleringsstudie, i programmeringsspråket R, där nya datamaterial genererades baserat på ett verkligt datamaterial. 500 datamaterial genererades för varje stickprovsstorlek och EPV. För varje datamaterial skattades nya modeller och modellernas koefficienter användes för utvärderingen. Totalt analyserades 10 olika EPV och 18 stickprovsstorlekar. Resultaten bekräftar tidigare studier som visat att flera problem kan uppstå vid låga EPV och att stickprovsstorleken har mindre påverkan på resultaten. Problemen är också starkt relaterade till sambandet mellan förklarings- och responsvariabeln.
Previous studies have shown that coefficient estimates for logistic regression are not reliable when EPV (events per variable, events per variable) is low. Based on these studies, a rule of thumb of at least 10 EPV has been proposed. The rule of thumb is called the 'rule of ten' and is what is being investigated in this study. To evaluate the rule of thumb, a simulation study was performed in the programming language R, where new datasets were generated based on an original dataset. 500 datasets were generated for each sample size and EPV. For each dataset, new models were evaluated which are evaluated by comparisons with the original model. A total of 10 different EPVs and 18 sample sizes were analyzed. The results confirm previous studies that have shown that several problems can occur at low EPV and that the sample size has a lesser effect on the results. The problems are also strongly related to the relationship between the independent and the dependent variable.