Umeå University's logo

umu.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Classifying Previous Covid-19 Infection: Advanced Logistic Regression Approach
Umeå University, Faculty of Science and Technology, Department of Mathematics and Mathematical Statistics.
2023 (English)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesisAlternative title
Klassifiering av tidigare Covid-19 infektion : Avancerad logistisk regressionsmetodik (Swedish)
Abstract [en]

The study aimed to developed a logistic model based on antibody proteins, vaccinations and demographic factors that predicts previous infection in Covid-19. The data set comprised of 2750 individuals from eldercare homes in Sweden, with four test dates executed between October of 2021 and August of 2022. 

Exploratory data analysis revealed bimodal patterns in the antibodies against nucleocapsid protein within the non-infected group, raising suspicions of false negatives in the data. Due to the binary nature of the response and to be interpretable for further research, logistic regressions were used to model the relation between predictors and the logit of the response. Because of low performance scores and high probability for the presence of false negatives, K-means clustering algorithm was performed on the data. As a clustering variable, the logarithm of base 2 of the nucleocapsid protein was used, because of its theoretical relationship with previous infection in Covid-19. 

Observations were reclassified using the clustering technique, and two new logistic models were fitted to the data. The final model contained polynomial terms to handle the non-linear relationship between the logit of the response and the predictors. We found a significant relationship between the logarithm of 2 of nucleocapsid protein and previous Covid-19 infection in the final model, with high prediction results. We reached an F1-score of 0.94, indicating a well-performing model. 

Additionally, an algorithm was created to predict the days since infection, involving the change in nucleocapsid protein from one test date to the next, and a GAM model for fitting a smooth line to the data between nucleocapsid protein as response against the days since infection. Using this algorithm, we reached an absolute mean error between predicted results and actual days since infection of 23 days. This algorithm was later applied to observations reclassified in the clustering process. 

In conclusion, the study successfully reclassified false negative observations with previous Covid-19 infection, and fitted a logistic model with high prediction score with F1-score of 0.94. Finally, an algorithm was created that estimated the days since infection with an absolute mean error of 23 days. 

Abstract [sv]

Syftet med studien var att utveckla en logistisk modell baserad på antikroppsproteiner, vaccinationer och demografiska faktorer som förutsäger tidigare infektion i Covid-19. Datamängden bestod av 2750 individer från äldreboenden i Sverige, med fyra testdatum utförda mellan oktober 2021 och augusti 2022. 

Utforskande dataanalys visade på bimodala mönster i antikroppar mot nukleokapsidprotein inom den icke- infekterade gruppen, vilket gav upphov till misstankar om falskt negativa resultat i datamaterialet. På grund av svarets binära karaktär och för att vara tolkningsbara för vidare forskning användes logistiska regressioner för att modellera förhållandet mellan prediktorer och responsvariabeln. På grund av låga prediktionsresultat och hög sannolikhet av förekomsten av falskt negativa svar utfördes K-means-klusteralgoritmen på datat. Som klustervariabel användes logaritmen av bas 2 för nukleokapsidproteinet, på grund av dess teoretiska samband med tidigare infektion i Covid-19. 

Observationerna omklassificerades med hjälp av klustertekniken, och två nya logistiska modeller anpassades till datat. Den slutliga modellen innehöll polynomiala termer för att hantera det icke-linjära förhållandet mellan responsens logit och prediktorerna. Vi fann ett signifikant samband mellan logaritmen av 2 av nuk- leokapsidprotein och tidigare Covid-19-infektion i den slutliga modellen, med ett högt prediktionsresultat. Vi nådde en F1-score på 0.94. 

Dessutom skapades en algoritm som predicerade dagar sedan infektion med hjälp av förändringen i nukleokap- sidprotein från ett testdatum till nästa, och en GAM-modell för att anpassa ett glidande medelvärdeslinje till datat mellan nukleokapsidprotein som response mot dagarna sedan infektionen. Med hjälp av denna algoritm nåddes ett absolut medelfel på 23 dagar mellan prediktion och faktiskt tid sedan infektionen. Denna algoritm tillämpades senare på observationer som omklassificerats i klusterprocessen. 

Sammanfattningsvis lyckades studien framgångsrikt omklassificera falskt negativa observationer med tidigare Covid-19-infektion och anpassade en logistisk modell med hög prediktionspoäng med en F1-score på 0.94. Slutligen skapades en algoritm som uppskattade dagarna sedan infektionen med ett absolut medelfel på 23 dagar. 

Place, publisher, year, edition, pages
2023.
Keywords [en]
Covid-19, logistic regression, clustering
National Category
Mathematics
Identifiers
URN: urn:nbn:se:umu:diva-210494OAI: oai:DiVA.org:umu-210494DiVA, id: diva2:1772877
External cooperation
Region Västerbotten
Educational program
Master of Science in Engineering and Management
Supervisors
Examiners
Available from: 2023-06-22 Created: 2023-06-22 Last updated: 2023-06-22Bibliographically approved

Open Access in DiVA

Classification_of_previous_infection_master_thesis(16879 kB)325 downloads
File information
File name FULLTEXT01.pdfFile size 16879 kBChecksum SHA-512
4897ff3d69ad40331077cf785b91dd020276be83649d107ea112845827712e8bf05094c585f0bd2a28ab97946b855e72bf91689d42e7c34e9df495b3bf1e2264
Type fulltextMimetype application/pdf

By organisation
Department of Mathematics and Mathematical Statistics
Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 325 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 339 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf