Umeå University's logo

umu.sePublikasjoner
Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Classifying Previous Covid-19 Infection: Advanced Logistic Regression Approach
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för matematik och matematisk statistik.
2023 (engelsk)Independent thesis Advanced level (professional degree), 20 poäng / 30 hpOppgaveAlternativ tittel
Klassifiering av tidigare Covid-19 infektion : Avancerad logistisk regressionsmetodik (svensk)
Abstract [en]

The study aimed to developed a logistic model based on antibody proteins, vaccinations and demographic factors that predicts previous infection in Covid-19. The data set comprised of 2750 individuals from eldercare homes in Sweden, with four test dates executed between October of 2021 and August of 2022. 

Exploratory data analysis revealed bimodal patterns in the antibodies against nucleocapsid protein within the non-infected group, raising suspicions of false negatives in the data. Due to the binary nature of the response and to be interpretable for further research, logistic regressions were used to model the relation between predictors and the logit of the response. Because of low performance scores and high probability for the presence of false negatives, K-means clustering algorithm was performed on the data. As a clustering variable, the logarithm of base 2 of the nucleocapsid protein was used, because of its theoretical relationship with previous infection in Covid-19. 

Observations were reclassified using the clustering technique, and two new logistic models were fitted to the data. The final model contained polynomial terms to handle the non-linear relationship between the logit of the response and the predictors. We found a significant relationship between the logarithm of 2 of nucleocapsid protein and previous Covid-19 infection in the final model, with high prediction results. We reached an F1-score of 0.94, indicating a well-performing model. 

Additionally, an algorithm was created to predict the days since infection, involving the change in nucleocapsid protein from one test date to the next, and a GAM model for fitting a smooth line to the data between nucleocapsid protein as response against the days since infection. Using this algorithm, we reached an absolute mean error between predicted results and actual days since infection of 23 days. This algorithm was later applied to observations reclassified in the clustering process. 

In conclusion, the study successfully reclassified false negative observations with previous Covid-19 infection, and fitted a logistic model with high prediction score with F1-score of 0.94. Finally, an algorithm was created that estimated the days since infection with an absolute mean error of 23 days. 

Abstract [sv]

Syftet med studien var att utveckla en logistisk modell baserad på antikroppsproteiner, vaccinationer och demografiska faktorer som förutsäger tidigare infektion i Covid-19. Datamängden bestod av 2750 individer från äldreboenden i Sverige, med fyra testdatum utförda mellan oktober 2021 och augusti 2022. 

Utforskande dataanalys visade på bimodala mönster i antikroppar mot nukleokapsidprotein inom den icke- infekterade gruppen, vilket gav upphov till misstankar om falskt negativa resultat i datamaterialet. På grund av svarets binära karaktär och för att vara tolkningsbara för vidare forskning användes logistiska regressioner för att modellera förhållandet mellan prediktorer och responsvariabeln. På grund av låga prediktionsresultat och hög sannolikhet av förekomsten av falskt negativa svar utfördes K-means-klusteralgoritmen på datat. Som klustervariabel användes logaritmen av bas 2 för nukleokapsidproteinet, på grund av dess teoretiska samband med tidigare infektion i Covid-19. 

Observationerna omklassificerades med hjälp av klustertekniken, och två nya logistiska modeller anpassades till datat. Den slutliga modellen innehöll polynomiala termer för att hantera det icke-linjära förhållandet mellan responsens logit och prediktorerna. Vi fann ett signifikant samband mellan logaritmen av 2 av nuk- leokapsidprotein och tidigare Covid-19-infektion i den slutliga modellen, med ett högt prediktionsresultat. Vi nådde en F1-score på 0.94. 

Dessutom skapades en algoritm som predicerade dagar sedan infektion med hjälp av förändringen i nukleokap- sidprotein från ett testdatum till nästa, och en GAM-modell för att anpassa ett glidande medelvärdeslinje till datat mellan nukleokapsidprotein som response mot dagarna sedan infektionen. Med hjälp av denna algoritm nåddes ett absolut medelfel på 23 dagar mellan prediktion och faktiskt tid sedan infektionen. Denna algoritm tillämpades senare på observationer som omklassificerats i klusterprocessen. 

Sammanfattningsvis lyckades studien framgångsrikt omklassificera falskt negativa observationer med tidigare Covid-19-infektion och anpassade en logistisk modell med hög prediktionspoäng med en F1-score på 0.94. Slutligen skapades en algoritm som uppskattade dagarna sedan infektionen med ett absolut medelfel på 23 dagar. 

sted, utgiver, år, opplag, sider
2023.
Emneord [en]
Covid-19, logistic regression, clustering
HSV kategori
Identifikatorer
URN: urn:nbn:se:umu:diva-210494OAI: oai:DiVA.org:umu-210494DiVA, id: diva2:1772877
Eksternt samarbeid
Region Västerbotten
Utdanningsprogram
Master of Science in Engineering and Management
Veileder
Examiner
Tilgjengelig fra: 2023-06-22 Laget: 2023-06-22 Sist oppdatert: 2023-06-22bibliografisk kontrollert

Open Access i DiVA

Classification_of_previous_infection_master_thesis(16879 kB)325 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 16879 kBChecksum SHA-512
4897ff3d69ad40331077cf785b91dd020276be83649d107ea112845827712e8bf05094c585f0bd2a28ab97946b855e72bf91689d42e7c34e9df495b3bf1e2264
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 325 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 339 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf