Umeå universitets logga

umu.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Finding fitness: empirical and theoretical explorations of inferring fitness effects from population-level SNP data
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för ekologi, miljö och geovetenskap. Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Umeå Plant Science Centre (UPSC). (Evolutionary Biology (PI: Xiao-Ru Wang))ORCID-id: 0000-0002-7657-6933
2024 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)Alternativ titel
Jakten på fitness : empiriska och teoretiska undersökningar av hur mutationers fitness-effekter beräknas från SNP-data på populationsnivå (Svenska)
Abstract [en]

The distribution of fitness effects (DFE) describes the likelihood that a new mutation has a specific effect on the fitness of an individual in a given population. The shape of the DFE is a result of several factors such as population size, mating system and selective environment, and can in turn influence the evolutionary potential of a species. The DFE has long been a field of intense research, but particularly since molecular methods enabled us to study of genetic variation in organisms empirically. This research has led to the development of several statistical methods that use population-level frequencies of single nucleotide polymorphisms (SNPs) to infer the DFE. However, these methods rely on assumptions about the data and the organism itself, which could potentially affect the accuracy of the inferences. In this thesis, I describe how two major factors – data quality and inbreeding – can affect the accuracy of DFE inferences. I also show how and when to (and when not to) use DFE inference methods based on SNP frequencies.

All genomic datasets contain inaccuracies and some level of uncertainty. The data sets are therefore often treated to remove the gaps or less reliable information, such as genotypes with low coverage. Some data sets need heavy filtering, which could reduce the amount of data available for analysis. We show that the choice of filter method affects the size of the final data set and the accuracy of the estimated DFE.

Many DFE estimation software assumes random mating within the study population. Unfortunately, this assumption induces some error when trying to estimate the DFE in inbred or selfing species. Some have assumed that this is a result of high rates of homozygosity in the data, and should only be a problem in populations with very high rates of selfing (>99%). We show that accuracy of the estimated DFE decreases already at relatively low rates of selfing (70%) and that removing homozygosity does not improve the accuracy, implying that another mechanism could be causing the error.

Abstract [sv]

Nya mutationer kan ha olika effekt på fitness hos en individ; en mutation kan vara negativ, neutral eller positiv för överlevnad och/eller reproduktion. Sannolikheten att en mutation har en specifik påverkan på fitness kan beskrivas av fördelningen av fitnesseffekter, i vetenskaplig litteratur kallad "the distribution of fitness effects” eller DFE. Formen på DFEn hos en art eller population påverkas av faktorer såsom effektiv populationsstorlek, parningssystem och miljö, och kan i sin tur påverka artens/populationens evolutionspotential. Hur DFEn ser ut hos olika arter har länge varit ett aktivt forskningsfält, och fick ytterligare ett uppsving efter att molekylära metoder gjorde det möjligt att studera genetisk variation empiriskt. Denna utveckling ledde även till att en uppsjö av statistiska metoder utvecklades för att uppskatta DFEn från allelfrekvenser hos punktmutationer i en population. Dessa modeller bygger emellertid på ett antal antaganden om populationen och datan, där osanna antaganden kan orsaka feluppskattningar av DFEn. I denna avhandling undersöker jag hur två faktorer – datakvalitet och inavel – kan påverka hur väl dessa metoder uppskattar den korrekta DFEn. Jag beskriver även hur och när man bör (och inte bör) använda allelefrekvensbaserade metoder för att uppskatta DFE hos en art.

Alla genomiska dataset innehåller en viss grad av osäkerhet och kan sakna information för vissa individer och/eller platser i genomet. Denna sortens data brukar därför förbehandlas för att exkludera obefintliga, osäkra och eventuellt felaktiga data. Vissa behandlingsmetoder kan exkludera stora delar data, beroende på hur mönstret av osäker data ser ut. Jag visar att mängden och magnituden hos feluppskattningar av DFEn beror på både valet av filtreringsmetod och storleken på det slutgiltiga datasetet.

  Många metoder för DFE-uppskattning utgår ifrån teoretiska modeller som antar slumpmässig parning inom studiepopulationen. Detta antagande kan dock introducera feluppskattningar när de används på inavlade och/eller självbefruktande arter. Vissa tidigare studier har påstått att denna effekt beror på inavlade arters höga homozygositet, och bara borde vara ett problem vid stark inavel eller nästan uteslutande (>99%) självbefruktning. Jag beskriver här att feluppskattningar av DFEn blir vanligare redan vid lägre förekomst av självbefruktning (70-80%), samt att homozygositet i sig inte verkar vara den ledande orsaken till feluppskattningar av DFEn. Detta tyder därmed på att någon annan mekanism orsakar de större felmarginaler vi ser vid DFE-analys av inavlade arter.

Ort, förlag, år, upplaga, sidor
Umeå University, 2024. , s. 45
Nyckelord [en]
distribution of fitness effects, site frequency spectra, missing data filtering, downsampling, imputation, sample size, population structure, inbreeding, selfing, homozygosity, Arabidopsis, Pinus, DFE-alpha, SLiM, population genomics, adaptation
Nationell ämneskategori
Evolutionsbiologi
Forskningsämne
biologi; evolutionär genetik; populationsbiologi; molekylärbiologi; genetik
Identifikatorer
URN: urn:nbn:se:umu:diva-219262ISBN: 978-91-8070-269-0 (digital)ISBN: 978-91-8070-268-3 (tryckt)OAI: oai:DiVA.org:umu-219262DiVA, id: diva2:1825676
Disputation
2024-02-02, MA121, MIT-huset, Campustorget 5, Umeå, 09:00 (Engelska)
Opponent
Handledare
Tillgänglig från: 2024-01-12 Skapad: 2024-01-10 Senast uppdaterad: 2024-01-10Bibliografiskt granskad
Delarbeten
1. Inference of the distribution of fitness effects of mutations is affected by single nucleotide polymorphism filtering methods, sample size and population structure
Öppna denna publikation i ny flik eller fönster >>Inference of the distribution of fitness effects of mutations is affected by single nucleotide polymorphism filtering methods, sample size and population structure
Visa övriga...
2023 (Engelska)Ingår i: Molecular Ecology Resources, ISSN 1755-098X, E-ISSN 1755-0998, Vol. 23, nr 7, s. 1589-1603Artikel i tidskrift (Refereegranskat) Published
Abstract [en]

The distribution of fitness effects (DFE) of new mutations has been of interest to evolutionary biologists since the concept of mutations arose. Modern population genomic data enable us to quantify the DFE empirically, but few studies have examined how data processing, sample size and cryptic population structure might affect the accuracy of DFE inference. We used simulated and empirical data (from Arabidopsis lyrata) to show the effects of missing data filtering, sample size, number of single nucleotide polymorphisms (SNPs) and population structure on the accuracy and variance of DFE estimates. Our analyses focus on three filtering methods—downsampling, imputation and subsampling—with sample sizes of 4–100 individuals. We show that (1) the choice of missing-data treatment directly affects the estimated DFE, with downsampling performing better than imputation and subsampling; (2) the estimated DFE is less reliable in small samples (<8 individuals), and becomes unpredictable with too few SNPs (<5000, the sum of 0- and 4-fold SNPs); and (3) population structure may skew the inferred DFE towards more strongly deleterious mutations. We suggest that future studies should consider downsampling for small data sets, and use samples larger than 4 (ideally larger than 8) individuals, with more than 5000 SNPs in order to improve the robustness of DFE inference and enable comparative analyses.

Ort, förlag, år, upplaga, sidor
John Wiley & Sons, 2023
Nyckelord
DFE, missing-data treatment, population structure, sample size, SLiM simulation
Nationell ämneskategori
Evolutionsbiologi
Identifikatorer
urn:nbn:se:umu:diva-211803 (URN)10.1111/1755-0998.13825 (DOI)001015493200001 ()37340611 (PubMedID)2-s2.0-85162975600 (Scopus ID)
Forskningsfinansiär
VetenskapsrådetSwedish National Infrastructure for Computing (SNIC)
Tillgänglig från: 2023-07-11 Skapad: 2023-07-11 Senast uppdaterad: 2024-07-02Bibliografiskt granskad
2. Effects of self-fertilization on DFE inference
Öppna denna publikation i ny flik eller fönster >>Effects of self-fertilization on DFE inference
Visa övriga...
(Engelska)Manuskript (preprint) (Övrigt vetenskapligt)
Nationell ämneskategori
Evolutionsbiologi
Identifikatorer
urn:nbn:se:umu:diva-219259 (URN)
Tillgänglig från: 2024-01-10 Skapad: 2024-01-10 Senast uppdaterad: 2024-01-10
3. Genomic clines across the species boundary between a hybrid pine and its progenitor in the eastern Tibetan Plateau
Öppna denna publikation i ny flik eller fönster >>Genomic clines across the species boundary between a hybrid pine and its progenitor in the eastern Tibetan Plateau
Visa övriga...
2023 (Engelska)Ingår i: Plant Communications, E-ISSN 2590-3462, Vol. 4, nr 4, artikel-id 100574Artikel i tidskrift (Refereegranskat) Published
Abstract [en]

Most species have clearly defined distribution ranges and ecological niches. The genetic and ecological causes of species differentiation and the mechanisms that maintain species boundaries between newly evolved taxa and their progenitors are, however, less clearly defined. This study investigated the genetic structure and clines in Pinus densata, a pine of hybrid origin on the southeastern Tibetan Plateau, to gain an understanding of the contemporary dynamics of species barriers. We analyzed genetic diversity in a range-wide collection of P. densata and representative populations of its progenitors, Pinus tabuliformis and Pinus yunnanensis, using exome capture sequencing. We detected four distinct genetic groups within P. densata that reflect its migration history and major gene-flow barriers across the landscape. The demographies of these genetic groups in the Pleistocene were associated with regional glaciation histories. Interestingly, population sizes rebounded rapidly during interglacial periods, suggesting persistence and resilience of the species during the Quaternary ice age. In the contact zone between P. densata and P. yunnanensis, 3.36% of the analyzed loci (57 849) showed exceptional patterns of introgression, suggesting their potential roles in either adaptive introgression or reproductive isolation. These outliers showed strong clines along critical climate gradients and enrichment in a number of biological processes relevant to high-altitude adaptation. This indicates that ecological selection played an important role in generating genomic heterogeneity and a genetic barrier across a zone of species transition. Our study highlights the forces that operate to maintain species boundaries and promote speciation in the Qinghai-Tibetan Plateau and other mountain systems.

Ort, förlag, år, upplaga, sidor
Cell Press, 2023
Nyckelord
demographic history, ecological selection, genomic cline, introgression outliers, reproductive isolation, species boundary
Nationell ämneskategori
Genetik och genomik
Identifikatorer
urn:nbn:se:umu:diva-208078 (URN)10.1016/j.xplc.2023.100574 (DOI)001040425100001 ()2-s2.0-85153500172 (Scopus ID)
Forskningsfinansiär
Vetenskapsrådet, 2017-04686
Tillgänglig från: 2023-05-17 Skapad: 2023-05-17 Senast uppdaterad: 2025-04-24Bibliografiskt granskad
4. Adaptive radiation of the Eurasian Pinus species under pervasive gene flow
Öppna denna publikation i ny flik eller fönster >>Adaptive radiation of the Eurasian Pinus species under pervasive gene flow
Visa övriga...
(Engelska)Manuskript (preprint) (Övrigt vetenskapligt)
Nationell ämneskategori
Evolutionsbiologi
Identifikatorer
urn:nbn:se:umu:diva-219261 (URN)
Tillgänglig från: 2024-01-10 Skapad: 2024-01-10 Senast uppdaterad: 2024-07-02

Open Access i DiVA

fulltext(1117 kB)179 nedladdningar
Filinformation
Filnamn FULLTEXT02.pdfFilstorlek 1117 kBChecksumma SHA-512
4c225fcaa25f7f2c5bfe6652064aafc544f5aa7d0ad6c7026fa7820037ef5c7ea9d87a0e050dbaa52731eff9ab424cfd123cc24740062ef9750844edc095d816
Typ fulltextMimetyp application/pdf
spikblad(106 kB)55 nedladdningar
Filinformation
Filnamn SPIKBLAD02.pdfFilstorlek 106 kBChecksumma SHA-512
c2f2bf9d4e581782dff70e292deddc810612721a37c41f572f99daa76b9ce19c666e2944d7b6be11638d489ad78bd1d2e62c37d3e6b61d96afe93f32b4fd32ff
Typ spikbladMimetyp application/pdf

Person

Andersson, Bea Angelica

Sök vidare i DiVA

Av författaren/redaktören
Andersson, Bea Angelica
Av organisationen
Institutionen för ekologi, miljö och geovetenskapUmeå Plant Science Centre (UPSC)
Evolutionsbiologi

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 179 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

isbn
urn-nbn

Altmetricpoäng

isbn
urn-nbn
Totalt: 891 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf