Allelfrequenzschätzungen machen historische Selektionsereignisse sichtbar

BIOspektrum, Sep 2023

Allele frequency shifts can result from adaptation or selection and indicate strategies for coping with stress scenarios. Observing these requires genotyping of hundreds of lines individually or in a pooled sample–both rather costly, especially for species with large genomes. Constructing virtual haplotypes from SNP allele frequencies can drastically reduce genotyping time and costs in pooled sampling. Further, we validated three commonly used genotyping strategies for poolseq in crop species.

Article PDF cannot be displayed. You can download it here:

https://link.springer.com/content/pdf/10.1007/s12268-023-1993-9.pdf

Allelfrequenzschätzungen machen historische Selektionsereignisse sichtbar

470 W I S S EN S CH AFT · S PECIA L : N EX T GE NE R AT ION SE QUE NCI NG Selektion und Evolution Allelfrequenzschätzungen machen historische Selektionsereignisse sichtbar JENS LÉON 1, AGIM BALLVORA 1, MICHAEL SCHNEIDER 1,2 1 INSTITUT FÜR NUTZPFLANZENWISSENSCHAFT UND RESSOURCENSCHUTZ, UNIVERSITÄT BONN 2 DEPARTMENT NUTZPFLANZENWISSENSCHAFTEN, FORSCHUNGSINSTITUT FÜR BIOLOGISCHEN LANDBAU (FIBL), FRICK, SCHWEIZ Allele frequency shifts can result from adaptation or selection and indicate strategies for coping with stress scenarios. Observing these requires genotyping of hundreds of lines individually or in a pooled sample – both rather costly, especially for species with large genomes. Constructing virtual haplotypes from SNP allele frequencies can drastically reduce genotyping time and costs in pooled sampling. Further, we validated three commonly used genotyping strategies for poolseq in crop species. DOI: 10.1007/s12268-023-1993-9 © Die Autoren 2023 ó Die Interpretation der genetischen Diversität in Populationen ist Bestandteil diverser Wissenschaftsfelder und erlangt zunehmend in den angewandten Wissenschaften wie der Landwirtschaft und Züchtung an Bedeutung. Pflanzenpopulationen sind ortstreu und müssen sich daher an die jeweilige Umgebung anpassen. Moderne Genomanalysen sind in der Lage diejenigen Muster zu erkennen, die die Adaptation an die Umgebung in der genetischen Struktur der Individuen hin- terlassen hat. Durch die Selektionsvorgänge gegen oder zugunsten relevanter Eigenschaften haben sich die Allelfrequenzen der betroffenen Genregionen verändert. Je kürzer bestimmte Ereignisse zurückliegen oder je heftiger die Selektionswirkung war, desto ausgeprägter sind die Adaptationsmuster in der Population zu erkennen. Diese Regionen, die selective sweeps genannt werden, geben Aufschluss über die Anpassung an veränderte Umweltbedingungen und können somit als Methode zur Identifikation von Kandidatengenregionen verstanden werden (GenotypUmwelt-Assoziationen). Um die selective sweeps erkennen zu können, sind präzise Messungen der Allelfrequenzen in den Populationen notwendig. Da die Genotypisierung von einzelnen Individuen zur Allelfrequenzschätzung aufwändig und teuer ist, bietet die Pool-Sequenzierung den Vorteil der Skalierung mit der Anzahl der zu testenden Proben, ohne dass Kosten stark steigen. Obwohl die Pool-Sequenzierung bereits zu einer deutlichen Zeit- und Kostenreduktion gegenüber der Einzelpflanzen-Genotypisierung führt, kann die notwendige hochauflösende Sequenzierung Projektbudgets trotzdem übersteigen, da unsere Kulturarten regelmäßig große Genome besitzen. Kostengünstige Sequenziermethoden führen zumeist zu einer geringeren Abdeckung des Genoms. Erschwerend kommt hinzu, dass der Genomaufbau insbesondere bei Kulturarten – durch beispielsweise Autopolyploidie oder repetitive Sequenzen – Probleme bereiten kann. Haplotypfrequenz statt Allelfrequenz Für Pool-Sequenzierungen werden üblicherweise Abdeckungsraten von 50–100x und mehr empfohlen. Um die Kosten weiter zu senken, könnte diese Sequenziertiefe redu¯ Abb. 1: Von der SNP zur HaplotypAllelfrequenz. Grafische Veranschaulichung der Gen-, Marker- oder Contigannotierten Haplotypen. BIOspektrum | 05.23 | 29. Jahrgang 471 ziert werden. Bei einer Abdeckung von unter 50 Sequenzen pro Base ist allerdings eine Angabe der Allelfrequenz eines single nucleotid polymorphismus (SNP) unzuverlässig [1, 2]. Bei der Auswertung kann man sich allerdings zu Nutze machen, dass die zahlreichen SNP auf dem Genom strukturiert vorliegen. Viele von ihnen sind miteinander gekoppelt und nur voneinander getrennt, wenn Kopplungsbrüche bzw. crossing over-Ereignisse während der jüngsten Meiosen zwischen diesem Paar von SNPs stattgefunden haben. Somit tragen die SNPs aus genetischer Sicht de facto dieselbe Information. Addiert man nun die Sequenzen dieser beiden SNPs zusammen, lässt sich die Lesetiefe des Haplotypen, der aus den beiden SNP gebildet wird, verdoppeln. Summiert man die Lesetiefe von zehn SNP bei einer durchschnittlichen Abdeckung von zehn Sequenzen pro SNP zusammen, ergibt sich eine HaplotypSequenztiefe von 100x – ausreichend zur genauen Bestimmung der Allelfrequenz. Möglich macht es die Tatsache, dass Kopplungsbrüche über das Genom gesehen verhältnismäßig selten sind. Die Zahl der Kopplungsbrüche ist allerdings nicht statisch. Sie ist u. a. abhängig von der spezifischen Region in den jeweiligen Chromosomen, dem Genomaufbau und den Umweltbedingungen [3]. Es bleibt gleichwohl festzuhalten, dass Kopplungsbrüche selten sind. Gehen wir in der hier getesteten Gerste beispielhaft von 3–5 Rekombinationen (also erkennbare Kopplungsbrüche) pro Chromosom und Individuum aus, ist in einer Poolprobe von 300 BIOspektrum | 05.23 | 29. Jahrgang Genotypen entsprechend mit etwa 900– 1.500 pro Chromosom zu rechnen. Auf eine durchschnittliche Chromosomengröße bei Gerste von 600 Megabasen (MB) bezogen, hieße das alle 4 bis 7 Kilobasen eine Rekombination. Die Haplotypen können auf verschiedene Arten konstruiert werden. Neben der Möglichkeit ganze Genomabschnitte in „Haplotyp-Contigs zu clustern, gibt es einen selektiven Ansatz, in dem bekannte Gene oder Marker als Anker für die Haplotypen genutzt werden, womit eine funktionale Analyse angeschlossen werden kann. Nachteilig an diesem Ansatz ist, dass mit der Reduktion auf die Genregionen viele SNPs nicht zugeordnet werden können, da sie außerhalb der Gene liegen (Abb. 1). In der Tat ist der Großteil der SNP außerhalb der Gene zu verorten, weshalb es vorteilhaft ist, die Regionen zwischen den Genen ebenfalls zu nutzen. Der von uns gewählte Ansatz erweitert dabei die Start- und Endbase eines Gens in die InterGenregion so weit, dass die Lücke zu 90 Prozent geschlossen wird. Somit können die meisten SNPs in der Nähe der Gene auch diesen noch zugeordnet werden, wodurch die Lesetiefe von durchschnittlich 9 je SNP auf 963 je Gen-Haplotyp erhöht werden kann. Neben der Zusammenführung von SNPs in Haplotypfenstern ist ein nicht minder wichtiger Aspekt die korrekte Zuordnung der Allele der einzelnen SNPs zueinander. Woher soll bekannt sein, ob die drei Basenpaare G-A, A-G & A-C auf den Genomposition 10, 45 und 120 zu den Haplotypen GAA, GGA, GGC, GAA, GAC, AAA, AGA, AGC oder AAC zusammengefasst werden müssen? Hilfreich wäre hierbei, wenn eine Referenz bekannt ist: Sie könnte Aufschluss darüber geben, welcher der neun möglichen Haplotypen existent ist und welcher höchstwahrscheinlich nicht. Im Fall der Züchtung kann diese Referenz beispielsweise durch ein oder mehrere Eltern gebildet werden, die zur Erstellung der Population miteinander gekreuzt wurden. Sequenziert man diese im Zuge der Analyse mit, ist ihr Haplotyp bekannt – vorausgesetzt, es handelt sich um homozygote Individuen. Bei heterozygoten Eltern ist ein phasing notwendig, um die beiden Haplotypen je Elter unterscheiden zu können. Dies ist beispielsweise durch das Sequenzieren mit Long-Reads wie Hi-Fi oder Nanopore möglich. Validierung des (...truncated)


This is a preview of a remote PDF: https://link.springer.com/content/pdf/10.1007/s12268-023-1993-9.pdf
Article home page: https://link.springer.com/article/10.1007/s12268-023-1993-9

Léon, Jens, Ballvora, Agim, Schneider, Michael. Allelfrequenzschätzungen machen historische Selektionsereignisse sichtbar, BIOspektrum, 2023, pp. 470-474, Volume 29, Issue 5, DOI: 10.1007/s12268-023-1993-9