Allelfrequenzschätzungen machen historische Selektionsereignisse sichtbar
470
W I S S EN S CH AFT · S PECIA L : N EX T GE NE R AT ION SE QUE NCI NG
Selektion und Evolution
Allelfrequenzschätzungen machen
historische Selektionsereignisse sichtbar
JENS LÉON 1, AGIM BALLVORA 1, MICHAEL SCHNEIDER 1,2
1 INSTITUT FÜR NUTZPFLANZENWISSENSCHAFT UND RESSOURCENSCHUTZ,
UNIVERSITÄT BONN
2 DEPARTMENT NUTZPFLANZENWISSENSCHAFTEN, FORSCHUNGSINSTITUT
FÜR BIOLOGISCHEN LANDBAU (FIBL), FRICK, SCHWEIZ
Allele frequency shifts can result from adaptation or selection and
indicate strategies for coping with stress scenarios. Observing these
requires genotyping of hundreds of lines individually or in a pooled
sample – both rather costly, especially for species with large genomes.
Constructing virtual haplotypes from SNP allele frequencies can drastically reduce genotyping time and costs in pooled sampling. Further,
we validated three commonly used genotyping strategies for poolseq
in crop species.
DOI: 10.1007/s12268-023-1993-9
© Die Autoren 2023
ó Die Interpretation der genetischen Diversität in Populationen ist Bestandteil diverser
Wissenschaftsfelder und erlangt zunehmend
in den angewandten Wissenschaften wie der
Landwirtschaft und Züchtung an Bedeutung.
Pflanzenpopulationen sind ortstreu und
müssen sich daher an die jeweilige Umgebung anpassen. Moderne Genomanalysen
sind in der Lage diejenigen Muster zu erkennen, die die Adaptation an die Umgebung in
der genetischen Struktur der Individuen hin-
terlassen hat. Durch die Selektionsvorgänge
gegen oder zugunsten relevanter Eigenschaften haben sich die Allelfrequenzen der
betroffenen Genregionen verändert. Je kürzer bestimmte Ereignisse zurückliegen oder
je heftiger die Selektionswirkung war, desto
ausgeprägter sind die Adaptationsmuster in
der Population zu erkennen. Diese Regionen,
die selective sweeps genannt werden, geben
Aufschluss über die Anpassung an veränderte Umweltbedingungen und können somit als
Methode zur Identifikation von Kandidatengenregionen verstanden werden (GenotypUmwelt-Assoziationen).
Um die selective sweeps erkennen zu können, sind präzise Messungen der Allelfrequenzen in den Populationen notwendig. Da
die Genotypisierung von einzelnen Individuen zur Allelfrequenzschätzung aufwändig
und teuer ist, bietet die Pool-Sequenzierung
den Vorteil der Skalierung mit der Anzahl
der zu testenden Proben, ohne dass Kosten
stark steigen. Obwohl die Pool-Sequenzierung bereits zu einer deutlichen Zeit- und
Kostenreduktion gegenüber der Einzelpflanzen-Genotypisierung führt, kann die notwendige hochauflösende Sequenzierung Projektbudgets trotzdem übersteigen, da unsere
Kulturarten regelmäßig große Genome besitzen. Kostengünstige Sequenziermethoden
führen zumeist zu einer geringeren Abdeckung des Genoms. Erschwerend kommt
hinzu, dass der Genomaufbau insbesondere
bei Kulturarten – durch beispielsweise Autopolyploidie oder repetitive Sequenzen – Probleme bereiten kann.
Haplotypfrequenz statt Allelfrequenz
Für Pool-Sequenzierungen werden üblicherweise Abdeckungsraten von 50–100x und
mehr empfohlen. Um die Kosten weiter zu
senken, könnte diese Sequenziertiefe redu¯ Abb. 1: Von der
SNP zur HaplotypAllelfrequenz. Grafische Veranschaulichung der Gen-, Marker- oder Contigannotierten Haplotypen.
BIOspektrum | 05.23 | 29. Jahrgang
471
ziert werden. Bei einer Abdeckung von unter
50 Sequenzen pro Base ist allerdings eine
Angabe der Allelfrequenz eines single
nucleotid polymorphismus (SNP) unzuverlässig [1, 2].
Bei der Auswertung kann man sich allerdings zu Nutze machen, dass die zahlreichen
SNP auf dem Genom strukturiert vorliegen.
Viele von ihnen sind miteinander gekoppelt
und nur voneinander getrennt, wenn Kopplungsbrüche bzw. crossing over-Ereignisse
während der jüngsten Meiosen zwischen
diesem Paar von SNPs stattgefunden haben.
Somit tragen die SNPs aus genetischer Sicht
de facto dieselbe Information. Addiert man
nun die Sequenzen dieser beiden SNPs
zusammen, lässt sich die Lesetiefe des Haplotypen, der aus den beiden SNP gebildet wird,
verdoppeln. Summiert man die Lesetiefe von
zehn SNP bei einer durchschnittlichen
Abdeckung von zehn Sequenzen pro SNP
zusammen, ergibt sich eine HaplotypSequenztiefe von 100x – ausreichend zur
genauen Bestimmung der Allelfrequenz.
Möglich macht es die Tatsache, dass Kopplungsbrüche über das Genom gesehen verhältnismäßig selten sind. Die Zahl der Kopplungsbrüche ist allerdings nicht statisch. Sie
ist u. a. abhängig von der spezifischen Region
in den jeweiligen Chromosomen, dem
Genomaufbau und den Umweltbedingungen
[3]. Es bleibt gleichwohl festzuhalten, dass
Kopplungsbrüche selten sind. Gehen wir in
der hier getesteten Gerste beispielhaft von
3–5 Rekombinationen (also erkennbare
Kopplungsbrüche) pro Chromosom und Individuum aus, ist in einer Poolprobe von 300
BIOspektrum | 05.23 | 29. Jahrgang
Genotypen entsprechend mit etwa 900–
1.500 pro Chromosom zu rechnen. Auf eine
durchschnittliche Chromosomengröße bei
Gerste von 600 Megabasen (MB) bezogen,
hieße das alle 4 bis 7 Kilobasen eine Rekombination.
Die Haplotypen können auf verschiedene
Arten konstruiert werden. Neben der Möglichkeit ganze Genomabschnitte in „Haplotyp-Contigs zu clustern, gibt es einen selektiven Ansatz, in dem bekannte Gene oder
Marker als Anker für die Haplotypen genutzt
werden, womit eine funktionale Analyse
angeschlossen werden kann. Nachteilig an
diesem Ansatz ist, dass mit der Reduktion
auf die Genregionen viele SNPs nicht zugeordnet werden können, da sie außerhalb der
Gene liegen (Abb. 1). In der Tat ist der Großteil der SNP außerhalb der Gene zu verorten,
weshalb es vorteilhaft ist, die Regionen zwischen den Genen ebenfalls zu nutzen. Der
von uns gewählte Ansatz erweitert dabei die
Start- und Endbase eines Gens in die InterGenregion so weit, dass die Lücke zu 90 Prozent geschlossen wird. Somit können die
meisten SNPs in der Nähe der Gene auch
diesen noch zugeordnet werden, wodurch
die Lesetiefe von durchschnittlich 9 je SNP
auf 963 je Gen-Haplotyp erhöht werden
kann.
Neben der Zusammenführung von SNPs in
Haplotypfenstern ist ein nicht minder wichtiger Aspekt die korrekte Zuordnung der
Allele der einzelnen SNPs zueinander. Woher
soll bekannt sein, ob die drei Basenpaare G-A,
A-G & A-C auf den Genomposition 10, 45 und
120 zu den Haplotypen GAA, GGA, GGC, GAA,
GAC, AAA, AGA, AGC oder AAC zusammengefasst werden müssen? Hilfreich wäre hierbei, wenn eine Referenz bekannt ist: Sie
könnte Aufschluss darüber geben, welcher
der neun möglichen Haplotypen existent ist
und welcher höchstwahrscheinlich nicht. Im
Fall der Züchtung kann diese Referenz beispielsweise durch ein oder mehrere Eltern
gebildet werden, die zur Erstellung der Population miteinander gekreuzt wurden. Sequenziert man diese im Zuge der Analyse mit, ist
ihr Haplotyp bekannt – vorausgesetzt, es
handelt sich um homozygote Individuen. Bei
heterozygoten Eltern ist ein phasing notwendig, um die beiden Haplotypen je Elter unterscheiden zu können. Dies ist beispielsweise
durch das Sequenzieren mit Long-Reads wie
Hi-Fi oder Nanopore möglich.
Validierung des (...truncated)