Informácie

Štatistická genetika: Frekvencie alel, ktoré sledujú Dirichletovu distribúciu

Štatistická genetika: Frekvencie alel, ktoré sledujú Dirichletovu distribúciu


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Od Folla a Gagiottiho (2008) (softvér BayeScan). Uvažujú o modeli, v ktorom je niekoľko subpopulácií odvodených od jedinečnej populácie predkov.

Uvažujeme množinu $I$ lokusov a nech $K_i$ je počet alel v lokuse $i^{th}$. Rozsah diferenciácie v lokuse $i$ medzi subpopuláciou $j$ a populáciou predkov sa meria pomocou $F^{ij}_{ST}$ a je výsledkom jej demografickej histórie. Nech $p_i={p_{ik}}$ označuje frekvencie alely populácie predkov v lokuse $i$, kde $p_{ik}$ je frekvencia alely $k$ v lokuse $i$ $ vľavo(sum_k p_{ik} = 1vpravo)$. Používame $mathbf {p} = {mathbf {p_i}}$ na označenie celého súboru frekvencií alel populácie predkov a $mathbf { ilde p_{ij}} = { ilde p_{ ijk}}$ na označenie aktuálnych frekvencií alel v lokuse $i$ pre subpopuláciu $j$. Za týchto predpokladov sa frekvencie alel v lokuse $i$ v subpopulácii $j$ riadia Dirichletovou distribúciou s parametrami $ heta_{ij}mathbf {p_i}$,

$$mathbf { ilde p_{ij}} space ilde spacespace ext{Dir}( heta_{ij} p_{i1},… , heta_{ij}p_{iK_i})$$

, kde

$$ heta_{ij} = frac{1}{F^{ij}_{ST}}-1$$

(Nemám veľa skúseností s Dirichletovými distribúciami, ale chápem ich definíciu a užitočnosť v bayesovských štatistikách).

Môžete mi prosím pomôcť pochopiť, prečo $mathbf { ilde p_{ij}}$ nasleduje túto distribúciu Dirichlet?

Pri volaní parametra $j^{th}$ distribúcie Dirichlet, $alpha_j$, zvyčajne nerozumiem, prečo si "vybrali" $alpha_j = left(frac{1}{F^{ij}_ {ST}}-1 ight) p_{ij}$ a nie, povedzte len $alpha_j = F^{ij}_{ST} p_{ij}$ alebo čokoľvek iné.


Vo veľkej miere informovaný odhad založený skôr na vlastnostiach distribúcie než na špecifických znalostiach štatistickej genetiky: beta distribúcia je užitočná na modelovanie frekvencií dvoch alel na jednom lokuse. Diricheletova distribúcia, ktorá je viacrozmerným zovšeobecnením beta distribúcie, by teda bola užitočná na modelovanie nastaviť miest.

Odvrátenou stranou je myslieť na beta len ako na špeciálny prípad Dirichelet: ak máte iba jeden locus, beta funguje. Ak máte viac lokusov, potom Dirichelet.


David Balding

Od ukončenia doktorandského štúdia som pracoval na vývoji a aplikácii matematických/štatistických/výpočtových metód a myšlienok v genetike. Prispel som k aspektom populačnej, evolučnej, lekárskej a forenznej genetiky.

Vo forenznej genetike bol mojím hlavným príspevkom vývoj metód umožňujúcich súbežné účinky pri interpretácii profilov DNA. Vzorce pravdepodobnosti zhody zahŕňajúce koeficienty pôvodu sa často nazývajú "Balding-Nicholsove vzorce" podľa nášho článku z roku 1994. Nedávno som vyvinul metódy na interpretáciu dôkazov o nízkotemplátovom profile DNA, spočiatku v spolupráci s Johnom Buckletonom z ESR New Zealand (2009 dokument).

Vzorce forenznej zhody sú založené na multinomiálnej-Dirichletovej distribúcii, ktorú som vyvinul a aplikoval na počty alel subpopulácií. To viedlo k prvej uspokojivej definícii koeficientu pôvodu (Fst alebo theta) a prístupu k jeho odhadu založenému na pravdepodobnosti. Vložením tejto distribúcie do hierarchického modelu umožňujúceho subpopulačné a lokusové efekty sme s Markom Beaumontom v našom článku z roku 2004 vyvinuli široko používaný prístup na detekciu lokusov podliehajúcich selekcii (čo dokazuje nezvyčajne vysoká alebo nízka variácia medzi subpopuláciami). Beta-binóm (alebo všeobecnejšie multinomický-Dirichlet) ako distribúcia na simuláciu frekvencií alel subpopulácie sa niekedy nazýva "Balding-Nicholsov model" podľa nášho článku z roku 1995.

Mark a ja sme s Wenyangom Zhangom napísali v roku 2002 základnú prácu v oblasti približného bayesovského výpočtu (ABC). Zaviedli sme úpravu lokálnej lineárnej regresie, ktorá sa ukázala ako veľmi užitočná, ale možno rovnako dôležité sme poskytli prvú užitočnú recenziu metódy, ktorá bola postupne vyvinutá predchádzajúcimi autormi a propagovala ju ako výkonnú a flexibilnú štatistickú techniku.

S Ianom Wilsonom som vyvinul jeden z prvých úspešných softvérov (Batwing) na modelovanie demografickej histórie populácií na základe explicitného modelovania genetických predkov jedincov odobratých z populácií (dokumenty z roku 1998 a 2003). Široko sa používa, najmä na modelovanie otcovských línií z údajov chromozómu Y.

Napísal som alebo som spoluautorom niekoľkých prehľadných prác, ktoré sa ukázali ako populárne, o štatistických metódach pre štúdie genetickej asociácie (2006), o bayesovských metódach a o štruktúre populácie a kryptickej príbuznosti v genetickej asociácii (obe 2009) ao genóme- široké epigenetické štúdie (2011). Will Astle v spolupráci so mnou vyvinul rýchly algoritmus pre zmiešanú modelovú analýzu štúdií genetickej asociácie, opísaný v našej recenzii z roku 2009 a dostupný v sekcii MixAbel softvéru GenAbel R.

V súčasnosti pokračujem vo svojom zavedenom modeli veľmi širokých aplikácií štatistiky v genetike. Som zapojený do projektov štatistických metód pre farmakogenetiku, vrátane genetických kovariátov vo farmakokinetických modeloch, sekvenovania zriedkavých variantov v dedičných srdcových stavoch, genómovej selekcie v plodinách a identifikácie plemien u psov zmiešaných plemien. Zostávam aktívny aj v štatistických metódach forenzných profilov DNA.


2.1 Ciele pre túto kapitolu

Vidíte, že je rozdiel medzi dvoma predmetmi, ktoré sa často zamieňajú: „Pravdepodobnosť“ a „Štatistika“.

Prispôsobte údaje rozdeleniam pravdepodobnosti pomocou histogramov a iných vizualizačných trikov.

Prvýkrát sa stretnete s postupom odhadu známym ako maximálna pravdepodobnosť prostredníctvom simulačného experimentu.

Robte závery z údajov, o ktorých máme predchádzajúce informácie. Na tento účel použijeme Bayesovu paradigmu, ktorá bude zahŕňať nové distribúcie so špeciálne prispôsobenými vlastnosťami. Použijeme simulácie a uvidíme, ako sa Bayesovský odhad líši od jednoduchej aplikácie maximálnej pravdepodobnosti.

Použite štatistické modely a odhady na vyhodnotenie závislostí v binomických a multinomických rozdeleniach.

Analyzujte niektoré historicky zaujímavé genomické údaje zostavené do tabuliek.

Vyrobte modely Markovových reťazí pre závislý údajov.

Vykonajte niekoľko konkrétnych aplikácií počítajúcich motívy v celých genómoch a manipulujte so špeciálnymi triedami Bioconductor venovanými genómovým údajom.

Príklady parametrov: jediný parameter (lambda) definuje Poissonovo rozdelenie. Písmeno (mu) sa často používa ako priemer normálu. Vo všeobecnosti používame grécke písmeno ( heta) na označenie generickej n-tice parametrov potrebných na špecifikáciu pravdepodobnostného modelu. Napríklad v prípade binomického rozdelenia ( heta=(n,p)) obsahuje dve čísla, kladné celé číslo a reálne číslo medzi 0 a 1.

Kľúčové sú parametre.

V kapitole 1 sme videli, že znalosť všetkých hodnôt parametrov v príklade epitopu nám umožnila použiť náš pravdepodobnostný model a otestovať nulovú hypotézu na základe údajov, ktoré sme mali k dispozícii. Na niektorých skutočných príkladoch a počítačových simuláciách uvidíme rôzne prístupy k štatistickému modelovaniu, ale začnime tým, že rozlišujeme dve situácie v závislosti od toho, koľko informácií je k dispozícii.


Výsledky a diskusia

Údaje o AE na úrovni SNP aj na úrovni haplotypu boli vygenerované pre každú vzorku GTEx pomocou súčasných osvedčených postupov, s použitím aj bez použitia filtrovania WASP [8], aby sa znížilo skreslenie mapovania, ktoré je niekedy prítomné v analýze AE, čo vedie k 4 typom údajov na vzor (Doplnkový súbor 1: Obr. S1, časť „Generovanie a dostupnosť údajov“ v časti „Metódy“). Vo vzorkách to vyprodukovalo viac ako 431 miliónov meraní AE na úrovni SNP a 153 miliónov meraní AE na úrovni haplotypov. Preukázať schopnosť robustne zachytiť tieto údaje cis-regulačné účinky a tiež porovnávacie štyri typy údajov vo vzťahu k sebe navzájom, odhadli sme veľkosti účinkov eQTL v 49 tkanivách, kde boli eQTL mapované z údajov AE pomocou alelickej násobnej zmeny (aFC) a porovnali sme ich s tými, ktoré boli odvodené z mapovania eQTL [7] . Veľkosti účinkov boli kvantifikované pomocou aFC pre údaje AE aj eQTL. Na uľahčenie generovania odhadov aFC pre regulačné varianty z údajov phASER sme vyvinuli nový doplnok k softvérovému balíku, phASER-POP, ktorý eliminuje potrebu vlastných skriptov (doplnkový súbor 1: obr. S2). Stručne povedané, phASER-POP integruje genotypové volania a údaje AE na úrovni haplotypu medzi jednotlivcami a fázuje každý požadovaný regulačný variant (napr. eQTL) u každého jednotlivca s ich údajmi o AE. Potom vypočíta štatistiku vrátane aFC na vzorku a jej medián vo vzorkách pre jednotlivcov, ktorí sú pre variant heterozygotní. Na úrovni vzorky je aFC čistý násobok expresie medzi dvoma haplotypmi u jednotlivca, ktorý je ovplyvnený všetkými heterozygotnými regulačnými variantmi vrátane iných eQTL a zriedkavých regulačných variácií, a preto sa môže líšiť od očakávaného aFC odvodeného z mapovania eQTL. Medián aFC u všetkých jedincov v populácii, ktorá je heterozygotná pre daný eQTL, sa však môže použiť ako robustný odhad veľkosti jeho účinku [1]. Softvér je podrobne popísaný v časti „Metódy“.

Aby sme charakterizovali zdroj GTEx AE, najprv sme porovnali odhady aFC vypočítané pre GTEx eQTL medzi údajmi AE na úrovni SNP a haplotypu. Zistili sme vysoké korelácie medzi odhadmi AE a eQTL, s mediánom Spearmanovho rho 0,80 naprieč tkanivami pre údaje na úrovni SNP a 0,83 pre údaje na úrovni haplotypov generované pomocou phASER (obr. 1c). Korelácie na úrovni haplotypov boli významne vyššie ako korelácie na úrovni SNP (p = 3,55e-15, Wilcoxonov párový test poradia so znamienkom) a zároveň vytvára odhady pre medián o 20 % viac eQTL (doplnkový súbor 1: Obr. S3). Na základe toho odporúčame použiť údaje na úrovni haplotypov pre väčšinu následných analýz, pretože poskytujú viac údajov vyššej kvality. Existujú však určité okolnosti, kedy by sa mali použiť údaje na úrovni SNP. Napríklad pri analýze alelického zostrihu nie sú údaje na úrovni haplotypu vhodné, pretože zahŕňajú celý transkript, zatiaľ čo by sa mali analyzovať iba SNP v rámci záujmového exónu (exónov) alebo intrónu (intrónov). Okrem toho, pri analýze transkribovaných variantov s post-transkripčnými účinkami na génovú expresiu, ako sú stop-gain alebo zostrihové varianty, je jednoduchšie analyzovať údaje AE na úrovni SNP z požadovaného variantu.

Ďalej sme hodnotili účinok korekcie skreslenia mapovania čítania na analýzu alelickej expresie porovnaním korelácií veľkosti účinku eQTL a AE s filtrovaním WASP a bez neho. Filtrovanie WASP výrazne zlepšilo korelácie pre obe SNP- (p = 2,49e−13, medián zlepšenia 1,22 %) a haplotyp- (p = 3,55e−15, medián zlepšenia 1,28%) údaje úrovne (obr. 1c). Keďže WASP funguje skôr odstránením než opravou čítaní s predsudkom mapovania, porovnali sme počet eQTL, pre ktoré bolo možné vypočítať odhad aFC, a zistili sme len malé zníženie o 3,5 % (doplnkový súbor 1: obr. S3d). Preto odporúčame používať údaje filtrované WASP pre väčšinu následných analýz. Toto je obzvlášť dôležité, ak je cieľom identifikovať silné signály alelickej nerovnováhy, ktoré môžu byť často falošne pozitívne v dôsledku zaujatosti mapovania. Odporúčame používateľom zdroja, aby posúdili vplyv filtrovania WASP pre svoj vlastný prípad použitia, preto na porovnanie zahrnuli aj nefiltrované údaje AE.

Ďalej sme charakterizovali údaje AE filtrované WASP. V údajoch GTEx RNA-seq pri minimálnom pokrytí 8 čítaní mali vzorky medián 7 607 génov s údajmi AE na úrovni SNP a 10 043 génov na úrovni haplotypu, čo klesalo v dôsledku zvyšujúcich sa prahov pokrytia (dodatočné súbor 1: Obr. S4). S rovnakým prahom pokrytia na úrovni tkaniva a s výnimkou tkanív s malou veľkosťou vzorky (N < 70) tam, kde sa neuskutočnilo mapovanie eQTL, existoval medián 18 042 génov s mediánom 128 vzoriek na gén s použitím údajov AE na úrovni haplotypu, vďaka čomu je súbor údajov dostatočne výkonný na detekciu cis-regulačné účinky (obr. 2a). Stredný počet vzoriek s údajmi o AE na gén do značnej miery závisel od veľkosti vzorky tkaniva, v rozsahu od 39 pre kôru obličiek (N = 73 vzoriek) na 321 pre štítnu žľazu (N = 574 vzoriek). Počet génov s údajmi o AE koreloval s veľkosťou vzorky (rho = 0,41) a počtom exprimovaných génov (rho = 0,82), pričom dve bunkové línie mali najnižší počet génov s údajmi o AE (LCL = 15 804, fibroblasty = 16 526) a semenníky s najväčším počtom génov s údajmi o AE (21 952) napriek strednej veľkosti vzorky 322 (doplnkový súbor 2: tabuľka S1). Bolo to pravdepodobne spôsobené počtom exprimovaných génov v semenníkoch, ktorý bol najvyšší vo všetkých tkanivách.

Zdroj alelického výrazu na úrovni haplotypu GTEx v8. a Počet génov na tkanivo s údajmi o AE na úrovni haplotypu (AE gény) aspoň u 1 jedinca oproti strednému počtu vzoriek s údajmi na gén. b Percento génov AE s významnou alelickou nerovnováhou (binomický test, FDR na génovej úrovni < 5 %) v min. n vzorky na gén s použitím všetkých vzoriek (modrá) alebo s vylúčením vzoriek heterozygotných pre akúkoľvek hornú (FDR < 5 %) alebo nezávislú GTEx eQTL (permutácia p < 1e-4) (červená). Vyblednuté body sú hodnoty pre jednotlivé tkanivá a pevné body sú mediánom medzi tkanivami. Podiely nad údajmi naznačujú zníženie percenta AE génov s nerovnováhou po odstránení eQTL heterozygotov. Úplný súhrn týchto štatistík pre tkanivá a prahové hodnoty vzoriek je dostupný v dodatočnom súbore 3: Tabuľka S2. c Účinok počtu heterozygotných variantov v alebo proximálne k génovým promótorom (< 10 kb upstream od TSS) na alelickú nerovnováhu stratifikovanú podľa frekvencie menšej alely. Vynesené hodnoty sú odhady účinku a 95 % intervaly spoľahlivosti (pozrite si časť „Modelovanie účinku variantu promótora“ v časti „Metódy“).

Nakoniec sme sa snažili demonštrovať všadeprítomnosť cis-regulačné účinky, ktoré možno zachytiť pomocou tohto zdroja. Zistili sme, že dokonca aj silné regulačné účinky, kde jedna alela bola exprimovaná na ≥ 2-násobku úrovne druhej alely, sú široko prítomné, dokonca aj pre gény kódujúce proteín, pričom 53 % génov kódujúcich proteín vykazuje takýto účinok aspoň v jednom. tkaniva a najmenej 50 jedincov (Doplnkový súbor 1: Obr. S5). Vzhľadom na všetky gény sme zistili, že medián 10 183 génov (alebo medián 56 % týchto génov s údajmi o AE) na tkanivo vykazoval významnú alelickú nerovnováhu (binomický test, FDR < 5 % na úrovni génu) aspoň v jednej vzorke. , čo naznačuje široko rozšírený charakter cis-regulačné účinky (obr. 2b). Odstránenie jedincov, ktorí boli heterozygotní pre akékoľvek známe GTEx eQTL (časť „GTEx eQTL“ v časti „Metódy“), viedlo len k zníženiu mediánu o 7,5 % v počte génov s významnou nerovnováhou aspoň v jednej vzorke, čo dokazuje potenciál tento zdroj na identifikáciu ďalších regulačných účinkov vrátane zriedkavých regulačných účinkov, ktoré nie sú zachytené v analýze eQTL. Na ďalšiu demonštráciu tohto potenciálu sme modelovali alelickú nerovnováhu ako funkciu frekvencie minoritných alel a počtu heterozygotných variantov nachádzajúcich sa v génových promótoroch alebo v ich blízkosti (< 10 kb proti smeru TSS). Ako sa očakávalo, zistili sme, že zriedkavé varianty mali tendenciu mať väčšie účinky na alelickú nerovnováhu ako bežné varianty, pričom najvzácnejšia trieda analyzovaných variantov (MAF < 0,005 v GTEx) mala najsilnejšie účinky (obr. 2c).


Analýza simulovaných dát

Geoštatistické simulácie/Bayesovský záver

Náš prvý výskum spočíva v analýze údajov simulovaných podľa presného modelu s multinomiálnym rozdelením (opísaným v časti 2.1.1 a ďalej označovaným ako „geostatistický model“, prístup, ktorý zvolili napríklad Novembre & Stephens 2008). Uvažovali sme o troch typoch štruktúr pre kovariančnú maticu: s vplyvom geografických aj environmentálnych vzdialeností (G+E), efektom iba geografickej vzdialenosti (G) a efektom iba environmentálnej vzdialenosti (E). Tieto kovariancie zodpovedajú rovniciam 2, 4 a 5. Vygenerovali sme 100 súborov údajov pre každý z troch modelov s populáciami umiestnenými na 50 geografických miestach, z ktorých každý pozostával z 10 diploidných jedincov genotypovaných na 100 lokusoch SNP a potom na 1000 lokusoch SNP. Tiež, pretože dva zo skutočných súborov údajov, ktoré sú opätovne analyzované nižšie, obsahujú malý počet mikrosatelitných lokusov, skúmame aj simulácie na 15 lokusoch s 10–20 alelami na lokus a vo všetkých ostatných ohľadoch podobné simuláciám.

Polohy geografických lokalít boli vzorkované rovnomerne v [0,1] × [0,1] štvorci a environmentálna premenná bola vzorkovaná nezávisle od rovnomernej diskrétnej distribúcie s tromi stavmi, ktoré napodobňujú napríklad priestorové nejednotné rozdelenie troch biotopov. Zvažovali sme aj prípad, keď je environmentálna premenná spojitá a priestorovo autokorelovaná. V tomto prípade bola simulovaná ako centrovaná a štandardizovaná Gaussova premenná s exponenciálnou kovariančnou funkciou so stupnicou parametrov rovnou 0,3. Všetky simulácie genotypov sa uskutočnili s rovnakým súborom parametrov pre kovariančnú maticu, konkrétne α = βG = βE = y = 1 a 5 = 0,01. Pre tieto údaje sme vykonali Bayesovskú inferenciu a výber modelu podľa modelu s multinomickou (alebo binomickou) pravdepodobnosťou.

Koalescentné simulácie

Údaje sme tiež simulovali v rámci izolácie podľa modelu vzdialenosti pomocou koalescentnej simulácie s programom ibdsim (Leblois, Estoup & Rousset 2009). Aby sme vytvorili údaje za podmienok, ktoré napodobňujú čisto geografický model (označovaný ako G model vyššie), vytvorili sme simulácie na mriežke 30 × 30 s 20 diploidnými jedincami na uzol mriežky, ako disperzné rozdelenie sme vzali skrátené Paretovo rozdelenie (pravdepodobnosť pohybu k kroky ∝M/k n s M = 0·82, n = 4,11 a horná hranica sa rovná 48) a rýchlosť migrácie sa nastaví na 0,03. Na vytvorenie údajov podľa modelu G + E sme simulovali dva nezávislé súbory údajov pomocou dvoch nezávislých sim IBD na 25 geografických miestach, pričom obe s rovnakými parametrami ako model G opísaný vyššie. Potom sme tieto dva podmnožiny údajov zlúčili do štvorca, aby sme napodobnili koexistenciu dvoch subpopulácií geneticky izolovaných nepriepustnou bariérou. Na generovanie údajov podľa modelu E sme urobili to isté ako v prípade G + E, s výnimkou toho, že sme nastavili mieru migrácie na 0,999. Tu sme vytvorili genotypy na 1000 nezávislých lokusoch.V poslednom kroku sme tiež simulovali údaje ako v prípadoch G + E a E, ale vybrali sme 4 % jednotlivcov v každej populácii a vymenili sme ich tak, aby napodobňovali migrantov F0. V tomto prípade boli genotypy simulované na 100 lokusoch SNP. Vo všetkých prípadoch sme podvzorkovali 50 z počiatočných 900 populácií, aby sme vytvorili súbor údajov na 50 nepravidelne rozmiestnených odberných miestach. Pre tieto údaje sme vykonali Bayesovskú inferenciu a výber modelu podľa modelu s binomickou pravdepodobnosťou.

Výsledky výberu modelu na základe Bayesovho modelu s binomickým/multinomiálnym rozdelením sú zhrnuté v tabuľke 1. V študovaných podmienkach je náš algoritmus schopný získať skutočný model s výnimkou malého zlomku prípadov, keď je algoritmus príliš tolerantný: pravda model je G alebo E a algoritmus vyberie G+E. Presnosť výberu modelu sa zvyšuje s počtom použitých lokusov, pričom iba niekoľko chýb pri výbere modelu z 300 simulovaných súborov údajov pre L = 1000 lokusov.

Skutočný model∖ Vybraný model G+E G E
Geoštatistické simulácie, diskrétna premenná prostredia
Bialelické lokusy L=100
G+E 100 0 0
G 14 86 0
E 0 0 100
Bialelické lokusy L=1000
G+E 100 0 0
G 0 100 0
E 0 0 100
Geoštatistické simulácie, spojitá premenná prostredia
Vysoko polymorfné lokusy L=15
G+E 99 1 0
G 32 68 0
E 29 0 71
Bialelické lokusy L=100
G+E 100 0 0
G 16 84 0
E 7 0 93
Bialelické lokusy L=1000
G+E 100 0 0
G 1 99 0
E 0 0 100
ibdsim simulácie, diskrétna premenná prostredia
Bialelické lokusy L=1000
G+E 100 0 0
G 7 93 0
E 0 0 100
Bialelické lokusy L=100
G+E s migrantmi F0 95 5 0
G 41 55 4
E s migrantmi F0 9 0 91

Posúdenie hodnoty Gaussovej aproximácie

Na posúdenie hodnoty Gaussovho aproximačného modelu sme simulovali údaje podľa modelu s binomickou pravdepodobnosťou opísaného v časti 2.1.1, ale urobili sme závery podľa približného modelu a algoritmu opísaného v častiach 2.1.2 a 2.2.3. Zvažovali sme rôzne počty geografických lokalít n v rozmedzí od 50 do 500 a počet lokusov L v rozmedzí od 100 do 100 000. Vo všetkých prípadoch sa veľkosť lokálneho haploidného odberu rovnala 2 (jeden diploidný jedinec). Environmentálna premenná bola spojitá a priestorovo autokorelovaná. Výsledky sú zhrnuté na obr. 1, kde je zrejmé, že Gaussova aproximácia funguje dobre, akonáhle je počet lokusov veľký.


4. Bakteriálna rekombinácia v štatistickej genetike

Rekombinácia (alebo pohlavie) má mnoho rôznych foriem v závislosti od toho, či je organizmus haploidný alebo diploidný a od typu rekombinácie. Mechanizmus formulovaný v [30, 31] je špecificky pre sexuálnu reprodukciu v haploidných kvasinkách, kde každý z dvoch rodičov vytvára páriace telo (kópiu rodičovského genómu) a tieto dve páriace telá sa spoja a vytvoria jeden nový genóm, zatiaľ čo druhá polovica genetický materiál dvoch páriacich sa tiel sa zahodí. Ako bližšie k našim údajom považujeme namiesto toho formu bakteriálnej rekombinácie, pre ktorú je však vývoj v podstate rovnaký, modulo a Stosszahlansatz.

Rekombinácia sa teda (predpokladáme) vyznačuje tým, že sa dva genómy zlúčia a vytvoria dva nové genómy. Toto priamo nemodeluje konjugáciu, kde jedna baktéria dáva genetický materiál druhej, ale môže modelovať transformáciu a transdukciu v priebehu času, kde materiál môže ísť oboma smermi. In S. pneumoniae k rekombinácii dochádza transformáciou a homológnou rekombináciou. V základnom kroku sa teda stratia dva genotypy (rodičia) a dva genotypy sa získajú (potomstvo). Nech je prípad, že dvaja jedinci s genotypmi a rekombinujú a dávajú dvom jedincom a . Na opísanie kinetiky individuálneho procesu predpokladáme, že k rekombinácii medzi dvoma rodičmi dochádza s rýchlosťou kde r celková rýchlosť rekombinácie a relatívna rýchlosť. Dva nové genotypy a sú špecifikované premennou indikátora:

a tento výsledok rekombinácie sa stane s pravdepodobnosťou . Celková miera jednotlivej udalosti je teda . Zmena distribúcie medzi genotypmi v dôsledku rekombinácie je daná

Táto rovnica je typu známeho z teórie neideálnych plynov: zmena distribúcie jednej častice (distribúcia jedného genómu) závisí od distribúcie dvoch častíc (distribúcie dvoch genómov). V praxi je ťažké použiť (16) bez uzáveru, napríklad za predpokladu, že párové pravdepodobnosti sa faktorizujú. Všimnite si, že súčet na pravej strane presahuje jedného z rodičov ( ) a premennú indikátora, ktoré spolu dávajú dieťaťu . Pre jednoduchosť predpokladáme aj to Q závisí len od presahu q medzi týmito dvoma genotypmi a:

Rekombinácia, ako je modelovaná vyššie, nemení prekrytie. Možno to vidieť takto: a . Keďže premenná indikátora nadobúda hodnoty nula a jedna, dáva to .

Predpokladajme teraz, že distribúcia dvoch genómov faktorizuje, že distribúcia jedného genómu je typu Potts a že všetky parametre kvadratického Pottsovho modelu Jij sú malé. Tieto predpoklady sa budú považovať za konzistentné, keď sa miera rekombinácie uskutoční r je vysoko. Poruchovým výpočtom, ktorý uvádzame v prílohe B (v podstate rovnaký ako v prílohe B [31]), sa pravá strana (16) zjednoduší na:

kde sme použili skratky

Prvým z nich je pravdepodobnosť, že dva lokusy sú zdedené od toho istého rodiča a nezávisia (pre tento model) od genotypu . Na druhej strane posledné tri priemery závisia od . Ak však funkcia Q nie je príliš ostro zameraná, závislosť môže byť slabá. Predovšetkým predpokladáme, že ide o vlastné priemerovanie a v podstate nezávisí od . V jazyku fyziky spinového skla [44, 45] teda predpokladáme, že , a sú samopriemerné v „paramagnetickej“ fáze, kde sa očakáva, že bude držať QLE.


2.3. Vzťah s F ST

V populačnej genetike sa bežne používa miera na kvantifikáciu rozsahu diferenciácie medzi populáciami. Pochádza od Sewalla Wrighta a zvyčajne sa označuje ako FST. Opäť odkazujeme čitateľa na recenzie od Rousseta (2001) a Excoffiera (2001), kde poskytujeme úplný popis, poskytujeme len najstručnejší náčrt. Nášmu porozumeniu prospel prístup k nepublikovaným poznámkam Davida Baldinga.

Wright (1951) opísal F ST ako „korelácia medzi náhodnými gamétami získanými z rovnakej subpopulácie vo vzťahu k celku“. Bohužiaľ táto definícia nie je presná a niektoré následné zmätky v literatúre pramenia z rôznych interpretácií. Jedna koncepčná dichotómia medzi prístupmi vyplýva z rozdielov (zvyčajne skôr implicitných ako explicitných) v tom, čím je podmienený.

Iné prístupy (na základe modelu v Baldingovej terminológii) interpretujú pravdepodobnosti v rovnici (9) ako súvisiace s opakovaniami celého evolučného procesu, a nie jednoducho s opakovaním vzorkovania z existujúcich populácií. V tomto prípade, FST by sa považovalo za štatistický parameter a cieľom je odhadnúť ho z údajov a/alebo dať do súvislosti (pomocou pravdepodobnostných výpočtov) parametre, ktoré priamo špecifikujú evolučný model. Najbežnejší postup odhadu (pozri napríklad Weir (1996) ) je často formulovaný analogicky s analýzou rozptylu. Je to ekvivalent (Rousset, 2001) prístupu metódy momentov, v ktorom sú pravdepodobnosti Q2 a Q3 v rovnici (9) sú odhadnuté pomocou frekvencií identických párov chromozómov na lokuse, v rámci a medzi populáciami vo vzorke, a odhady sú dosadené do rovnice (9).

Vo Wrightovej definícii nie je žiadny návod, ako zvládnuť rôzne korelácie pre rôzne alely na multialelických lokusoch av praxi sú často len spriemerované. (Problém je diskutabilný pre údaje SNP.) Ako je uvedené vyššie, väčšina existujúcich prístupov nasleduje Wrighta v tom, že má jednu hodnotu FST pre zhromažďovanie populácií (často s implicitným predpokladom zameniteľnosti medzi populáciami), hoci niekedy rôzne hodnoty pre odlišné lokusy. Myslíme si, že je vhodnejšie mať parametre špecifické pre populáciu, spoločné pre lokusy SNP.

Vzorec (10) má blízku podobnosť so štruktúrou marginálnych rozptylov, ktorú implikuje náš model (2). Naozaj, keby sme mali trvať na tom na spoločnej hodnote c naprieč populáciami, potom by rovnica (10) dostala, s FST nahradené c, za predpokladu, že bol vykladaný ako podmienený π. V tomto zmysle, najmä preto, že rôzne prístupy zahŕňajú rôzne kondicionovanie, naše parametre cj možno považovať za analogický s FST-hodnoty, ale s jednou pre každú populáciu.


Štatistická genetika: Frekvencie alel, ktoré sledujú Dirichletovu distribúciu - Biológia

Vzdelanie

Certifikát Higher School (NSW, Austrália) som získal v roku 1978 po štúdiách na Chevalier College Bowral (1973 - 76) a Kiama High Shool (1977 - 78). Získal som celkové skóre 444/500 v predmetoch: matematika (4 jednotky), fyzika (2 u), chémia (2 u), angličtina (2 u) a francúzština (2 u). Mojím najlepším predmetom bola matematika (189/200), tak som sa rozhodol, že zostanem pri tom, v čom som bol dobrý, a pokračoval som v štúdiu na univerzite po roku cestovania po Európe, vrátane stáže ako cestár vo Francúzsku. . Aby som si ušetril na cestu, robil som kancelársku prácu v poisťovni v North Sydney, ktorú som nechal za vyšší plat ako upratovačka v obchodoch NSW Government (v Alexandrii, Sydney, ale našťastie už zbúraných).

Môj bakalársky titul bol vyznamenanie 1. triedy v matematike, s univerzitnou medailou, z University of Newcastle (Rakúsko). Študoval som tam v rokoch 1980 až 83. Letné prázdniny som trávil prácou na zmeny v oceliarni v Port Kembla, modelovaním spotreby vody vo vodárenskej spoločnosti v Newcastli a pomocou pri výskume zdravotnej štatistiky – v rizikových faktoroch srdcových chorôb, s Annette Dobsonovou a Bobom Gibberdom. Môj projekt s vyznamenaním vyvinul matematický model neovaskularizácie vyvolanej nádorom, pod dohľadom Seana McElwaina. V roku 1985 sme publikovali článok v JTB.

V roku 1984 som na čiastočný úväzok zastával rôzne doučovacie a výskumné asistentské pozície v Newcastli, niektoré v Hunter Health Statistics Unit.

V januári 1985 som odišiel do Anglicka, kde som študoval doktorát z matematiky v Oxforde, ktorý mi bol udelený v roku 1989. Mojím vedúcim bol spočiatku John Hammersley, ale po niekoľkých mesiacoch som prešiel k Petrovi Cliffordovi. Moja práca s názvom „O niektorých anihilačných časticových systémoch“ zahŕňala stochastické procesy a bola motivovaná problémami vo fyzikálnej chémii (pod vedením spolupracovníka Nicka Greena). Moja vysoká škola bola Trinity, kde som tiež robil nejaké lektorské práce a bol som 2 roky juniorským dekanom.

V rokoch 1988-89, keď som končil doktorandské štúdium, som bol mladším lektorom matematickej štatistiky v Oxforde, čo bolo prvé miesto na novovytvorenom oddelení štatistiky, a tiež lektorom matematiky na Lady Margaret Hall.

V októbri 1989 som nastúpil na svoju prvú stálu pozíciu lektora pravdepodobnosti a štatistiky na Queen Mary & Westfield College London, čo je pozícia spojená s novým predsedom Petera Donnellyho. V roku 1995 som bol povýšený na docenta av rokoch 1995 - 96 som mal sabatický rok na U Chicago (4 mesiace sa tam Peter Donnelly práve presťahoval), USC Los Angeles (2 mesiace) a UNSW Sydney (6 mesiacov).

V januári 1997 som nastúpil ako profesor štatistickej genetiky na Katedru aplikovanej štatistiky v Readingu, čo je pozícia vytvorená nedávnom odchode Roberta Curnowa do dôchodku. Lektorát spojený s touto pozíciou získal John Whittaker a spolupracovali sme počas mnohých nasledujúcich rokov.

V septembri 2001 sme sa s Johnom presťahovali na Imperial College London, na oddelenie epidemiológie a verejného zdravia v areáli nemocnice St Mary, Paddington. V septembri 2009 som odišiel z Imperialu, aby som sa presťahoval do UGI. Vincent Plagnol prišiel do UGI v rovnakom čase, aby sa stal lektorom.

Od ukončenia doktorandského štúdia som pracoval na vývoji a aplikácii matematických/štatistických/výpočtových metód a myšlienok v genetike. Prispel som k aspektom populačnej, evolučnej, lekárskej a forenznej genetiky.

Vo forenznej genetike bol mojím hlavným príspevkom vývoj metód umožňujúcich súbežné účinky pri interpretácii profilov DNA. Vzorce pravdepodobnosti zhody zahŕňajúce koeficienty pôvodu sa často nazývajú "Balding-Nicholsove vzorce" podľa nášho článku z roku 1994. Nedávno som vyvinul metódy na interpretáciu dôkazov o nízkotemplátovom profile DNA, spočiatku v spolupráci s Johnom Buckletonom z ESR New Zealand (2009 dokument).

Vzorce forenznej zhody sú založené na multinomiálnej-Dirichletovej distribúcii, ktorú som vyvinul a aplikoval na počty alel subpopulácií. To viedlo k prvej uspokojivej definícii koeficientu pôvodu (Fst alebo theta) a prístupu k jeho odhadu založenému na pravdepodobnosti. Vložením tejto distribúcie do hierarchického modelu umožňujúceho subpopulačné a lokusové efekty sme s Markom Beaumontom v našom článku z roku 2004 vyvinuli široko používaný prístup na detekciu lokusov podliehajúcich selekcii (čo dokazuje nezvyčajne vysoká alebo nízka variácia medzi subpopuláciami). Beta-binóm (alebo všeobecnejšie multinomický-Dirichlet) ako distribúcia na simuláciu frekvencií alel subpopulácie sa niekedy nazýva "Balding-Nicholsov model" podľa nášho článku z roku 1995.

Mark a ja sme s Wenyangom Zhangom napísali v roku 2002 základnú prácu v oblasti približného bayesovského výpočtu (ABC). Zaviedli sme úpravu lokálnej lineárnej regresie, ktorá sa ukázala ako veľmi užitočná, ale možno rovnako dôležité sme poskytli prvú užitočnú recenziu metódy, ktorá bola postupne vyvinutá predchádzajúcimi autormi a propagovala ju ako výkonnú a flexibilnú štatistickú techniku.

S Ianom Wilsonom som vyvinul jeden z prvých úspešných softvérov (Batwing) na modelovanie demografickej histórie populácií na základe explicitného modelovania genetických predkov jedincov odobratých z populácií (dokumenty z roku 1998 a 2003). Široko sa používa, najmä na modelovanie otcovských línií z údajov chromozómu Y.

Napísal som alebo som spoluautorom niekoľkých prehľadných prác, ktoré sa ukázali ako populárne, o štatistických metódach pre štúdie genetickej asociácie (2006), o bayesovských metódach a o štruktúre populácie a kryptickej príbuznosti v genetickej asociácii (obe 2009) ao genóme- široké epigenetické štúdie (2011). Will Astle v spolupráci so mnou vyvinul rýchly algoritmus pre zmiešanú modelovú analýzu štúdií genetickej asociácie, opísaný v našej recenzii z roku 2009 a dostupný v sekcii MixAbel softvéru GenAbel R.

V súčasnosti pokračujem vo svojom zavedenom modeli veľmi širokých aplikácií štatistiky v genetike. Som zapojený do projektov štatistických metód pre farmakogenetiku, vrátane genetických kovariátov vo farmakokinetických modeloch, sekvenovania zriedkavých variantov v dedičných srdcových stavoch, genómovej selekcie v plodinách a identifikácie plemien u psov zmiešaných plemien. Zostávam aktívny aj v štatistických metódach forenzných profilov DNA.

Som organizátor modulu pre GENEG005 Statistics for Interpreting Genetic Data (alebo skrátene "štatistická genetika"), ktorý bol vyvinutý pre MSc v odbore genetika ľudských chorôb a teraz ho absolvujú aj študenti MSc Farmakogenetiky a MSc Statistical Science (je to voliteľné pre všetci študenti). Charakteristickým rysom tohto kurzu je veľké množstvo času stráveného na hodinách počítačových laboratórií, ktoré je nevyhnutné, pretože mnohí študenti majú malé alebo žiadne skúsenosti s vedeckými počítačmi a žiadne predchádzajúce skúsenosti s R, hlavným používaným softvérom. Tomu zodpovedá aj hodnotená praktická práca, ktorá tvorí 50 % bodov z kurzu. Učenie zdieľa s Vincentom Plagnolom.

Prispievam 1/4 výučby na 8 dní krátkych kurzov, ktoré organizuje Bloomsbury Center for Genetic Epidemiology and Statistics, ktoré sa konajú každý september: http://bcges.lshtm.ac.uk/courses/

Taktiež prispejem výučbou k novému modulu „Tlmočenie dôkazov“ pre nového MSc v odbore kriminalita a forenzná veda so sídlom v Centre forenzných vied UCL, pre ktorý som v riadiacom výbore.


Zväzok 2: Evolúcia a výber kvantitatívnych znakov

  • Genetický drift vrátane zmien neaditívnych variácií
  • Teória výberu: zmeny v priemeroch a rozptyloch, krátkodobá a dlhodobá odozva, efekty konečnej veľkosti populácie, indexový výber.
  • Meranie selekcie v prirodzených populáciách
  • Modely fenotypovej evolúcie: aplikácie v ekológii, paleobiológii, markoevolúcii, sexuálnom výbere
  • Udržiavanie kvantitatívnej genetickej variability

Štatistická genetika: Frekvencie alel, ktoré sledujú Dirichletovu distribúciu - Biológia

Evolúcia: Vol. 59, č. 11, str. 2312�.

PODPIS POZITÍVNEHO VÝBERU STÁLEJ GENETICKEJ VARIÁCIE

Molly Przeworski, a , b Graham Coop, a a Jeffrey D. Wall c

Katedra ľudskej genetiky, University of Chicago, Chicago, Illinois 60637

c Katedra výpočtovej a molekulárnej biológie, University of Southern California, 1050 Childs Way, Los Angeles, Kalifornia 90089

Abstraktné. — Značný záujem sa sústreďuje na použitie údajov o polymorfizme na identifikáciu oblastí genómu, ktoré sú základom nedávnych adaptácií. Tieto vyhľadávania sa riadia jednoduchým modelom pozitívneho výberu, v ktorom je mutácia uprednostňovaná hneď, ako vznikne. Tento predpoklad nemusí byť realistický, pretože zmeny prostredia a rozšírenie rozsahu môžu viesť k tomu, že predtým neutrálne alebo škodlivé alely sa stanú prospešnými. Skúmame, aký vplyv má tento spôsob výberu na vzory variácií na prepojených neutrálnych miestach implementáciou nového koalescentného modelu pozitívneho smerového výberu na variáciu v stoji. V tomto modeli vzniká neutrálna alela a pohybuje sa v populácii, potom sa pri frekvencii f stáva prospešnou a nakoniec dosiahne fixáciu. V závislosti od hodnoty f môže tento scenár viesť k veľkému rozptylu v alelových frekvenčných spektrách a v úrovniach väzbovej nerovnováhy na spojených, neutrálnych miestach. Najmä pre medziprodukt f vedie prospešná substitúcia často k strate vzácneho vzoru alel—a, ktorý sa výrazne líši od podpisu smerového výberu, na ktorý sa výskumníci v súčasnosti spoliehajú. Tieto zistenia zdôrazňujú dôležitosť presnej charakterizácie účinkov pozitívneho výberu, ak máme spoľahlivo identifikovať nedávne úpravy z údajov o polymorfizme.

Prijaté 17. mája 2005. Prijaté 6. septembra 2005.

Hlavným cieľom evolučnej genetiky je identifikovať lokusy, ktoré sú základom adaptácií. V niektorých prípadoch bola táto výzva splnená klasickými prístupmi mapovania, ktoré teraz uľahčuje dostupnosť genómových nástrojov (napr. Colosimo et al. 2005). Alternatívou, ktorá je obzvlášť dôležitá pre ľudí a nemodelové organizmy, je analýza genetických variácií v rámci druhov a medzi nimi s cieľom identifikovať genómové oblasti, ktoré sa podľa všetkého vyvinuli skôr prirodzeným výberom než samotným driftom. Napríklad populárna trieda metód dáva do kontrastu polymorfizmus a divergenciu na synonymných a nesynonymných miestach na detekciu neneutrálneho vývoja aminokyselinových sekvencií (napr. Yang a Bielawski 2000 Nielsen et al. 2005).Tento prístup bol úspešný pri identifikácii niekoľkých proteínov, ktoré sa podľa všetkého vyvíjajú pri opakovanej pozitívnej selekcii (porovnaj Swanson 2003), ale chýba mu schopnosť detegovať adaptácie pozostávajúce z niekoľkých substitúcií daného proteínu. Vo svojej súčasnej podobe nie je použiteľný ani na nekódujúce oblasti.

V údajoch o polymorfizme možno zistiť jednu prospešnú substitúciu, pokiaľ k nej došlo nedávno. Fixácia priaznivej alely v populácii skresľuje vzory variácií na prepojených miestach, čím zanecháva rozlišovací znak, ktorý trvá až približne 10 4 generácií u ľudí alebo približne 10 6 u Drosophila melanogaster (Przeworski 2002). V zásade možno teda ciele pozitívnej selekcie identifikovať vyhľadávaním údajov o polymorfizme pre regióny, ktoré nesú tento podpis (Nair et al. 2003 Wright et al. 2005).

Niekoľko nedávnych prác aplikovalo tento prístup mapovania stopom na ľudí a na druhy Drosophila (napr. Harr a kol. 2002 Payseur a kol. 2002 Glinka a kol. 2003 Kauer a kol. 2003 Kayser a kol. 2003 Akey a kol. 4 Schofl. 2000 a Schlotterer 2004 Storz a kol., 2004). Ľudia raného moderného veku, D. melanogaster a D. simulans zdieľajú podobnú demografickú históriu: majú africký pôvod a predpokladá sa, že sa len nedávno stali kozmopolitnými (porovnaj Aquadro et al. 2001). Toto rozšírenie rozsahu ich predkov mohlo byť sprevádzané adaptáciami na nové podnebie, stravu a choroby. Motiváciou týchto nedávnych prác je hľadanie podpisov adaptácií v neafrických populáciách, ktoré museli zažiť nedávnu zmenu biotopu.

Hoci je tento prístup sľubný, bude spoľahlivý len vtedy, ak bude presne charakterizovaný podpis prirodzeného výberu. V súčasnosti naše chápanie účinkov smerovej pozitívnej selekcie vychádza z jednoduchého modelu populácie s náhodným párením konštantnej veľkosti, v ktorej je alela prospešná hneď, ako vznikne, a je rýchlo riadená k fixácii v populácii (ďalej len ako “štandardné selektívne zametanie”). Za týchto predpokladov má substitúcia priaznivej alely na jednom mieste za následok zníženie variability a posun smerom k zriedkavým a vysokofrekvenčne odvodeným variantom na spojených neutrálnych miestach (Maynard Smith a Haigh 1974 Simonsen a kol. 1995 Fay a Wu 2000 Kim a Stephan 2002 Przeworski 2002). Tento skresľujúci efekt je stopa, ktorá sa hľadá pri mapovaní stopom.

Otvorenou otázkou však zostáva, či je charakterizácia pozitívneho výberu spoľahlivá. V tomto ohľade je znepokojujúce, že v jednom zo zriedkavých prípadov s nezávislými dôkazmi o nedávnom selektívnom prieskume nebol pozorovaný očakávaný podpis (Hamblin a Di Rienzo 2000). V lokuse Duffy u ľudí je známe, že homozygotnosť pre nulovú alelu poskytuje rezistenciu voči vivax malárii. Táto nulová alela je fixná alebo takmer fixovaná v populáciách subsaharskej Afriky a inde prakticky chýba. Napriek tomu v štyroch z piatich subsaharských afrických etník, u ktorých sa skúmala variácia, frekvencie alel na prepojených miestach neobsahujú vysoký podiel vzácnych alel a ani diverzita nie je vždy výrazne znížená (Hamblin a Di Rienzo 2000 Hamblin et al. 2002). Ako uvádzajú autori, môže to byť spôsobené odchýlkami od demografických predpokladov. Napríklad je známe, že fixácia prospešnej alely v štruktúrovanej populácii vedie k odlišnej signatúre od tej, ktorá sa očakáva podľa štandardného modelu zametania (Slatkin a Wiehe 1998 Santiago a Caballero 2005).

Druhou možnosťou je, že na rozdiel od toho, čo sa predpokladá v štandardnom modeli, selekcia vždy nepôsobí na novú alelu. Pozoruhodným príkladom sú trojtŕňové lipne, ktoré sa za posledných 20 000 rokov presťahovali z morského prostredia, aby kolonizovali sladkovodné jazerá a potoky. Tieto izolované populácie vykazujú paralelnú redukciu pancierových plátov, adaptácie, ktoré sa zrejme dosiahli zmenami na rovnakom hlavnom lokuse, EDA (Colosimo et al. 2005). Okrem toho sa alela spojená s adaptívnym fenotypom nachádza vo frekvencii 0,2% a 3,8% v dvoch morských populáciách. Zdá sa teda, že smerová selekcia pre redukované pokovovanie pôsobila na variáciu v stoji prítomnú s nezanedbateľnou frekvenciou v prostredí predkov (Colosimo et al. 2005). Podobný súbor okolností môže byť základom vysokej frekvencie laktózovej tolerancie v rozptýlených pastoračných populáciách ľudí (Bersaglieri et al. 2004).

Takýto scenár môže byť pre Duffyho pravdepodobný, pretože sa predpokladá, že nástup poľnohospodárstva (pred 10 000 rokmi) drasticky zvýšil maláriový tlak (Hamblin a Di Rienzo 2000). V skutočnosti sa to môže týkať mnohých úprav, ktoré motivujú prístup k mapovaniu stopom. Napríklad sa predpokladá, že raní moderní ľudia opustili africký kontinent len ​​pred 100 000 rokmi alebo asi pred 4 000 generáciami a do Austrálie sa dostali asi pred 50 000 rokmi a do Ameriky až za posledných 20 000 rokov (porovnaj Lewin a Foley 2004). . Vzhľadom na ich malú veľkosť sčítanej populácie mohlo byť málo času na vznik nových užitočných mutácií. Namiesto toho mohli byť reakcie na nové selektívne tlaky vyvolané selekciou na existujúcich polymorfizmoch.

Ak áno, je dôležité preskúmať, či selekcia na stojatej variácii zanecháva podobnú stopu ako štandardné zametanie, pretože inak nemusíme rozpoznať mnohé zaujímavé genómové oblasti. Aby sme predpovedali stopu selekcie na variáciu v stoji, musíme najprv vedieť, koľko nezávislých mutácií bude pravdepodobne základom danej adaptácie (Hermisson a Pennings 2005). Za predpokladu jednoduchého demografického modelu, iba dve fitness triedy v cieli výberu (uprednostňované a nepriaznivé) a žiadna interferencia medzi obľúbenými alelami, Hermisson a Pennings (2005) dospeli k záveru, že jediný pôvod obľúbenej alely je pravdepodobnejší, pokiaľ výber je silná a 4 N 0,1, kde N je diploidná efektívna veľkosť populácie a je miera mutácií za generáciu do preferovanej triedy. U ľudí sa predpokladá, že miera mutácií v populácii, 4 N &mu (kde &mu je neutrálna rýchlosť mutácie na generáciu), je približne 0,001 na pár báz (Li a Sadler 1991 Przeworski a kol. 2000), takže tento stav je ekvivalentný predpoklad, že mutácie na menej ako 100 bp vedú k preferovanému typu. V D. melanogaster sa 4 N&mu odhaduje na približne 0,01 na pár báz (napr. Moriyama a Powell 1996), čo zodpovedá požiadavke, aby boli prospešné mutácie na menej ako 10 bp. Pre oba druhy sa teda zdá byť rozumný predpoklad jediného pôvodu obľúbenej alely.

V tomto prípade podpis selekcie na prepojenej, neutrálnej variácii zásadne závisí od frekvencie f, pri ktorej je najskôr uprednostňovaná alela, ktorá nakoniec dosiahne fixáciu. Ak f < 1/(2 Ns) a selekcia je silná (kde s je selekčný koeficient obľúbenej alely), účinok priaznivej substitúcie bude taký, ako sa očakáva podľa štandardného modelu rozmietania (Stephan et al. 1992). Pokiaľ teda prírodný výber pôsobí na novú alebo vzácnu alelu, spojené, neutrálne miesta budú mať tendenciu ukrývať prebytok vzácnych alel a nízku diverzitu. Tento výsledok tiež pomáha porozumieť modelu, v ktorom je alela pôvodne škodlivá a potom uprednostňovaná. Ak bola purifikačná selekcia dostatočne silná na to, aby udržala variant na veľmi nízkej frekvencii v prostredí predkov, predpovede budú opäť pripomínať predpovede štandardného selektívneho zametania (Orr a Betancourt 2001). Najmä, ak posun prostredia spôsobí, že selekčný koeficient zmení svoje znamienko, ale nie absolútnu hodnotu, predpovede budú identické (Hermisson a Pennings 2005).

Ak bola alela spočiatku veľmi slabo škodlivá alebo neutrálna, frekvencia f nemusela byť veľmi nízka, je to tak aj v prípade, ak bola alela prinesená génovým tokom z prostredia, v ktorom nebola škodlivá (Roper et al. 2004 Colosimo a kol., 2005). V prípadoch, kde f bolo znateľné, podpis výberu sa nemusí podobať štandardnému rozmietaniu. Innan a Kim (2004) skúmali tento problém v kontexte domestikácie rastlín. Aby napodobnili proces umelého výberu, ktorý zaviedli raní farmári, uvažovali o nedávnej prekážke populácie (pred 7500 generáciami), po ktorej nasledoval 20- až 100-násobný rast populácie. Modelovali extrémne silnú selekciu vyskytujúcu sa na začiatku úzkeho miesta a pôsobiacu na jedinú alelu, ktorá bola predtým neutrálna. Použitím štandardných testov neutrality založených na úrovniach diverzity a frekvenciách alel zistili, že väčšie hodnoty f vedú k zníženiu sily na detekciu fixácie prospešnej alely v údajoch o polymorfizme.

Znova sa vrátime k tejto otázke, aby sme našli parametre použiteľné pre prirodzený výber. Aby sme to dosiahli, implementujeme nový koalescentný model smerovej selekcie na stojatých variáciách a charakterizujeme frekvencie alel a vzorce nerovnováhy väzieb na spojených neutrálnych miestach. Podobne ako Innan a Kim (2004) predpokladáme, že obľúbená alela má jedinečný pôvod.

Uvažujeme nasledovný scenár: v čase t m vzniká mutáciou neutrálna alela A a driftuje v populácii až do času t s, kedy sa v dôsledku zmeny prostredia stane prospešnou. Alela A sa nakoniec fixuje v čase T, kedy všetky chromozómy nesú obľúbenú alelu. Selekcia je genická a v novom prostredí A má selekčný koeficient s . Frekvencia A v čase t s je označená f .

Aby sme preskúmali vplyv substitúcie alely A na vzory variácií, modelujeme genealogickú históriu vzorky z prepojenej, neutrálne sa vyvíjajúcej oblasti. Aby sme to dosiahli, predpokladáme, že populácia sa spája náhodne a má konštantnú veľkosť N diploidov. Tiež predpokladáme, že alela A bola jedinou udalosťou mutácie na tomto mieste (v genealogickej histórii neutrálnej oblasti). Mutácie v neutrálnej oblasti vznikajú podľa modelu nekonečných miest. Rekombinácia je modelovaná ako crossing-over bez génovej konverzie a vyskytuje sa konštantnou rýchlosťou r na pár báz.

Ak ideme späť v čase (takže 0 < T < t s < t m ), existujú tri fázy. Pred vznikom alely A ( t > t m ) alebo po fixácii A ( t < T ) je v mieste len jedna alela, a. Históriu teda možno opísať štandardným neutrálnym koalescentom (porov. Hudson 1990). V dvoch ďalších fázach existujú dve alely: keď t s < t < t m , a a A sú selektívne ekvivalentné, zatiaľ čo pre T < t < t s nie sú. Počas týchto fáz sa rodové línie predkov vzorky z neutrálnej oblasti môžu považovať za vyvíjajúce sa v štruktúrovanej populácii, kde alelické triedy (a a A) definujú subpopulácie a rekombinácia medzi rodovými líniami každej triedy pôsobí ako migrácia (Hudson a Kaplan 1988 Barton 1998 Nordborg 2001).

Pomocou tejto analógie štruktúrovaného koalescentu môžeme simulovať genealogickú históriu vzorky z neutrálne sa vyvíjajúcej oblasti vygenerovaním frekvencie vybranej alely v priebehu času (ďalej len “trajektória”), potom vygenerovaním grafu rekombinácie predkov podmieneného túto trajektóriu (pozri obr. 1). Tento všeobecný prístup bol priekopníkom Kaplana a kol. (1989) a odvtedy sa používa v iných štúdiách (napr. Przeworski 2002 Ray a kol. 2003 Coop a Griffiths 2004 Innan a Kim 2004).

Tento prístup implementujeme modifikáciou koalescentného programu opísaného v Przeworski (2002). Jediná zmena sa týka trajektórie alely A. V Przeworski (2002) je alela A uprednostňovaná od úvodu po fixáciu a na modelovanie trajektórie sa používa deterministická aproximácia. Tu je A spočiatku neutrálny, potom prospešný a trajektória A je modelovaná stochasticky (ako je popísané nižšie). Zatiaľ čo teda uvádzame výsledky pre pevný čas fixácie, T, časy tm a ts sú náhodné, a preto sa budú meniť od cyklu k cyklu.

Skontrolovali sme chyby v programe napísaním nezávislého kódu (ktorý používa aproximáciu narodenia a úmrtia s procesom difúzie) a porovnaním výsledkov. Ten je implementovaný ako verzia programu SELSIM (Spencer and Coop 2004) a je dostupný na pritch.bsd.uchicago.edu/software.html.

Simulácia trajektórie alely A

Frekvencia alely A v populácii môže byť modelovaná difúznym procesom X ( t ) na (0,1), s generátorom, kde &sigma 2 ( x ) = x (1 &mínus x ) je nekonečne malý rozptyl a &mu ( x ) nekonečne malý priemer difúzneho procesu (porov. Ewens 2004). V našom modeli existujú dva difúzne procesy: neutrálny, X N ( t ) a vybraný, X S ( t ). Tieto majú infinitezimálne priemery &mu N ( x ) = 0 a &mu S ( x ) = 2 Nsx (1 &mínus x), v tomto poradí.

Tieto procesy považujeme za podmienené dosiahnutím jedného z dvoch absorpčných stavov: nula (t.j. strata A z populácie) a jedného (t.j. fixácia). Proces podmienenej difúzie má rovnakú &sigma 2 ( x ) ako zvyčajná difúzia, ale infinitezimálny priemer obsahuje dodatočný člen, ktorý účinne dáva vhodný posun smerom k hranici, na ktorej sme boli podmienení.

Náš prístup sa tiež spolieha na reverzibilitu procesu difúzie (porovnaj Griffiths 2003). Konkrétne využívame skutočnosť, že proces difúzie pri pohľade dozadu v čase od súčasnosti (t. j. smerom k zavedeniu alely) má rovnakú distribúciu ako proces dopredu v čase podmienený absorpciou pri nule. Tento podmienený proces X N * ( t ) je rovnaký ako X N ( t ), ale s &mu N ( x ) nahradeným &mu N * ( x ) = &mínus x (Ewens 2004). Podobne, pretože nás zaujímajú iba prospešné alely, ktoré nakoniec dosiahnu fixáciu, považujeme proces difúzie za podmienený tým, že vybraná alela dosiahne frekvenciu jedna. Tento podmienený proces X S + ( t ) má nekonečne malý priemer &mu S + ( x ) = 2 Nsx (1 &mínus x)/tanh(2 Nsx) (Ewens 2004).

Na vytvorenie trajektórie pre alelu A používame skokovú náhodnú prechádzku s premenlivou veľkosťou, aby sme sa priblížili procesu difúzie. Vzhľadom na aktuálnu frekvenciu x v časových intervaloch & Delta t frekvencia x preskočí buď na: s rovnakou pravdepodobnosťou. Výraz &mu(x) je nahradený podmieneným infinitezimálnym priemerom príslušnej fázy (t.j. neutrálna alebo selektívna). Tento proces má správny limit difúzie, to znamená, že sa získa správny infinitezimálny priemer a rozptyl a všetky vyššie momenty sú nulové, ako časový interval &Delta t 0 (Karlin a Taylor 1981). Pre malé &Delta t teda poskytuje dobrú aproximáciu procesu difúzie. Overili sme to pre náš výber &Delta t = 1/(4 N ) porovnaním s analytickými očakávaniami a alternatívnymi metódami simulácie (výsledky nie sú uvedené).

V našej implementácii sú dva kroky: (1) simulácia trajektórie neutrálnej alely od frekvencie f po stratu, s &mu( x ) = &mu N * ( x ) v skokoch opísaných vyššie vlastnosťou reverzibilita popísanú vyššie, môžeme prevrátiť túto trajektóriu na modelovanie alely A z úvodu do frekvencie f a (2) simuláciu trajektórie vybranej alely z f na fixáciu, s &mu( x ) = &mu S + ( x ) v skokoch. Potom zreťazíme výsledky (1) a (2), aby sme získali jednu trajektóriu od zavedenia po fixáciu.

Náš prístup zaisťuje, že A sa na začiatku vyberie pri frekvencii f, bez predpokladu, že A sa vyberie, keď prvýkrát dosiahne frekvenciu f (čo by bolo nereálne). Navyše je to výpočtovo efektívne, pretože generujeme iba trajektórie, kde sa A nakoniec v populácii zafixuje.

Zaujíma nás kontrast dvoch modelov: štandardné selektívne zametanie, v ktorom sa uprednostňuje alela od úvodu až po fixáciu, a model smerového výberu pri variácii v stoji. V druhom prípade uvažujeme o nasledujúcom scenári: v populácii vzniká neutrálna alela A a pohybuje sa v populácii až do času ts, keď sa stane favorizovaným, nakoniec dosiahne fixáciu v populácii v čase T (podrobnosti nájdete v časti Metódy). Frekvencia alely A v čase ts, f je hlavným parametrom v porovnaní.

Aby sme charakterizovali účinky týchto dvoch modelov na genetickú variáciu, simulujeme vzorky z prepojenej, neutrálne sa vyvíjajúcej oblasti pomocou štruktúrovaného koalescentného prístupu. Konkrétne vygenerujeme trajektóriu alely A od zavedenia po fixáciu, potom podmieňujeme túto konkrétnu realizáciu genealogického procesu, aby sa vytvoril graf rodovej rekombinácie pre našu vzorku (obr. 1). Trajektória alely A je modelovaná stochasticky pomocou nového prístupu (pozri Metódy). Pri štandardnom modeli rozmietania f = 1/(2 N ), zatiaľ čo pri modeli smerovej selekcie pri variácii v stoji f 1/(2 N ).

Vplyv f na úrovne diverzity

Bez ohľadu na hodnotu f sú priemerné úrovne diverzity najviac skreslené v blízkosti vybraného miesta a majú tendenciu k neutrálnemu očakávaniu so zvyšujúcou sa genetickou vzdialenosťou. To je znázornené na obrázku 2A s použitím parametrov, ktoré môžu byť aplikovateľné na ľudí (napr. Frisse et al. 2001). Uvádzame tri zhrnutia diverzity: &theta W (Watterson 1975), &theta H (Fay a Wu 2000) a &pi (Tajima 1989). Pri modeli neutrálnej rovnováhy tieto štatistiky poskytujú nestranný odhad &theta, populačnej miery mutácií (&theta = 4 N &mu, kde &mu je rýchlosť mutácie na generáciu na pár báz). Pre tieto parametre vedie štandardný pohyb k zníženiu priemerných úrovní variácií v rámci 100-kb oblasti (v porovnaní s neutrálnym očakávaním &theta = 0,001 na pár báz).

Očakáva sa veľmi podobný obraz, pokiaľ f

Vplyv f na alelové frekvencie

Toto zistenie by mohlo naznačovať, že smerový výber pri variácii v stoji sa správa ako štandardné zametanie, ale so slabšou stopou. Ukazuje sa, že to nie je pravda. Obrázok 3 znázorňuje &pi a &theta W ako funkciu vzdialenosti od zvoleného miesta pre štyri simulované súbory údajov vygenerované podľa modelov smerového výberu, kde f = 0,05 a kde f = 1/(2 N ), ako aj pod neutrálna rovnováha.Ako je možné vidieť, niektoré prípady selekcie na stojatej variácii pripomínajú štandardné zametanie so slabšou stopou (príklad 3), iné vyzerajú ako prípad neutrálnej rovnováhy s vysokou diverzitou veľmi blízko k vybranému miestu (príklad 4) a ďalšie vyzerajú inak. buď štandardné zametanie alebo neutralita, s údoliami nízkej diverzity v niektorých segmentoch a neutrálnymi rovnovážnymi úrovňami v iných (príklady 1, 2).

Navyše, zatiaľ čo fixácia novej prospešnej mutácie má väčší účinok na &pi ako &theta W vo všetkých štyroch príkladoch, nie je to tak, keď f = 0,05. Tento rozdiel medzi dvoma výberovými modelmi ilustrujeme podrobnejšie prezentáciou piatich náhodne generovaných príkladov frekvencií alel v spojenej neutrálnej oblasti (obr. 4). V blízkosti vybraného miesta má štandardný pohyb tendenciu produkovať prebytok vzácnych a vysokofrekvenčných alel v porovnaní s modelom neutrálnej rovnováhy (napr. Maynard Smith a Haigh 1974 Kaplan a kol. 1989 Simonsen a kol. 1995 Fay a Wu 2000) . Ako je vidieť v príkladoch 2 a 5, deje sa to aj pri modeli, kde f 1/(2 N ). To, čo odlišuje model smerovej selekcie na stojatej variácii od štandardného modelu zametania, je značný počet prípadov, kde existuje relatívny nadbytok alel so strednou frekvenciou (príklady 1 a 4 na obr. 4). To naznačuje, že pre stredné hodnoty f vedie smerový výber k oveľa väčšiemu rozptylu frekvenčných spektier, ako sa očakávalo pri štandardnom modeli rozmietania.

Na kvantifikáciu tohto pozorovania odhadujeme rozptyl a centrálny 95% interval pravdepodobnosti Tajima's D (Tajima 1989), čo je bežne používaný súhrn frekvenčného spektra skladanej alely na základe (približne) normalizovaného rozdielu medzi &pi a &theta W ( Stôl 1 ). Pri neutrálnom rovnovážnom modeli je priemer tejto štatistiky zhruba nulový, zatiaľ čo negatívna (kladná) hodnota odráža nadbytok zriedkavých (strednofrekvenčných) alel. Najprv zvážime prípad, keď prospešná alela práve dosiahla fixáciu. Ako sa očakávalo, štandardné selektívne zametanie vedie k výrazne zníženým hodnotám D. Na rozdiel od toho, pre f= 0,05 je priemer len mierne znížený od nuly, ale oba konce distribúcie D sú značne zvýšené (tabuľka 1). Ak je čas od fixácie namiesto toho 2000 generácií alebo približne 50 000 rokov u ľudí, potom oba modely vedú k zápornejším D-hodnotám. Rozptyl vo výsledkoch však zostáva oveľa väčší pri modeli smerového výberu variácie v stoji a 95. percentil stále obsahuje výrazne pozitívne hodnoty (tabuľka 1).

Rovnaké kvalitatívne správanie bolo zaznamenané pri modeli domestikácie rastlín, v ktorom k selekcii dochádza počas nedávneho úzkeho miesta (Innan a Kim 2004). Autori považovali za testovaciu štatistiku schopnosť odmietnuť neutrálny nulový model pomocou dvoch súhrnov frekvenčného spektra alel, Tajima's D a štatistiky podobné Fay a Wu's H (Fay a Wu 2000). Poznamenali, že “dva testy fungujú na oboch chvostoch, pretože výber robí vzory polymorfizmu variabilnými” (Innan a Kim 2004, s. 10670). Spoločne ich výsledky a naše výsledky naznačujú, že zvýšený rozptyl vo frekvenčnom spektre je všeobecnou črtou smerového výberu pri variácii v stoji.

Toto zistenie možno chápať v koalescentnom rámci. Pri štandardnom selektívnom modeli a pri absencii rekombinácie medzi vybranými a neutrálnymi lokusmi bude mať genealógia vzorky z neutrálnej oblasti tvar hviezdy a bude sa odrážať v údajoch vysokým podielom vzácnych alel. Ak dôjde k nízkej úrovni rekombinácie, bude to mať tendenciu byť vtedy, keď je alela A v populácii na strednej frekvencii, skôr než dôjde k mnohým koalescentným udalostiam. Výsledná genealógia bude naklonená, s jednou alebo niekoľkými dlhými vonkajšími vetvami, takže vzorka bude obsahovať vysoký podiel vzácnych a vysokofrekvenčne odvodených alel (Barton 1998 Fay a Wu 2000). Na rozdiel od toho, pri modeli selekcie na stojatej variácii bude rekombinácia prebiehať aj vtedy, keď má A nízku frekvenciu (obr. 1). Zvýšená príležitosť na rekombináciu v počiatočnom štádiu pramení zo skutočnosti, že A trávi viac času v populácii unášaním pri nízkych frekvenciách. Rekombinačné udalosti, ktoré sa vyskytujú, keď je A zriedkavé, budú mať za následok vyváženejšie genealógie, to znamená vyšší počet alel so strednou frekvenciou vo vzorke (obr. 1). Z iného pohľadu, ak k rekombinácii dôjde, zatiaľ čo A je zriedkavé, potom viac ako jeden haplotyp bude niesť alelu v čase ts. Podskupina z nich sa bude zvyšovať vo frekvencii spolu s A a po fixácii budú mať alely, ktoré ich odlišujú, tendenciu byť na stredných frekvenciách vo vzorke. Stručne povedané, frekvenčné spektrum pozorované na prepojených, neutrálnych miestach závisí od toho, koľko rekombinačných udalostí sa vyskytlo počas pobytu obľúbenej alely v populácii a kedy k nim došlo, t. j. pre pevnú silu selekcie, na f a rýchlosti rekombinácie. .

V tomto ohľade nestojí za nič, že akýkoľvek scenár, ktorý vedie k relatívne dlhému času pobytu obľúbenej alely, najmä pri nízkej frekvencii, zvýši príležitosť na rekombináciu medzi alelickými triedami, čím sa oslabí a skreslí stopa adaptívnej substitučnej relatívnej na štandardný model zametania. Napríklad fixácia prospešnej alely má menší vplyv na diverzitu na prepojených neutrálnych miestach, keď je alela skôr recesívna než kodominantná, ako sa predpokladá v štandardnom modeli (Teshima a Przeworski 2005). Dôležité je, že štruktúra populácie môže tiež predĺžiť dobu pobytu obľúbenej alely (Cherry 2003 Whitlock 2003).

Vplyv f na silu alelických asociácií

Načasovanie rekombinačných udalostí počas selektívneho premietania tiež ovplyvní úrovne väzbovej nerovnováhy (LD). Na preskúmanie tohto aspektu údajov o polymorfizme odhadujeme mieru rekombinácie populácie, &rho = 4 N e r (Hudson 1987). Podľa modelu neutrálnej rovnováhy možno odhady &rho považovať za množstvo rekombinácie potrebnej v populácii za generáciu na vytvorenie približne pozorovaného LD. Všeobecnejšie si ich možno predstaviť ako index sily alelických asociácií, pričom menšie -hodnoty zodpovedajú väčšiemu LD a naopak (Andolfatto a Przeworski 2000).

V tabuľke 2 uvádzame priemer, rozptyl a rozsah dvoch odhadov &rho pre parametre použiteľné pre ľudí a &rho = 10. Prvý, W 00 , je odhad maximálnej pravdepodobnosti &rho daný dvoma súhrnmi údajov : počet odlišných haplotypov vo vzorke a minimálny počet rekombinácií, ako sa odhaduje testom štyroch gamét (Wall 2000). Druhý odhad, H 01, je zložený odhad pravdepodobnosti založený na konfiguráciách haploype na pároch polymorfných miest (Hudson 2001). V rámci rovnovážneho neutrálneho modelu sú oba odhady blízko k nezaujatým (tabuľka 2). Na porovnanie, štandardný selektívny model zametania vedie k prudkému poklesu W 00 alebo ekvivalentne k výraznému zvýšeniu hladín LD (Przeworski 2002 Kim a Nielsen 2004). Tento pokles odhadovaného &rho je tiež pozorovaný pri zohľadnení mediánu H 01, ale nie jeho priemeru, pretože ten je skreslený občasnými extrémnymi hodnotami.

V priemere má fixácia prospešnej alely menší vplyv na odhady &rho (t.j. slabší účinok na LD), keď f = 0,05 v porovnaní so štandardným selektívnym modelom. Na ilustráciu, pre tieto parametre sa medián W 00 rovná 1,0 namiesto 0,0 a medián H 01 = 2,6 namiesto 1,6. Okrem toho existuje väčší rozptyl v hladinách LD: Var(W00) = 2,34 oproti 0,90 pre f= 0,05 a f = 1/(2 N), v tomto poradí. (Tento efekt nie je pozorovateľný pri H 01, pravdepodobne preto, že odhad je posunutý smerom nahor, keď vzorka obsahuje vysoký podiel vzácnych alel a tento prípad nastáva častejšie pri štandardnom selektívnom rozmietacom modeli J. D. Wall, nepubl. obs.).

Napriek zvýšenému rozptylu v odhadoch W00 podľa modelu, kde f= 0,05, horný 97,5 percentil W00 je stále podstatne nižší, než sa očakávalo pri modeli neutrálnej rovnováhy. To naznačuje, že použitie W00 ako testovacej štatistiky môže poskytnúť značnú silu na detekciu prospešnej substitúcie, aj keď f1/(2N). Bohužiaľ, použitie W 00 ako testovacej štatistiky by vyžadovalo presný odhad &rho, ktorý je zriedka dostupný. Okrem toho účinok prospešnej substitúcie na LD sa rýchlo rozptýli (tabuľka 2 Przeworski 2002 Kim a Nielsen 2004).

Ako alternatívne zhrnutie vzorov LD sme pre simulácie opísané v tabuľke 2 zoradili počet odlišných haplotypov aj homozygotnosť haplotypov. Vo všetkých prípadoch mali selektívne zametanie s fɣ/(2N) menšiu diverzitu haplotypov ako porovnateľné simulácie s f= 0,05, aj keď boli korigované na rozdiely v úrovniach diverzity a frekvencie alel (výsledky nie sú uvedené). Tieto výsledky sú vo všeobecnosti v súlade s výsledkami opísanými pre odhady &rho v tom, že sa zdá, že štandardný sweep model vedie k väčšiemu zvýšeniu hladín LD ako model, kde f = 0,05. Zostáva preskúmať, či sa toto pozorovanie zovšeobecňuje na iné súhrny LD a najmä, či existuje aspekt LD, ktorý by mohol pomôcť rozlíšiť selekciu na stojatej variácii od nových mutácií.

Frekvencie, pri ktorých sú preferované alely

Ako tieto výsledky ukazujú, podpis smerového výberu na existujúcom polymorfizme rozhodujúcim spôsobom závisí od hodnoty f . Bohužiaľ, existuje len málo empirických dôkazov, ktoré by naznačovali, aké hodnoty môžu byť prijateľné pre prirodzené populácie. Aby sme získali určitú predstavu o tom, čo môžeme očakávať, zvážili sme model, v ktorom sú všetky prospešné substitúcie výsledkom smerovej selekcie na stojatej variácii v neutrálnej rovnovážnej populácii, a pýtali sme sa, aké by bolo rozdelenie f za týchto podmienok (súvisiacu deriváciu pozri Hermisson a Pennings 2005).

Najprv predpokladáme, že pozitívny výber pôsobí na odvodenú alelu. V našom modeli je neutrálna alela vybraná náhodne z neutrálneho rovnovážneho frekvenčného spektra. Označte odvodenú frekvenciu alel x , obmedzenú na Ώ/2 N , 1 & mínus 1/2 N ]. Funkcia hustoty pravdepodobnosti (pdf) pre x je úmerná 1/ x (porovnaj Ewens 2004). Keďže 1/2 N (2 N &mínus1)/2 N dx / x = ln(2 N &mínus 1), pdf odvodená frekvencia alel je ( x ) = [ x ln(2 N &mínus 1)] &mínus1 . Neutrálna alela sa preto získava z (x) a následne sa uprednostňuje s génovými selektívnymi výhodami s. Pri danej alele na frekvencii x, ktorá má selektívny koeficient s, je pravdepodobnosť fixácie približne (1 &mínus e &mínus4 Nsx)/(1 &mínus e &mínus4 Ns) (porovnaj Ewens 2004). Podmienené fixáciou, pdf pre frekvenciu f, P (x), je preto úmerné a pravdepodobnosť fixácie náhodne vybranej neutrálnej alely je približne Obrázok 5 predstavuje (x) a P (x). Porovnanie týchto dvoch naznačuje posun smerom k alelám s vyššou frekvenciou v P ( x ) relatívne k ( x ). To je ľahko pochopiteľné: pre fixný selekčný koeficient je menej pravdepodobné, že sa fixujú zriedkavé alely. Podmienkou fixácie je teda podiel vzácnych alel menší. Ako sa zvyšuje sila selekcie, účinok na kondicionovanie na fixáciu sa oslabuje a tieto dve distribúcie sa stávajú podobnejšie.

Z toho vyplýva, že ak smerový výber často pôsobí na stálu variáciu a výber v prirodzených populáciách je silný, distribúcia f sa bude podobať neutrálnej variácii v populácii predkov. Tento jednoduchý model preto predpovedá, že smerová selekcia v teosinte, divokom predchodcovi kukurice, bude mať tendenciu produkovať štandardný podpis selektívneho zametania, pretože frekvenčné spektrum alel je vychýlené smerom k zriedkavým alelám (Wright et al. 2005). Naproti tomu v európskych ľudských populáciách sa zdá, že existuje nadbytok alel so strednou frekvenciou v zdanlivo neutrálnych oblastiach (napr. Frisse et al. 2001 Akey et al. 2004). Za predpokladu, že to isté platilo na začiatku selekcie, adaptácie na nové biotopy mohli preto s väčšou pravdepodobnosťou zahŕňať alely s značnou frekvenciou, čo viedlo k podskupine genómových oblastí so zníženou diverzitou a nadbytkom alel so strednou frekvenciou.

Doteraz sme predpokladali, že selekcia uprednostňuje odvodenú alelu. V závislosti od toho, ako sa selekčné koeficienty menia s prostredím, môže byť realistickejšie predpokladať, že alela, ktorá sa stáva prospešnou, A , je rovnako pravdepodobne odvodená alebo rodová. pdf frekvencia alel predkov je [(1 &mínus x )ln(2 N &mínus 1)] &mínus1 . Rozdelenie frekvencií náhodne vybranej neutrálnej alely je teda a P ( x ) je úmerné Zatiaľ čo ( x ) je symetrické okolo 0,5, P ( x ) je posunuté smerom k vyšším hodnotám frekvencie. Preto v tomto scenári bude selekcia väčšinou pôsobiť na alely, ktorých frekvencia je blízka jednej a ktoré sú rodové. Keď sa tak stane, trajektória A z jednej do f späť do jednej vyvolá krátke a veľmi mierne zúženie alelickej triedy a. V prítomnosti rekombinácie nie je táto analógia medzi vychýlením a zmenšením veľkosti populácie dokonalá (Barton 1998), ale naznačuje to, že prospešná substitúcia alely predkov nebude mať v podstate žiadny vplyv na vzory variácií na prepojených miestach. Navyše, akýkoľvek selektívny podpis je prítomný, bude ťažké odlíšiť od účinkov populačnej histórie, najmä u druhov (ako sú ľudia), o ktorých sa predpokladá, že zažili nedávne úzke miesta. Takže aj keď je rovnako pravdepodobné, že selekcia uprednostňuje rodové a odvodené alely, budú ľahko detekovateľné iba tie epizódy, ktoré zahŕňajú odvodené alely.

Identifikácia selektívnych cieľov z údajov o polymorfizme vyžaduje presnú charakterizáciu účinkov prirodzeného výberu. K dnešnému dňu sa tieto snahy riadili zjednodušeným modelom, ktorý okrem mnohých iných predpokladov predpokladá, že adaptácie sa uskutočňujú prostredníctvom smerového výberu na jedinej novovzniknutej alele. Empirické údaje aj teoretické úvahy však naznačujú, že selekcia môže často pôsobiť na viaceré nezávislé mutácie alebo na jedinú alelu už prítomnú v populácii. Zameraním sa na posledný scenár sme zistili, že smerový výber v rekombinácii môže viesť k vzorcom polymorfizmu, ktoré sa výrazne líšia od podpisu očakávaného podľa štandardného modelu, keď frekvencia, pri ktorej sa alela stáva prospešnou, presahuje 1/(2 Ns ).

Nie je jasné, ako často je táto podmienka splnená, ale zváženie tohto scenára môže pomôcť vysvetliť vzory variácií v kandidátskych lokusoch. Ako ilustráciu Akey a kol. (2004) použili prístup falošnej miery objavovania na identifikáciu génových oblastí, pre ktoré je neutrálna evolúcia odmietnutá na základe rôznych demografických predpokladov. Autori identifikovali osem lokusov ako významných u Európanov-Američanov a žiadne u Afroameričanov, čo ich viedlo k predpokladu, že európske populácie zažili nedávny smerový výber v reakcii na nové biotopy. Je zaujímavé, že traja z ôsmich kandidátov majú výrazne pozitívne hodnoty Tajima's D (ABO, ACE2 a IL1A Akey et al. 2004). Z nich ABO a IL1A tiež vykazujú nezvyčajne vysoké úrovne diverzity, možno v súlade s pôsobením vyrovnávacieho výberu. Ale v ACE2, enzýme 2 konvertujúcom angiotenzín I–, je Tajima's D nielen silne pozitívny (Ư.854), ale aj diverzita je znížená (pomer európsko-americkej a afroamerickej diverzity je 11. zo 132 skúmaných génov) . Tieto dva aspekty údajov je ťažké zosúladiť buď so štandardným selektívnym zametaním alebo modelmi vyrovnávacieho výberu, ale sú v súlade s predikciami smerového výberu pri variácii v stoji. Podobne jedna z prvých prác, ktorá aplikovala prístup mapovania stopom na D. melanogaster, identifikovala dve oblasti chromozómu X ako predpokladané ciele nedávneho selektívneho zametania v európskych populáciách (Harr et al. 2002). Hladiny polymorfizmu boli v týchto oblastiach znížené, ale Tajimova D-hodnota bola pozitívna pre viac ako polovicu sekvenovaných fragmentov. Jedným z vysvetlení môže byť, že pozitívny výber pôsobil na alelu, ktorá sa už v populácii predkov segregovala s značnou frekvenciou. Tieto príklady sú len sugestívne, ale zvýrazňujú potenciálnu vysvetľujúcu silu realistickejšieho modelu výberu. Aby bolo možné tento model smerového výberu na variácii v stoji ďalej charakterizovať alebo použiť na odvodenie, implementovali sme ho v rámci programu SELSIM (Spencer a Coop 2004) a sprístupnili túto verziu na pritch.bsd.uchicago.edu/ software.html .

Ako ďalší krok by bolo užitočné charakterizovať vplyv na údaje o polymorfizme smerového výberu na viacnásobné nezávislé mutácie v lokuse. Hoci presný počet nezávislých pôvodov obklopuje značná neistota, zdá sa, že tento scenár platí pre rezistenciu parazita malárie na pyrimetamín (Roper et al. 2004 a tam uvedené odkazy). Podobne sa zdá, že fenotyp s nízkou platňou v sladkovodných populáciách lipňov trojtŕňových je spôsobený najmenej dvoma nezávislými mutáciami na hlavnom lokuse (Colosimo et al. 2005). Všeobecnejšie, za predpokladu, že nedochádza k interferencii medzi alelami, je tento spôsob selekcie na stojatej variácii pravdepodobný vždy, keď je selekcia slabá alebo je vysoká miera mutácie populácie na obľúbenú triedu 4N (Hermisson a Pennings 2005). Výsledok Hermissona a Penningsa preto predpovedá, že adaptácie u druhov s väčšou efektívnou veľkosťou populácie, N , s väčšou pravdepodobnosťou zahŕňajú viaceré alely nezávislého pôvodu. To tiež naznačuje, že podpis selekcie v lokuse bude závisieť od genetickej architektúry fenotypu, napríklad pre fixný selekčný koeficient sa očakáva, že adaptívna strata funkcie zanechá odlišný podpis od zisku funkcie, pretože viac mutácií to môže priniesť (Hermisson a Pennings 2005). Tieto dohady možno testovať, keď je charakterizovaný podpis selekcie na viacerých alelách.

Okrem zváženia všeobecnejších spôsobov výberu môže byť dôležité zahrnúť realistickejšie demografické predpoklady (napr. Slatkin a Wiehe 1998 Beaumont a Balding 2004). Niekoľko štúdií poukázalo na problém odlíšenia selektívnych vplyvov od demografických (Nielsen 2001 Przeworski 2002 Lazzaro a Clark 2003). Toto zostáva kľúčovým bodom: napríklad vzory v ACE2 aj kandidátskych lokusoch identifikovaných Harrom a kol.(2002) by mohli odrážať komplexné demografické procesy, ktoré autori nezohľadnili, a nie adaptáciu na prepojenej stránke. Rovnako dôležité je však pochopenie toho, ako môžu alternatívne demografické predpoklady ovplyvniť podpis výberu (napr. Slatkin a Wiehe 1998 Beaumont a Balding 2004). V konečnom dôsledku nie je cieľom rozlišovať medzi modelmi výberu verzus komplexná demografia, ale medzi modelmi výberu a demografiou verzus demografia samotná. Najmä na identifikáciu adaptácií v reakcii na klimatické zmeny a iné biotické posuny musíme charakterizovať stopu pozitívneho výberu v populáciách, ktoré sú štruktúrované a ich veľkosť sa v priebehu času mení. V opačnom prípade riskujeme, že si pomýlime neutrálne sa vyvíjajúce lokusy s cieľmi smerového výberu a chýbajúcimi skutočnými cieľmi, pre ktoré je podpis adaptácie skreslený na nepoznanie.

Ďakujeme B. Griffithsovi za užitočné diskusie a N. Bartonovi, M. Nachmannovi a recenzentom za ich pripomienky k rukopisu. GC je podporovaná grantom National Institutes of Health HG002772 pre J. K. Pritcharda, JDW grantom Alfreda P. Sloana a MP grantom National Institutes of Health GM72861 a Alfredom P. Sloan Fellowship.

Akey, J. M., M. A. Eberle, M. J. Rieder, C. S. Carlson, M. D. Shriver, D. A. Nickerson a L. Kruglyak. 2004. História populácie a prirodzený výber formujú vzory genetických variácií v 132 génoch. PLoS Biol. 2:e286

Andolfatto, P. a M. Przeworski. 2000. Odklon v celom genóme od štandardného neutrálneho modelu v prirodzených populáciách Drosophila. genetika. 156:257𤫼. [Citácia PubMed]

Aquadro, C. F., V. Bauer DuMont a F. A. Reed. 2001. Genómová variácia človeka a ovocnej muchy: porovnanie. Curr. Opin. Genet. Dev. 11:627𤱪. [Citácia PubMed]

Barton, N. H. 1998. Vplyv stopovania na neutrálne genealógie. Genet. Res. 72:123𤩵.

Beaumont, M. A. a D. J. Balding. 2004. Identifikácia adaptívnej genetickej divergencie medzi populáciami zo skenov genómu. Mol. Ecol. 13:969𤷄. [Citácia PubMed]

Bersaglieri, T., P. C. Sabeti, N. Patterson, T. Vanderploeg, S. F. Schaffner, J. A. Drake, M. Rhodes, D. E. Reich a J. N. Hirschhorn. 2004. Genetické podpisy silnej nedávnej pozitívnej selekcie v géne laktázy. Am. J. Hum. Genet. 74:1111�. [Citácia PubMed]

Cherry, J. L. 2003. Selekcia v subdividovanej populácii s lokálnym vymieraním a rekolonizáciou. genetika. 164:789𤴋. [Citácia PubMed]

Colosimo, P. F., K. E. Hosemann, S. Balabhadra, G. Villarreal Jr, M. Dickson, J. Grimwood, J. Schmutz, R. M. Myers, D. Schluter a D. M. Kingsley. 2005. Široká paralelná evolúcia u lipkavcov opakovanou fixáciou alel ektodysplázínu. Veda. 307:1928�.

Coop, G. a R. C. Griffiths. 2004. Vyvodenie predkov o génových stromoch pod selekciou. teor. Popul. Biol. 66:219𤫘. [Citácia PubMed]

Ewens, W. J. 2004. Matematická populačná genetika. Springer Verlag, New York.

Fay, J. C. a C. I. Wu. 2000. Stopovanie pod pozitívnym darwinovským výberom. genetika. 155:1405�. [Citácia PubMed]

Frisse, L., R. R. Hudson, A. Bartoszewicz, J. D. Wall, J. Donfack a A. Di Rienzo. 2001. Konverzia génov a rôzne populačné histórie môžu vysvetliť kontrast medzi polymorfizmom a úrovňami nerovnováhy vo väzbe. Am. J. Hum. Genet. 69:831𤴻. [Citácia PubMed]

Glinka, S., L. Ometto, S. Mousset, W. Stephan a D. De Lorenzo. 2003. Demografia a prirodzený výber formovali genetickú variáciu u Drosophila melanogaster: multilokusový prístup. genetika. 165:1269�. [Citácia PubMed]

Griffiths, R. C. 2003. Frekvenčné spektrum mutácie a jej vek vo všeobecnom difúznom modeli. teor. Popul. Biol. 64:241𤫫. [Citácia PubMed]

Hamblin, M. T. a A. Di Rienzo. 2000. Detekcia podpisu prirodzeného výberu u ľudí: dôkaz z lokusu krvnej skupiny Duffy. Am. J. Hum. Genet. 66:1669�. [Citácia PubMed]

Hamblin, M. T., E. E. Thompson a A. Di Rienzo. 2002. Komplexné podpisy prirodzeného výberu na mieste krvnej skupiny Duffy. Am. J. Hum. Genet. 70:369𤭯. [Citácia PubMed]

Harr, B., M. Kauer a C. Schlotterer. 2002. Mapovanie stopom: stratégia jemného mapovania na základe populácie pre adaptívne mutácie v Drosophila melanogaster. Proc. Natl. Akad. Sci. USA. 99:12949�. [Citácia PubMed]

Hermisson, J. a P. S. Pennings. 2005. Soft sweeps: molekulárna populačná genetika adaptácie zo stálych genetických variácií. genetika. 169:2335�. [Citácia PubMed]

Hudson, R. R. 1987. Odhadovanie parametra rekombinácie modelu konečnej populácie bez selekcie. Genet. Res. 50:245𤫪. [Citácia PubMed]

Hudson, R. R. 1990. Genealogies and the coalescent process. Pp. 1– 44 ​​v D. Futuyma a J. Antonovics, ed. Oxfordské prieskumy v evolučnej biológii. Oxford Univ. Press, Oxford, U.K.

Hudson, R. R. 2001. Dvojmiestne distribúcie vzorkovania a ich aplikácia. genetika. 159:1805�. [Citácia PubMed]

Hudson, R. R. a N. L. Kaplan. 1988. Koalescentný proces v modeloch so selekciou a rekombináciou. genetika. 120:831𤴸. [Citácia PubMed]

Innan, H. a Y. Kim. 2004. Vzor polymorfizmu po silnom umelom výbere pri domestikácii. Proc. Natl. Akad. Sci. USA. 101:10667�. [Citácia PubMed]

Kaplan, N. L., R. R. Hudson a C. H. Langley. 1989. “efekt stopovania” prehodnotený. genetika. 123:887𤵳. [Citácia PubMed]

Karlin, S. a H. M. Taylor. 1981. Druhý kurz stochastických procesov. Academic Press, San Diego, CA.

Kauer, M. O., D. Dieringer a C. Schlotterer. 2003. Mikrosatelitný skríning pre pozitívnu selekciu spojenú s rozšírením biotopu Drosophila melanogaster “out of Africa”. genetika. 165:1137�. [Citácia PubMed]

Kayser, M., S. Brauer a M. Stoneking. 2003. Skenovanie genómu na detekciu kandidátskych oblastí ovplyvnených miestnym prirodzeným výberom v ľudských populáciách. Mol. Biol. Evol. 20:893𤵴. [Citácia PubMed]

Kim, Y. a R. Nielsen. 2004. Väzbová nerovnováha ako znak selektívnych zákrut. genetika. 167:1513�. [Citácia PubMed]

Kim, Y. a W. Stephan. 2002. Detekcia lokálneho podpisu genetického stopovania pozdĺž rekombinantného chromozómu. genetika. 160:765𤳹. [Citácia PubMed]

Lazzaro, B. P. a A. G. Clark. 2003. Molekulárna populačná genetika indukovateľných antibakteriálnych peptidových génov v Drosophila melanogaster. Mol. Biol. Evol. 20:914𤶋. [Citácia PubMed]

Lewin, R. a R. A. Foley. 2004. Princípy evolúcie človeka. Blackwell Publishing, Oxford, Spojené kráľovstvo

Li, W. H. a L. A. Sadler. 1991. Nízka nukleotidová diverzita u človeka. genetika. 129:513𤯻. [Citácia PubMed]

Maynard Smith, J. M. a J. Haigh. 1974. Stopový efekt priaznivého gen. Genet. Res. 23:23㪻. [Citácia PubMed]

Moriyama, E. N. a J. R. Powell. 1996. Vnútrošpecifická variácia jadrovej DNA u Drosophila. Mol. Biol. Evol. 13:261𤬅. [Citácia PubMed]

Nair, S., J. T. Williams, A. Brockman, L. Paiphun, M. Mayxay, P. N. Newton, J. P. Guthmann, F. M. Smithuis, T. T. Hien, N. J. White, F. Nosten a T. J. Anderson. 2003. Selektívne zametanie spôsobené liečbou pyrimetamínom u parazitov malárie v juhovýchodnej Ázii. Mol. Biol. Evol. 20:1526�. [Citácia PubMed]

Nielsen, R. 2001. Štatistické testy selektívnej neutrality vo veku genomiky. Dedičnosť. 86:641𤱷. [Citácia PubMed]

Nielsen, R., C. Bustamante, A. G. Clark, S. Glanowski, T. B. Sackton, M. J. Hubisz, A. Fledel-Alon, D. M. Tanenbaum, D. Civello, T. J. White, J. J. Sninsky, M. D. Adams a M. Cargill. 2005. Skenovanie pozitívne vybraných génov v genómoch ľudí a šimpanzov. PLoS Biol. 3:976𤷉.

Nordborg, M. 2001. Teória koalescentov. Pp. 179� v D. J. Balding, M. Bishop a C. Cannings, ed. Príručka štatistickej genetiky. John Wiley and Sons, West Sussex, Spojené kráľovstvo

Orr, H. A. a A. J. Betancourt. 2001. Haldaneovo sito a adaptácia zo stálej genetickej variácie. genetika. 157:875𤵤. [Citácia PubMed]

Payseur, B. A., A. D. Cutter a M. W. Nachman. 2002. Hľadanie dôkazov pozitívnej selekcie v ľudskom genóme pomocou vzorcov variability mikrosatelitov. Mol. Biol. Evol. 19:1143�. [Citácia PubMed]

Przeworski, M. 2002. Podpis pozitívneho výberu na náhodne vybraných lokusoch. genetika. 160:1179�. [Citácia PubMed]

Przeworski, M., R. R. Hudson a A. Di Rienzo. 2000. Úprava zamerania na ľudskú variáciu. Trends Genet. 16:296𤬞. [Citácia PubMed]

Ray, N., M. Currat a L. Excoffier. 2003. Molekulárna diverzita v rámci deme v priestorovo sa rozširujúcich populáciách. Mol. Biol. Evol. 20:76㫮. [Citácia PubMed]

Roper, C., R. Pearce, S. Nair, B. Sharp, F. Nosten a T. Anderson. 2004. Medzikontinentálne šírenie malárie rezistentnej na pyrimetamín. Veda. 305:1124

Santiago, E. a A. Caballero. 2005. Variácia po selektívnom zametaní v rozdelenej populácii. genetika. 169:475𤯓. [Citácia PubMed]

Schofl, G. a C. Schlotterer. 2004. Vzory mikrosatelitnej variability medzi X chromozómami a autozómami naznačujú vysokú frekvenciu prospešných mutácií u neafrických D. simulans. Mol. Biol. Evol. 21:1384�. [Citácia PubMed]

Simonsen, K.L., G.A. Churchill a C.F. Aquadro. 1995. Vlastnosti štatistických testov neutrality pre údaje o polymorfizme DNA. genetika. 141:413𤮝. [Citácia PubMed]

Slatkin, M. a T. Wiehe. 1998. Genetické stopovanie v rozčlenenej populácii. Genet. Res. 71:155𤪐. [Citácia PubMed]

Spencer, C. a G. Coop. 2004. SELSIM: program na simuláciu genetických údajov populácie s prirodzeným výberom a rekombináciou. Bioinformatika. 20:3673�. [Citácia PubMed]

Stephan, W., T. H. E. Wiehe a M. Lenz. 1992. Vplyv silne vybraných substitúcií na neutrálny polymorfizmus: analytické výsledky založené na teórii difúzie. teor. Popul. Biol. 41:237𤫮.

Storz, J. F., B. A. Payseur a M. W. Nachman. 2004. Genómové skeny variability DNA u ľudí odhaľujú dôkazy o selektívnych zákrutách mimo Afriky. Mol. Biol. Evol. 21:1800�. [Citácia PubMed]

Swanson, W. J. 2003. Adaptívny vývoj génov a génových rodín. Curr. Opin. Genet. Dev. 13:617𤱞. [Citácia PubMed]

Tajima, F. 1989. Štatistická metóda na testovanie hypotézy neutrálnej mutácie pomocou polymorfizmu DNA. genetika. 123:585𤱃. [Citácia PubMed]

Teshima, K. M. a M. Przeworski. 2005. Smerový výber na alelách ľubovoľnej dominancie. Genetika v tlači.

Wall, J. D. 2000. Porovnanie odhadov miery rekombinácie populácie. Mol. Biol. Evol. 17:156𤪓. [Citácia PubMed]

Watterson, G. A. 1975. O počte segregačných miest v genetických modeloch bez rekombinácie. teor. Popul. Biol. 7:256𤬄. [Citácia PubMed]

Whitlock, M. C. 2003. Pravdepodobnosť a čas fixácie v rozdelených populáciách. genetika. 164:767𤳻. [Citácia PubMed]

Wright, S. I., I. V. Bi, S. G. Schroeder, M. Yamasaki, J. F. Doebley, M. D. McMullen a B. S. Gaut. 2005. Účinky umelého výberu na genóm kukurice. Veda. 308:1310�.

Yang, Z. a J. P. Bielawski. 2000. Štatistické metódy na detekciu molekulárnej adaptácie. Trends Ecol. Evol. 15:496𤯧. [Citácia PubMed]

TABUĽKA 1. Priemer, rozptyl a rozsah Tajima's D podľa modelu neutrálnej rovnováhy, štandardného selektívneho modelu rozmietania a modelu smerového pozitívneho výberu, kde f = 0,05. Celkovo sa uskutočnilo 104 simulácií pre 100 chromozómov, s N= 104 a s= 0,05. Vybrané miesto je 10 kb od neutrálne sa vyvíjajúcej oblasti 10 kb. S neutrálnym lokusom, rýchlosť mutácie populácie &theta = 10 &mínus3 na pár báz a rýchlosť rekombinácie populácie &rho = 4 Nr = 10 &mínus3 na pár báz. T je čas od fixácie prospešnej alely. Všimnite si veľký rozptyl hodnôt D, keď f = 0,05

TABUĽKA 2. Priemer, rozptyl a rozsah odhadov &rho podľa modelu neutrálnej rovnováhy, štandardného selektívneho modelu rozmietania a modelu smerového pozitívneho výberu, kde f = 0,05. Hodnoty parametrov sú rovnaké ako v tabuľke 1 . Prezentované sú dva odhady: W 00 (Wall 2000) a H 01 (Hudson 2001). Pravdepodobnosti pre W 00 sa odhadli na mriežke 171 hodnôt v rozsahu od nuly do 100 a pravdepodobnosti pre H 01 na mriežke so 197 hodnotami v rozsahu od nuly do 200

[0027] Obr. 1. Možná genealógia pre šesť chromozómov na neutrálnom lokuse spojenom s miestom, kde prospešná alela, A, dosiahla fixáciu. V tomto príklade sa A práve zafixoval v populácii (v čase T = 0), takže všetky línie nesú obľúbenú alelu. Ak ideme späť v čase, A je uprednostňovaný z T do t s, potom sa neutrálne vyvíja z t s (keď je na frekvencii f) do t m . Trajektórie pre zvolenú a neutrálnu fázu sú zobrazené čiernou a sivou farbou. Koalescentná genealógia pre šesť chromozómov je znázornená prerušovanými čiarami, zatiaľ čo udalosti rekombinácie medzi alelickými triedami sú označené šikmými šípkami. Väčšina koalescentných udalostí sa vyskytuje, keď má alela A nízku frekvenciu. Pretože A sa neutrálne vyvíja z t s do t m , jeho čas pobytu je dlhší, ako by bol pri štandardnom pohybe, čím poskytuje viac príležitostí na rekombináciu. Všimnite si, že v tomto príklade posledný spoločný predok nebol dosiahnutý pred 2500 generáciami

[0027] Obr. 2. Stredná úroveň diverzity ako funkcia vzdialenosti od zvoleného miesta pre rôzne hodnoty f, frekvencia, pri ktorej je alela prvá zvýhodnená. Úrovne diverzity sú zhrnuté ako priemer &pi (prerušovaná), &theta W (sivá) a &theta H (čierna). Podľa modelu neutrálnej rovnováhy sú všetky tri štatistiky nezaujatými odhadmi &theta, miery mutácie populácie. (A) Možné parametre pre ľudí. Celkovo bolo spustených 104 simulácií pre 100 chromozómov, pričom N = 10 4 , s = 0,05 a &theta = &rho = 10 &mínus3 na pár báz (&rho = 4 Nr pozri Metódy pre iné definície parametrov). Čas od fixácie prospešnej alely je nulový. Podľa modelu neutrálnej rovnováhy E(&pi) =E(&thetaW) =E(&thetaH) ɣ na kilobázu. (B) Pravdepodobné parametre pre Drosophila melanogaster. Celkovo sa uskutočnilo 104 simulácií pre 100 chromozómov, pričom N= 106, s= 0,01, &theta = 0,01 na pár báz a &rho= 0,1 na pár báz. Čas od fixácie prospešnej alely je nulový. Podľa modelu neutrálnej rovnováhy E(&pi) = E(&theta W ) = E(&theta H ) = 1 na 100 bp

[0027] Obr. 3. Úrovne diverzity v 5-kb posuvnom okne (zvýšené o 1 kb) pozdĺž sekvencie podľa modelu smerového výberu s f = 0,05, štandardného selektívneho modelu rozmietania a modelu neutrálnej rovnováhy (od horného po spodný riadok , respektíve). Pre každý model sú poskytnuté štyri simulované príklady (podrobnosti o simuláciách nájdete v časti Metódy). Poloha pozdĺž sekvencie (v kilobázach) je znázornená na osi x, zatiaľ čo hodnoty &pi (plná čiara) a &theta W (prerušovaná čiara) na kilobázu sú znázornené na osi y. Podľa modelu neutrálnej rovnováhy E(&pi) =E(&thetaW) ɣ na kilobázu. Každá simulácia sa uskutočnila so 100 chromozómami, N= 104 a s= 0,05. Vybraná lokalita je na pozícii 0 a &theta = &rho = 0,001 na pár báz. Čas od fixácie prospešnej alely je nulový

[0027] Obr. 4. Frekvenčné spektrum alel pod modelom smerového výberu s f = 0,05, štandardným selektívnym modelom rozmietania a modelom neutrálnej rovnováhy (od horného po spodný riadok). Pre každý model je poskytnutých päť simulovaných príkladov (podrobnosti o simuláciách nájdete v časti Metódy). Na osi x sú frekvencie alel (v 10 binoch) a na osi y podiel miest s danou frekvenciou alel. Každá simulácia sa uskutočnila so 100 chromozómami N= 104 a s= 0,05. Vybrané miesto je 10 kb od neutrálne sa vyvíjajúcej oblasti a &theta = &rho = 10. Čas od fixácie prospešnej alely je nula

[0027] Obr. 5. Distribúcia frekvencií alel podmienená fixáciou v populácii. Predpokladáme, že selekcia pôsobí na odvodenú, predtým neutrálnu alelu. Tmavosivou farbou je znázornené frekvenčné spektrum alel pre neutrálne alely v populácii s náhodným párením konštantnej veľkosti. Svetlošedá je distribúcia frekvencií alel podmienená fixáciou prospešnej alely. V tomto príklade N = 10 4 a 4 Ns = 200. Ako je možné vidieť, podmienené fixáciou, distribúcia frekvencií alel má nižší podiel zriedkavých alel


Pozri si video: Narušení fyzikálních zákonů. Otevřený experiment PYRAMIDA. O možnosti nemožného (Jún 2022).