Informácie

Sú mikrosatelity životaschopnými markermi pre GWAS?

Sú mikrosatelity životaschopnými markermi pre GWAS?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Práve čítam nejaké články o celogenómových asociačných štúdiách a zisťujem, že väčšina z nich používa SNP ako marker. Chápem, že sú najpolymorfnejšie, a teda najlepšie na presné korelácie, ale poskytli by mikrosatelity ďalšiu životaschopnú metódu na kontrolu genetickej korelácie? Sú vysoko polymorfné a dostatočne malé na to, aby ukázali rozdiely, pričom možno umožňujú väčšiu štatistickú významnosť.


Pre GWAS by sa mohli použiť mikrosatelity. V skutočnosti boli základom pre väzbové štúdie a boli tiež použité v prvých asociačných štúdiách. Hlavným dôvodom, prečo boli nahradené SNP, je to, že v genóme človeka (alebo iných organizmov) je oveľa viac SNP ako mikrosatelitov. GWAS sa spoliehajú na väzbovú nerovnováhu medzi markerom a skutočným kauzálnym variantom. LD klesá pomerne rýchlo so vzdialenosťou, takže čím viac markerov použijete, tým je pravdepodobnejšie, že genotypujete marker v LD s kauzálnym variantom. Nakoniec by som dôrazne odporučil použiť SNP na vykonávanie GWAS.


Projekt rastlinného genómu | genetika

V tomto článku budeme diskutovať o projekte rastlinného genómu.

Veľkú revolúciu v štúdiu genómov rôznych druhov priniesla dostupnosť rekombinantných DNA a PCR technológií. Tieto techniky pomohli pri príprave molekulárnych máp mnohých rastlinných a živočíšnych genómov. Cieľom genómového výskumu akéhokoľvek druhu je sekvenovať celý genóm a dešifrovať funkcie všetkých rôznych kódujúcich a nekódujúcich sekvencií.

Technológia pre rozsiahle sekvenovanie DNA umožnila vedcom uskutočniť projekt sekvenovania genómu v realistickom časovom rámci. Od čias prvého ‘veľkého’ sekvenovania genómu v bakteriofágu λ v roku 1983 boli dokončené projekty na rôznych skupinách.

Niektoré pozoruhodné príklady zahŕňajú baktériu Escherichia coli, kvasinky Saccharomyces cerevisae, burinu Arabidopsis thaliana, ryžu Oryza sativa, háďatká Caenorhabditis elegans, ovocnú mušku Drosophila melanogaster, myš Mus musculus, primát Pantroglody Homoglobes človek sapiens.

V rastlinnej vede sa genomika propagovala pomocou Arabidopsis, buriny, ktorá sa vyskytuje po celom svete, ľahko sa pestuje, má krátky životný cyklus, jeden z najmenších genómov medzi dvojklíčnolistovými rastlinami a Oryza sativa (ryža), jeden z členov z jednoklíčnolistových rastlín. majú veľmi jednoduchú organizáciu genómu a podobnosť s inými hlavnými obilninami.

Pre akýkoľvek program sekvenovania genómu sa vykonajú nasledujúce kroky (obr. 22.18):

1. Konštrukcia máp väzieb s molekulárnymi markermi:

Na vytvorenie skutočnej mapy fyzického spojenia sa používajú rôzne druhy mole­cular markerov ako RFLP, RAPD, mikrosatelity AFLP atď. RFLP markery sa potom hybridizujú s vektormi obsahujúcimi fragmenty DNA, ktoré sa majú sekvenovať, čo umožňuje umiestnenie rôznych klonovaných fragmentov DNA pozdĺž chromozómu.

Konštrukcia génových knižníc pomocou reštrikčnej endonukleázy a potom klonovaním zostrihnutej DNA do vektorov, ako je kozmid alebo YAC, je nevyhnutná na identifikáciu prekrývajúcich sa klonov.

3. Skríning knižníc a vytváranie kontigov:

STS (sekvenčné cielené miesta) alebo EST (exprimované sekvenčné značky) veľmi pomáhajú v procese sekvenovania tým, že uľahčujú úlohu anotácie konečnej sekvencie. Keď sú dostupné usporiadané prekrývajúce sa klony, potom sa skonštruujú kontigy, ktoré predstavujú úseky klonov pripravených na súvislú sekvenciu.

Po identifikácii YAC klonov sú tieto ďalej fragmentované reštrikčnou endonukleázou a opäť subklonované do kozmidu. Po identifikácii presahujúcich klonov ‘kozmid’ sa tieto potom strihajú a klonujú vo vektoroch M 13 alebo pUC plazmide a používajú sa na sekvenovanie použitím Sangerovej metódy.

5. Nové vektory BAC & PAC a brokový prístup:

Zistilo sa, že klony YAC sú svojou povahou nestabilné a chimérické, takže sa stalo nevyhnutným použitie alternatívnych vektorov, ako je BAC (bakteriálny umelý chromozóm) alebo PAC (umelý chromozóm odvodený od PI), v rámci ktorých možno ľahko naklonovať 100 kb.

Pomocou com­puterov a špeciálnych softvérových koncoviek je každý BAC sekvenovaný a potom spárovaný s inými klonmi BAC a detegované prekrývanie. Tento proces znižuje počet klonov BAC, ktoré sa majú úplne sekvenovať, a je to výkonnejšia technika.

Po sekvenovaní genómu Arabidopsis thaliana nasledovalo úsilie o sekvenovanie genómov v niekoľkých plodinách, ako sú obilniny, olejnaté semená, strukoviny, zelenina atď. sú uvedené v tabuľke 22.2.

Projekt genómu Arabidopsis:

Tri americké skupiny, menovite Meyerowitz, Somerville a Goodman – na troch rôznych univerzitách urobili prvý krok vedúci k projektu sekvenovania genómu Arabidopsis neskôr známeho ako AGI.

Prvú mapu RFLP vytvoril Meyerowitz, druhú skupina Goodman a neskôr ju integrovala. Spočiatku bol dominantným prístupom konvenčný klon po klone, ale neskôr sa použil prístup pomocou brokovnice s použitím knižníc cDNA a EST.

V roku 1999 prišla prvá správa o chromozóme 2 a 4, ale teraz bol celý genóm sekvenovaný so všetkými informáciami.

Niektoré z nich sú nasledovné:

1. Genóm má cca. dĺžka 145 Mbp, z ktorých sú prítomné gény (kódujúca oblasť je 2-2,5 kb) v každom 4-5 kb intervale.

2. Oblasti teloméry a centroméry sú plné opakovanej DNA.

3. Centromérna oblasť má transpozóny a pseudogény.

4. Niekedy sú medzi chromo­zómami duplikované celé úseky DNA a génov.

5. Pribl. 20 % génov má signálne sekvencie a cieľové produkty do organel, ako sú chloroplasty alebo mitochondrie. Celý mitochondriálny genóm Arabidopsis je reprezentovaný na chromozóme č. 4.

6. Má asi 20 000 – 50 000 génov rôznych funkčných skupín.

Vedci z Japonska spustili program Rice Genome Program (RGP) v roku 1991. V roku 1998 bola spustená druhá fáza RGP. V súčasnosti sa na medzinárodnom programe sekvenovania genómu ryže (IRGSP) zúčastňuje 10 krajín.

Monsanto (2000) vytvoril návrh genómu ryže odrody Japonica, ktorý skúmal nasledovné:

a. Odhaduje sa, že genóm ryže obsahuje 420-466 Mbp DNA.

b. Monsanto vyprodukovalo 399 Mb sekvencií z 3391 BAC klonov v roku 2000 (nie sú dostupné verejnosti).

c. V roku 2002 bol v Pekinskom genomickom inštitúte uverejnený návrh sekvencie odrody ryže Indica a spoločnosť Syngenta zverejnila návrh sekvencie odrody Japonica.

d. Podobne ako v prípade Arabidopsis, raná práca začala s náhodnými genómovými klonmi, ale v posledných rokoch cDNA a EST dodali veľké množstvo markerov. IRGSP pokročila v príprave kontigových máp využívajúcich YAC a BAC.

e. Z dostupných sekvenčných údajov sa uvádza, že celkový počet génov v ryži nie je oveľa väčší ako v Arabidopsis a väčšina génov dvoch rastlín vykazuje homológiu.

f. Podľa dostupných údajov o ryži z Gen Bank bolo predložených 28 282 731 báz sekvencií z projektov sekvenovania ryže EST.

g. Priemerný gén ryže je 2,2 kbp obsahujúci 3,9 exónov a 2,9 intrónov. Hustota génu ryže je jeden gén na 5,7 kbp.


Pozadie

Väzbové mapy sú základnými nástrojmi v mnohých genetických štúdiách a boli vytvorené pomocou rôznych typov polymorfných markerov od ich koncepcie Sturtevantom v roku 1913 [1]. Mapy genetických väzieb určujú lineárnu polohu génov alebo markerov na chromozóme. Poskytujú tiež informácie o mierach rekombinácie v celom genóme, ako aj pohľad na vnútrodruhové a medzidruhové preskupenia génov v rámci chromozómov a medzi nimi, takže mapy sú užitočné pri štúdiu evolučnej a porovnávacej genomiky [2–4]. Jedna z ich najdôležitejších aplikácií je však pri hľadaní mendelovského a kvantitatívneho lokusu črty (QTL) [5, 6]. Počas posledných štyroch desaťročí pokrok v molekulárnej technológii znamenal, že sa sprístupnil širší rozsah a väčší počet genetických markerov, čo umožnilo vytvoriť mapy väzieb pre rastúci počet druhov vrátane mnohých nemodelových organizmov [7–9]. Je preto načase zvážiť, ako môžu rôzne markery a rôzne stavebné prístupy ovplyvniť presnosť genetických máp.

Dve kľúčové zložky, ktoré je potrebné zvážiť pri zostavovaní mapy väzieb, sú počet a typ značiek, ktoré sa majú použiť. Ako prvé boli použité fenotypové (tj viditeľné) markery, ale teraz sa výber rozšíril o celý rad molekulárnych markerov vrátane alozýmov, náhodne amplifikovanej polymorfnej DNA (RAPD), polymorfizmov dĺžky reštrikčných fragmentov (RFLP), polymorfizmov dĺžky amplifikovaného fragmentu (AFLPs), Sequence-Tagged Sites (STS), mikrosatelity (Simple Sequence Repeats) a SNP. Každý z nich vykazuje mierne odlišné výhody a nevýhody, ale pri rozhodovaní o tom, ktoré genetické markery použiť pri konštrukcii mapy väzieb, sú potrebné tri hlavné úvahy: (i) markery musia byť polymorfné, (ii) musia byť rovnomerne rozložené po celom genóme alebo oblasti záujmu a poskytujú husté pokrytie markermi a (iii) musia mať nízku chybovosť genotypovania.

Mikrosatelity sú zrejmými kandidátmi na mapovanie väzieb, sú vysoko polymorfné, relatívne ľahko a lacno sa skórujú (po vytvorení knižnice) a môžu vykazovať medzidruhovú užitočnosť u blízko príbuzných druhov [10–13]. V dôsledku toho boli široko používané v štúdiách mapovania väzieb u ľudí, modelových organizmov, poľnohospodársky dôležitých organizmov a voľne žijúcich populácií stavovcov [14–20]. V poslednej dobe však technologický pokrok v lokalizácii a genotypizácii jednonukleotidových polymorfizmov (SNP) viedol k zníženiu času objavu a nákladov na genotypizáciu [21, 22]. To spôsobilo zvýšenie ich aplikácie v štúdiách mapovania väzieb, ktorých príkladom je aktualizovaná mapa väzieb kurčiat s vysokou hustotou s 8599 SNP [23] v porovnaní so skoršou mapou 1889 molekulárnych markerov, z ktorých väčšinu tvorili mikrosatelity [24]. Toto zvýšené používanie SNP prichádza napriek ich (zvyčajne) bialelickej povahe, čo znamená, že poskytujú relatívne menej informácií na lokus. Nižšia variabilita znamená, že odhaľujú menej informatívnych meióz, čo sťažuje detekciu spojenia medzi markermi. Na boj proti tomu možno použiť zvýšený počet markerov, ktoré sú rovnomerne rozmiestnené a pokrývajú veľkú časť genómu [25]. Okrem toho je možné vytvárať mapy s kombináciou mikrosatelitov s nízkou hustotou a vysokou variabilitou a SNP s vysokou hustotou a nízkou variabilitou. Dôvodom tohto prístupu je, že mikrosatelity môžu pôsobiť ako kotvy a spôsobiť, že inak nepriradené SNP sa asimilujú do väzbových skupín. To by vytvorilo mapy väzieb s väčšou presnosťou alebo hustotou, ktoré budú potom vhodnejšie na vyhľadávanie QTL.

Mikrosatelity a SNP sa tiež líšia, pokiaľ ide o zohľadnenie (iii) chybovosti. Značky s nižšou chybovosťou samozrejme vytvárajú presnejšie údaje o prepojení. Kompromisom spojeným s vysoko polymorfnou povahou mikrosatelitov je to, že môžu mať relatívne vysokú chybovosť genotypovania [26, 27]. Metódy genotypizácie a mikrosatelitov vyvolávania alel sú len poloautomatické, čo môže spôsobiť chyby spôsobené človekom. Moderné platformy na genotypizáciu SNP sú takmer plne automatizované a chybovosť má tendenciu byť oveľa nižšia [28]. V predchádzajúcich štúdiách sa veľký dôraz kládol na identifikáciu dôsledkov chyby genotypizácie na presnosť populačných genetických analýz [29, 30]. Uznalo sa, že tieto chyby môžu ovplyvniť odvodenie rodičov alebo analýzy štruktúry populácie [26, 27, 31], ale len nedávno sa pozornosť sústredila na rozsah, v akom môžu chyby genotypovania ovplyvniť mapovanie genetických väzieb [32, 33]. V literatúre o ľudskej genetike sa porovnávali relatívne výhody SNP a mikrosatelitov pre skenovanie komplexných chorôb v celom genóme [34–38], ale tieto štúdie sa zamerali skôr na mapovanie príčinných lokusov než na nevyhnutný počiatočný krok konštrukcie mapy. .

V nedávnej simulačnej štúdii, kde sa markery porovnávali z hľadiska presnosti mapovania, bol zaznamenaný rozdiel v sile medzi bialelickými markermi a polymorfnými markermi s vyššou hustotou SNP potrebnou na presnú produkciu podobných výsledkov ako u polymorfných mikrosatelitov [32]. Ukázalo sa však, že keď je miera chýb genotypovania nízka, je možné presne vytvoriť SNP aj mikrosatelitné mapy. Keď sa do mikrosatelitného genotypovania zaviedla simulovaná 5% chybovosť genotypovania, došlo k inflácii máp (niekedy aj viac ako 50 %), nesprávnemu poradiu markerov a dokonca aj k občasnému priradeniu markerov k nesprávnej väzbovej skupine. Táto 5 % chybovosť nie je v mikrosatelitnom genotypizácii bezprecedentná, dokonca ani pri použití invazívnych techník získavania DNA [27, 39]. Je zrejmé, že je potrebné eliminovať markery s chybami genotypovania

5 % vždy, keď je to možné, pred pokračovaním v analýze prepojenia.

Cieľom tejto štúdie bolo porovnať spojovacie mapy vytvorené s mikrosatelitmi, SNP a kombináciou oboch markerov, aby sa určila schopnosť každej metódy produkovať presné spojovacie mapy. Spojovacia mapa zebričky (Taeniopygia guttata) genóm využívajúci markery SNP bol nedávno vydaný [40] a zostava genómu je verejne dostupná, čo uľahčuje porovnanie poradia markerov medzi mapami väzieb a fyzickými zostavami. Nezávislou konštrukciou mikrosatelitných väzobných máp makrochromozómov 1, 1A, 2 a 9 zebričiek s použitím rovnakého rodokmeňa, aký bol použitý na mape SNP, sme dokázali preskúmať, ako typ markera ovplyvnil dĺžku a poradie mapy. Poskytujú sa pokyny pre mapovacie štúdie, ktoré súčasne využívajú mikrosatelity a SNP, pretože uznávame, že niekedy je praktické kombinovať súbory údajov obsahujúce oba typy markerov.


Výsledky

Zachytenie i-znakov vo veľkom meradle v reakcii na sucho kukurice

Aby sme získali prehľad o tom, ako rastliny kukurice reagujú na sucho, pestovali sme populáciu mapovania asociácie kukurice (AMP), ktorá pozostáva z 368 inbredných línií a má 1 M SNP medzi populáciou [25], v skleníku pod dobre zavlažovaným (WW) a suchom stresované (DS) podmienky (Doplnkový súbor 1: Tabuľka S1 pozri „Metódy“). Použitím automatickej platformy na fenotypizáciu plodín vyvinutej na základe našej predchádzajúcej práce (RAP [20, 26, 27]) boli dynamické reakcie každej jednotlivej rastliny zachytené neinvazívnym spôsobom prostredníctvom troch typov skenerov, RGB zobrazovania, HSI a CT, v priebehu 98 dní (obr. 1a Ďalší súbor 2: Video S1), ktoré vygenerovalo

14 TB obrázkov. Na spracovanie obrovského množstva obrázkov sme ďalej vyvinuli špecifické kanály analýzy obrazu (obr. 1b Dodatočný súbor 3: Video S2 Dodatočný súbor 4: Video S3 Doplnkový súbor 5: Video S4), s ktorými je spolu 26 910 i-znakov (2010 Extrahovali sa znaky RGB, 24 000 HSI a 900 CT snímok). Po postupoch výberu i-znakov (obr. 1c), vrátane filtrovania odľahlých hodnôt, určenia i-znakov súvisiacich so suchom pomocou T-testov WW/DS a viacvrstvového perceptrónu (MLP) a testov dedičnosti (Doplnkový súbor 6: Video S5 Doplnkové súbor 7: Video S6 Ďalší súbor 8: Video S7), 10 080 i-znakov súvisiacich so suchom (37,46 % hrubých i-znakov, vrátane 1503 RGB odvodených, 7902 HSI odvodených a 675 CT i-znakov) boli vybrané na ďalšie genetické štúdium. Definície týchto i-znakov sú uvedené v doplnkovom súbore 1: Tabuľka S2 a doplnkovom súbore 9: Poznámka S1. Všetky vybraté vlastnosti RGB, HSI a CT sú uvedené v doplnkovom súbore 1: Tabuľka S3-5. Všetky tieto obrázky a súvisiace i-vlastnosti sú verejne prístupné na https://doi.org/10.6084/m9.figshare.14429003.v1.

Kombinácia vysoko výkonnej fenotypizácie a GWAS na štúdium tolerancie kukurice voči suchu. a Platforma fenotypovania a experimentálny dizajn. Vľavo, rast populácie kukurice v podmienkach WW a DS v D52 v skleníku uprostred a vpravo, snímanie obrázkov pomocou RGB, hyperspektrálnych (HSI) a CT skenerov v podmienkach WW a DS v rôznych časových bodoch (D25-D98). b Analýza obrazu HSI, CT a RGB a výpočet i-znakov pomocou potrubí vyvinutých v tejto štúdii. Podrobnosti o týchto kanáloch sú uvedené v Dodatočnom súbore 9: Poznámka S2 a Dodatočnom súbore 3: Video S2 Dodatočný súbor 4: Video S3 Dodatočný súbor 5: Video S4. Všetky obrázky, fenotypové údaje a údaje o genotype sú verejne dostupné na opätovné použitie s odkazom: https://doi.org/10.6084/m9.figshare.14429003.v1. c Postup zobrazujúci filtrovanie a určovanie i-znakov súvisiacich so suchom, GWAS a identifikáciu/validáciu kandidátskych génov

Ďalší súbor 6: Video S5. Postup činnosti odľahlej hodnoty filtrovania.

Ďalší súbor 7: Video S6. Operačný postup T-testu.

Ďalší súbor 8: Video S7. Operačný postup viacvrstvového vnímania (MLP).

Efektívne a dedičné vlastnosti, ktoré odrážajú reakciu kukurice na sucho

Mnohé i-znaky sa dynamicky menili počas suchých ošetrení a štádií rastu (doplnkový súbor 10: Obrázok S1a-c). Napríklad i-znak TPA (celková projektovaná plocha) odvodený od RGB, ktorý sa uvádza ako dobrý indikátor rastu ryže pri strese zo sucha [20], naznačoval rôzne rastové situácie rastlín kukurice pri rôznych stresoch zo sucha (obr. 2a). Uvádza sa, že i-trait dT233 odvodený od HSI, ktorý je derivátom prvého rádu celkovej odrazivosti pod 959 nm, odráža vnútorný obsah vody [28]. Pozorovali sme, že dT233 sa zvýšil v podmienkach WW a znížil sa v podmienkach DS, čo naznačuje, že to bol účinný indikátor reakcií na sucho (obr. 2b). Z CT odvodená i-trait hollow_area_700 odrážaná veľkosť steny stebla tiež účinne indikovala rôzne úrovne stresu zo sucha (obr. 2c).

Všeobecné analýzy i-znakov. a–c Príklady ukazujúce úrovne odvodené od RGB (TPA, a), odvodené od HSI (dT233, b) a odvodené z CT (Hollow_area_700, c) i-znaky, ktoré účinne indikovali úrovne stresu zo sucha v rôznych časových bodoch. PCA odvodených od RGB (d) a odvodené od HSI (e) i-znaky zhromaždené v časových bodoch D34, D40, D46 a D52. f Široká dedičnosť (H 2 ) všetkých i-znakov odvodených od RGB a 60 najlepších HSI odvodených. Podrobnejšie H 2 informácie sú zobrazené v doplnkovom súbore 10: Obrázok S2. WW, dobre zavlažovaná DS, suchom namáhaná D, dní po sejbe

Aby sa ďalej preskúmal potenciál i-znakov odrážať reakcie na sucho, vykonala sa analýza hlavných komponentov (PCA), aby sa zachytili fenotypové variácie v celej populácii kukurice. Pre i-znaky odvodené od RGB a HSI, v D52 so závažnejším stresom, samotný PC1 vysvetlil viac ako 50 % fenotypovej variácie, ktorá jasne oddelila rastliny WW od rastlín, ktoré podstúpili DS (obr. 2d, e). Zaujímavé je, že v porovnaní s vlastnosťami odvodenými od RGB a CT mali znaky odvodené od HSI lepšiu rozlišovaciu schopnosť aj v počiatočných štádiách stresu (obr. 2d, e, doplnkový súbor 10: obr. S1d-f). Ďalej sme vypočítali dedičnosť v širokom zmysle (H 2 ) každého jednotlivého i-znaku počas obdobia rastu so stresom zo sucha alebo bez neho a stredný počet H 2 z týchto i-znakov bolo 0,4 (obr. 2f, doplnkový súbor 10: obrázok S2).

Genetický základ i-znakov v reakcii kukurice na sucho

Vykonali sme GWAS 10 080 i-znakov so zmiešaným lineárnym modelom (MLM), aby sme zistili významné asociácie so znakmi SNP. Viac ako 2989 (29,6 % z 10 080) i-znakov malo aspoň jeden významný asociovaný SNP (P ≤ 1,8 x 10-6). Identifikovali sme celkovo 4322 odlišných významných SNP spojených s 2989 i-znakmi (doplnkový súbor 1: Tabuľka S6 a 7). Významnejšie SNP (2378,

55 %) bolo zistených s pomerom i-znakov v porovnaní s i-znakmi z WW (972,

19,6 %) samotných podmienok (Doplnkový súbor 10: Obrázok S3a, Doplnkový súbor 1: Tabuľka S7). Každý SNP vysvetlil 5, 3–22, 6 % pozorovaného fenotypového rozptylu i-znakov. SNP spojené s i-znakmi odvodenými od CT vysvetľovali v priemere väčšiu fenotypovú variáciu v porovnaní s i-znakmi odvodenými od RGB a HSI (doplnkový súbor 10: Obrázok S3b a c), čo naznačuje buď menej komplexnú genetickú architektúru alebo vysoko obohatenú diverzitu kvantitatívne aj kvalitatívne, i-znakov odvodených z CT. Mapovali sme významné SNP na chromozómoch kukurice v intervaloch 200 kb (100 kb proti smeru a po smere od významného SNP) a mapované intervaly boli definované ako QTL kontrolujúce toleranciu kukurice voči suchu. Celkovo bolo identifikovaných 1529 QTL (doplnkový súbor 1: tabuľka S8). Z nich bolo 71,4 % (1092/1529) lokalizovaných spoločne s predtým hlásenými QTL (doplnkový súbor 1: tabuľka S9) [9, 29,30,31].

Kandidátne gény sme extrahovali na základe významných SNP, ktorých priemerný rozpad LD v AMP použitý v tejto štúdii bol 0,5 kb, čím sa dosiahlo rozlíšenie jedného génu [25]. Celkovo bolo identifikovaných a anotovaných 2318 jedinečných kandidátskych génov súvisiacich s 4322 významnými asociáciami (doplnkový súbor 1: Tabuľka S7). Z toho iba 95 génov (

4,1 %) bolo konzistentne detekovaných v dvoch alebo viacerých typoch i-znakov (doplnkový súbor 10: obrázok S4a). Na základe génov a i-znakov sme vybudovali sieť génových vlastností, v ktorej boli gény zapojené do rovnakej biologickej dráhy zhromaždené v skupine (obr. 3a). Táto sieť by uľahčila identifikáciu kandidátskeho génu a objasnenie jeho funkcie. Zistili sme, že len veľmi málo dráh bolo zdieľaných génmi spojenými s tromi typmi i-znakov a mnoho jedinečných dráh bolo detegovaných pre gény spojené s i-znakmi odvodenými od HSI alebo RGB (obr. 3a, Ďalší súbor 1: Tabuľka S10 a Doplnkový súbor 10: Obrázok S4a). Napríklad, hoci signálne dráhy MAPK (mitogénom aktivovaná proteínkináza) a BR (Brassinolid) boli zdieľané génmi z i-znakov HSI a RGB, niekoľko dráh, ako napríklad jeden uhlíkový pool folátom, degradácia RNA a metabolizmus trypofanu, bolo jedinečné pre gény detegované s RGB i-znakmi a mnohé ďalšie dráhy, ako je signálna dráha ABA, metabolická dráha cukru a metabolická dráha inozitolfosfátu, boli špecifické pre gény spojené s i-znakmi odvodenými od HSI (obr. 3b, c, Doplnkový súbor 10: Obrázok S4b-d). Tieto výsledky ukázali rôzne genetické kontroly týchto i-znakov v reakciách na sucho. Ďalšie príklady poznatkov založených na integrácii údajov sú uvedené nižšie s prípadovými štúdiami ZmcPGM2 a ZmFAB1A v regulácii i-znakov a tolerancie sucha.

Asociácie z GWAS na základe I-znaku a analýza kandidátskych génov. a Sieť génových vlastností ukazujúca distribúciu kandidátskych génov a zoskupovanie génov obohatených o rovnaké dráhy. I-znaky a ich príbuzná sieť boli zobrazené v spodnej vrstve. Gény a ich obohatené dráhy sú zobrazené v hornej vrstve. ZmcPGM2 a ZmFAB1A boli zvýraznené. b Gény obohatené o metabolickú dráhu cukru. ZmcPGM2 ktorý katalyzuje invertibilný krok Gluc-6P na Gluc-1P. c Gény obohatené o metabolickú dráhu inozitolfosfátu. ZmFAB1A ktorý katalyzuje krok PtdIns3P na PtdIns(3,5)P2 bola zvýraznená. d Graf hustoty ukazujúci distribúciu P hodnoty najvýznamnejších SNP kandidátskych génov a náhodne vybraných génov. Uskutočnilo sa desaťtisíckrát permutačné testy s náhodne vybranými génmi a porovnali sa s kandidátskymi génmi. e Počet i-znakov spojených s kandidátskymi génmi

Kandidátske gény boli významne obohatené o reakciu GO termínov na rôzne stimuly alebo stresy, čo naznačuje dôležitosť týchto kandidátskych génov v reakciách na sucho/stres kukurice (doplnkový súbor 10: obrázok S5, ďalší súbor 1: tabuľka S11). GWAS ukázal, že mnohé gény boli významne asociované s predtým publikovanými mierami prežitia fenotypov tolerantných voči suchu (SR) AMP [12] (MLM, Ďalší súbor 1: Tabuľka S1, Ďalší súbor 1: Tabuľka S12). Permutačný test ukázal, že obohatenie bolo najvýznamnejšie P hodnoty týchto kandidátskych génov v porovnaní s tými z náhodne vybraných génov (Pt.test = 9,11e-287, Ppermutácia < 0,0001, obr. 3d), čo naznačuje, že tieto asociácie nie sú falošne pozitívne, ale skutočné asociácie. Okrem toho bolo v našom súbore kandidátskych génov detegovaných 25 predtým identifikovaných génov odolných voči suchu (doplnkový súbor 1: Tabuľka S13). Celkovo tieto výsledky ukázali, že kandidátske gény boli spoľahlivé a že GWAS založený na i-znaku bol účinný pri mapovaní QTL a kauzálnych génov reagujúcich na sucho.

Transkripčné faktory (TF) hrajú kľúčovú úlohu v tolerancii rastlín voči suchu [32]. V našich výsledkoch GWAS je 165 génov (7,1 % alebo 165/2318) kódujúcich TF 41 rodín, z ktorých NAC (14 génov) a AP2/EREB ERF (12 génov) rodiny TF, o ktorých je známe, že kontrolujú odolnosť rastlín voči suchu [32] boli rodiny s najväčším počtom členov (doplnkový súbor 1: tabuľka S14). Dobre študované gény TF ZmNAC111 (GRMZM2G127379), Zmhdz10 (GRMZM2G041127), ZmDREB2A (GRMZM2G006745) a ZmDREB2.7 (GRMZM2G028386) [10, 11, 33, 34] boli všetky detekované pomocou GWAS v tejto štúdii. Napríklad, ZmNAC111 pozitívne reguluje toleranciu kukurice k suchu [11]. Najvýznamnejším SNP chr10.S_2681198 z ZmNAC111 bol významne spojený s pomerom odvodeným od HSI i-trait ddT136_D46_R (pomer derivátu druhého rádu celkovej odrazivosti 725 nm pri strese zo sucha k derivátu druhého rádu celkovej odrazivosti 725 nm v podmienkach studne 46 dní po siatie) (P = 1,5 × 10 -6, MLM) (Dodatočný súbor 10: Obrázok S6a-d). Existovali dve alely chr10.S_2681198. Rastliny s alelou T mali nižšie hladiny ddT136_D46_R (P = 1.39 × 10 −6 , t-test), ale oveľa vyššie (P = 2.65 × 10 −4 , t-test) ZmNAC111 expresia pod DS (doplnkový súbor 10: obrázok S6e a f), čo naznačuje, že alela T chr10.S_2681198 by mohla byť priaznivou alelou v AMP na reguláciu tolerancie kukurice voči suchu zvýšením ZmNAC111 výraz. Tieto analýzy ďalej naznačili spoľahlivosť kandidátskych génov odolných voči suchu.

Funkčná interpretácia kandidátskych génov hotspotu

Ďalej sme identifikovali kandidátske gény hotspotu, ktoré sa spájali s nie menej ako 10 i-znakmi. Celkovo bolo zistených 34 hotspot génov (obr. 3e, doplnkový súbor 1: tabuľka S15), z ktorých 29 bolo spojených s i-znakmi odvodenými od HSI (85 % alebo 29/34). Gén GRMZM2G028386 (ZmDREB2.7) bol spojený s 13 i-znakmi odvodenými od HSI a kódovanými AP2/EREBP ERF TF. ZmDREB2.7 patrí do podrodiny AP2 DREB a pozitívne reguluje toleranciu kukurice voči suchu [10]. Najvýznamnejšie SNP chr1.s_201957847 in ZmDREB2.7 bola signifikantne spojená s i-znakom lgA15_D34_WW odvodeným od HSI (logaritmus priemernej odrazivosti 434 nm v podmienkach studňovej vody 34 dní po zasiatí) (P = 7,5 × 10 −7, MLM) a 12 ďalších i-znakov (Doplnkový súbor 1: Tabuľka S15, Doplnkový súbor 10: Obrázok S7a-d). Tento najvýznamnejší SNP vykazoval vysokú väzbu (R 2 > 0,93) s dvoma ďalšími SNP v kódujúcej oblasti a hlásenou kauzálnou alelou tolerantnou voči suchu, piatimi polymorfnými miestami v oblasti promótora (R 2 = 1) [10] (Dodatočný súbor 10: Obrázok S7d). Na základe alel A/T najvýznamnejších SNP mali rastliny s alelou T vyššie hladiny i-znaku lgA15_D34_WW (P = 4.27 × 10 −8 , t-test) a vyššiu mieru prežitia (P = 8.10 × 10 −11 , t-test) po strese zo sucha (doplnkový súbor 10: Obrázok S7e a f), čo naznačuje, že alela T je priaznivá alela pri regulácii hladín lgA15_D34_WW a tolerancii kukurice voči suchu.

Reaktívne formy kyslíka (ROS) sú dôležitými signálnymi molekulami pri stresových reakciách [35]. Membránový proteínový respiračný burst oxidázový homológ D (RbohD) spúšťa signalizáciu ROS vo veľmi skorom štádiu dehydratácie (napr.

20 min) a hrá pozitívnu úlohu pri uzavretí stomatu a ABA signalizácii [36, 37]. HSP proteíny hrajú kľúčovú úlohu pri udržiavaní homeostázy ROS a ďalej v tolerancii rastlín voči suchu [38, 39]. GRMZM2G098167 (proteín podobný HSP20) bol spojený s 258 pomerovými i-znakmi odvodenými od HSI a GRMZM2G300965 (ZmRbohD) bol spojený s 241 pomerovými i-znakmi odvodenými od HSI a oba gény zdieľali 34 pridružených i-znakov (obr. 3e, Ďalší súbor 1: Tabuľka S4, Ďalší súbor 1: Tabuľka S15). Je zaujímavé, že všetky tieto i-znaky boli vypočítané z HSI snímok zachytených v D34 (prvý časový bod pre HSI zobrazenie) s SM =

20 % (obr. 1a), čo bolo v počiatočnom štádiu stresu zo sucha. Na základe týchto údajov sme to usúdili ZmRbohD môže zohrať kľúčovú úlohu pri iniciovaní ZmRbohD-závislá iniciácia signalizácie ROS a Ako HSP20 by mohli fungovať na udržanie homeostázy signalizácie ROS pri tolerancii sucha kukurice.

Identifikácia regulačných variantov, ktoré riadia expresiu kandidátskeho génu

Rozdiel v génovej expresii môže pochádzať zo zmien v lokálnej a/alebo vzdialenej regulácii [40]. Ďalej sme skúmali expresiu QTL (eQTL), ktorá sa spájala s expresiou 2318 kandidátskych génov na základe transkriptómu 197 línií z 540 asociačnej mapovacej populácie ošetrenej suchom alebo bez neho (M. Dai a L. Li nepublikované údaje RNA-seq) [41]. Celkovo bolo 54,2 % (1257/2318) kandidátskych génov kontrolovaných 22 546 významnými eQTL (P ≤ 4,2 × 10 −8, MLM, doplnkový súbor 1: tabuľka S16-18). Keď bol najvýznamnejší SNP eQTL lokalizovaný v 20-kb oblasti (upstream od downstream) génu expresného znaku (etrait), tento eQTL bol definovaný ako lokálny eQTL, inak to bol vzdialený eQTL. Zistili sme, že vzdialené eQTL boli identifikované pre väčšinu (

63 %) kandidátskych génov v podmienkach WW aj DS (doplnkový súbor 1: Tabuľka S18), avšak lokálne eQTL mali oveľa väčšie účinky na expresiu génov etrait v podmienkach WW aj DS (obr. 4a, b), čo naznačuje že lokálne variácie majú veľký vplyv na reguláciu génovej expresie.

eQTL, ktoré boli spojené s expresiou kandidátskych génov. a, b Grafy hustoty ukazujúce vysvetlený rozptyl expresie významnými lokálnymi alebo vzdialenými eQTL pod WW (a) alebo DS (b) podmienky. c Množstvá a ich percentá statických a dynamických eQTL z celkových, vzdialených alebo miestnych skupín eQTL. d Lokálne TF eQTL, ktoré sa neustále detegovali v podmienkach WW aj DS. e Lokálne TF eQTL, ktoré špecificky detegovali alebo zvýšili významnosť v podmienkach DS

Spomedzi celkových eQTL bola väčšina (69 % alebo 15 668/22 546) dynamická (zistená v podmienkach WW alebo DS), iba 31 % eQTL bolo statických (detegovaných v podmienkach WW aj DS). Podobné pomery dynamických (74 %) a statických (26 %) eQTL boli pozorované u vzdialených (17 088) eQTL (obr. 4c), čo naznačuje rozsiahle a dynamické génové regulačné siete pri tvorbe i-znakov kukurice. Pozreli sme sa bližšie na lokálne eQTL, pretože majú v priemere väčší vplyv na reguláciu génovej expresie ako vzdialené eQTL (obr. 4a, b). Celkovo bolo detegovaných 2383 statických a 3075 dynamických lokálnych eQTL na základe génovej expresie v podmienkach WW a DS (obr. 4c, doplnkový súbor 1: tabuľka S18). Napríklad veľmi špecifické a významné vrcholy eQTL boli neustále detegované v podmienkach WW a DS pre gény zapojené do biosyntézy IAA: GRMZM2G048295 (myb15), GRMZM2G163848 (iap3), GRMZM2G045404 (ibr5), metabolizmus cukrov: GRMZM2G111324 (ogh17), GRMZM2G318780 (scs3), GRMZM2G171373 (hk1) a metabolizmus peroxidu: GRMZM2G162688 (dúšok), GRMZM5G872256 (gs1). Okrem toho bolo opakovane detegovaných veľa významných vrcholov pre gény kódujúce TF, ktoré regulujú viaceré biologické procesy alebo stresové reakcie (obr. 4d). Tieto údaje silne naznačujú, že lokálne regulačné variácie majú významný vplyv na vlastnú expresiu. Dynamicky významné vrcholy boli detegované v podmienkach DS pre gény regulujúce biosyntézu BR: GRMZM2G472625 (pk), GRMZM2G012391 (p450), fosforylácia proteínov: GRMZM2G002100 (mapk6), GRMZM2G146553 (cipk3), odozva na tepelný stres: GRMZM2G428391 (hsp70). Niektoré významné píky alebo zvýšená významnosť píkov boli detegované pre TF gény v podmienkach DS (obr. 4e). Preto by lokálne regulačné varianty týchto génov mohli byť špecifickejšie pre reguláciu génovej expresie reagujúcej na stres v AMP.

ZmcPGM2 prispel k rozmanitosti HSI i-trait ddT200_R a tolerancii sucha kukurice prostredníctvom regulácie zmien obsahu cukru

Na ďalšiu interpretáciu zistení z GWAS sme testovali dva gény ZmcPGM2 (cytosolová fosfoglukomutáza) a ZmFAB1A (1-fosfatidylinozitol-4-fosfát 5-kináza alebo tvorí aploidné a dvojjadrové bunky 1), ktoré sú označené v metabolickej dráhe cukru a metabolickej dráhe inozitolfosfátu (obr. 3b,c, doplnkový súbor 10: obrázok S8a a b). V Arabidopsis proteíny cPGM regulujú rovnováhu syntézy proteínov závislú od škrobu a sú potrebné pre funkciu samčích a samičích gametofytov [42, 43], ale neboli zaznamenané pri regulácii tolerancie rastlín voči suchu.

The ZmcPGM2 lokus (GRMZM2G109383) vykazoval významné (P = 2,57 × 10 −7, MLM) asociácia s i-znakom ddT200_D40_R (pomer derivácie druhého rádu celkovej odrazivosti 880 nm pri strese zo sucha k derivácii druhého rádu celkovej odrazivosti 880 nm pri 40 °C dní po zasiatí) (obr. 5a). Najvýznamnejší SNP chr5.S_10856121, ktorý vysvetľoval 8,4 % fenotypového rozptylu (Doplnkový súbor 1: Tabuľka S7), sa nachádzal v kódujúcej oblasti ZmcPGM2 a mal silné LD (R 2 > 0,76) so štyrmi ďalšími menej významnými SNP (P Zmcpgm2, ktorá mala stop mutáciu na Trp(504). ZmcPGM2 (obr. 5f), bol získaný z kukuričnej EMS mutantnej banky [8]. Zmcpgm2 rastliny boli pestované v podmienkach WW a DS a boli zachytené a vypočítané HSI i-znaky ddT200 (obr. 5g). Zistili sme, že hladiny pomeru i-znakov ddT200_R boli nižšie Zmcpgm2 než tie v rastlinách divokého typu B73 (WT), keď tam nebol žiadny stres, ale hladiny tohto i-znaku boli vyššie v Zmcpgm2 ako v rastlinách WT, keď bol stres závažnejší (SM ≤ 15 %) (obr. 5 h), čo dokazuje úlohu ZmcPGM2 v regulácii i-trait ddT200_R.

Úlohy kandidátskeho génu ZmcPGM2 v regulácii i-znakov a biosyntézy cukrov. a Priblížte pohľad na manhattanskú oblasť chromozomálnej 5 oblasti 9.4

12,4 Mb, kde boli významné asociácie SNP s i-znakom ddT200_D40_R. b–d Distribúcia SNP (b) v génovom modeli ZmPGM2 (c) a ich LD navzájom (d). Najvýznamnejší SNP chr5.S_10856121 je zvýraznený červenými bodkami v b. V paneli c, vyplnené čierne políčka označujú exóny a čierne čiary označujú intróny ZmcPGM2. e Rastliny s alelou T chr5.S_10856121 vykazovali významne vyššie hladiny i-znaku ddT200_D40_R ako rastliny s alelou G v AMP. f ZmcPGM2 štruktúra génu a poloha EMS mutácie. g Rast divokého typu B73 a Zmcpgm2 mutantných rastlín v podmienkach WW a DS. Vlhkosť pôdy (SM) je zobrazená na vrchu panelov. Lišta = 20 cm pre všetky rastliny zobrazené na tomto paneli. h Hladiny i-znaku ddT200 v B73 divokého typu a Zmcpgm2 mutantných rastlín v podmienkach WW, DS a pomeru (DS/WW). Šípky a čísla ukazujú násobné zníženie alebo zvýšenie tohto znaku v mutantoch Zmcpgm2 v porovnaní s tými v rastlinách divokého typu B73. i cPGM2 je zodpovedný za reverzibilnú premenu glukózy-1p na glukózu-6p v biosyntéze cukru. Upravené a upravené na základe databázy KEGG. Enzýmy a ich skratky: fosfoglukomutáza (PGM), UTP-glukóza-1-fosfát uridylyltransferáza (UGP), UDP-glukóza 4-epimeráza (UGE), inozitol 3-α-galaktozyltransferáza (IGT), galaktinol-sacharóza galaktozylTtransferáza (GSGTtransferáza), α-galaktozidáza (GTD), sacharózasyntáza (SUS), sacharózafosforyláza (SPP), glukóza-1-fosfát fosfodismutáza (GPPD), hexokináza (HXK), glukóza-6-fosfatáza (GPP), glukóza-6-fosfát izomeráza ( GPI), invertáza (IVT). Šípky označujú smer reakcie. Cukry identifikované pomocou GC-MS v tejto štúdii sú zvýraznené červenou farbou. j Obsah cukru divokého typu B73 a Zmcpgm2 mutantné rastliny pestované v podmienkach WW a DS. k Násobné zvýšenie obsahu cukru (DS/WW) u B73 divokého typu a Zmcpgm2 mutantné rastliny. Štatistická významnosť bola stanovená Studentovým t-testom: *P < 0,05 **P < 0,01 ***P < 0,001

cPGM reverzibilne premieňa glukózu-1P na glukózu-6P a hrá dôležitú úlohu pri regulácii biosyntézy cukru [42] (obr.5i). Predchádzajúce štúdie ukázali, že ddT200 odráža obsah bunkového cukru [44]. Skúmali sme obsah cukru Zmcpgm2 a rastliny WT ošetrené suchom alebo bez neho (doplnkový súbor 1: tabuľka S19). V podmienkach WW vykazovali hlavné cukry nižšie hladiny v Zmcpgm2 než v rastlinách WT a sucho podporilo hladiny všetkých týchto cukrov v oboch Zmcpgm2 a WT rastliny, ale zmeny vo všetkých týchto cukroch (pomery obsahu cukru v podmienkach DS/WW) boli oveľa vyššie v r. Zmcpgm2 ako v závodoch WT (obr. 5j, k). Tieto výsledky preukázali dôležitú úlohu ZmcPGM2 pri regulácii obsahu kukuričného cukru a naznačili konzistenciu ddT200_R so zmenami obsahu cukru počas reakcií na sucho v kukurici.

ZmcPGM2 bol tiež významne spojený s CT i-trait Culm_diameter_700_D98_R (pomer hrúbky stonky v podmienkach DS/WW) a najvýznamnejšie SNP boli chr5.S_10857363 a chr5.S_10858751 (P = 3,46 × 10 −7 , MLM), ktoré boli navzájom úplne prepojené (R 2 = 1) a vysoko prepojené s Chr5.S_10856121 (R 2 = 0,81) (Dodatočný súbor 10: Obrázok S8c-f). Rastliny s alelou C mali vyššie hladiny Culm_diameter_700_D98_R ako rastliny s alelou A (z chr5.S_10857363) (doplnkový súbor 10: Obrázok S8g). V podmienkach WW boli hladiny i-trait Culm_diameter_700_D98_R v závodoch WT vyššie ako v Zmcpgm2 mutantov, ale po silnom strese (SM = 15 % alebo 10 %) sa hladiny tohto i-znaku v r. Zmcpgm2 mutanty boli vyššie ako v rastlinách WT (dodatočný súbor 10: obrázok S8h-j). Pomery týchto i-znakov boli väčšie Zmcpgm2 mutanty ako v rastlinách WT v podmienkach WW aj DS (Dodatočný súbor 10: Obrázok S8k). Tieto výsledky naznačujú určitú úlohu ZmcPGM2 v regulácii relatívne vyšších (

ZmcPGM2 expresia bola inhibovaná silným stresom zo sucha [45] (obr. 6a). SNP chr5.S_10857363 z ZmcPGM2 bola významne spojená s kukuricou SR (P = 5,6 × 10-3, GLM plus 3PCs) a rastliny s alelou A vykazovali vyššiu mieru prežitia ako rastliny s alelou C [13] (obr. 6b). Tieto výsledky naznačili úlohu ZmcPGM2 pri regulácii tolerancie kukurice k suchu. SNP Chr5.S_10856121 mal silné LD (R 2 > 0,8) so štyrmi ďalšími menej významnými SNP (chr5.S_10855874, chr5.S_10855875, chr5.S_10857363 a chr5.S_10858751). Opätovné sekvenovanie genómovej DNA ZmcPGM2 v populáciách kukurice nezistili významnejšie genómové variácie. Ďalšie analýzy ukázali, že SNP Chr5.S_10856121, chr5.S_10857363 a chr5.S_10858751 sú synonymné variácie, zatiaľ čo chr5.S_10855874 a chr5.S_10855875 sa nachádzajú v ZmcPGM2 3'-nepreložená oblasť a vykazovali významné asociácie s i-znakom ddT200_D40_R a SR (doplnkový súbor 10: Obrázok S9a-e), čo naznačuje, že SNP chr5.S_10855874 a chr5.S_10855875 by mohli byť potenciálnymi kauzálnymi variantmi a variantmi i-traitov tolerancia sucha. Ďalej sme použili Zmcpgm2 mutantov na testovanie možnej úlohy ZmcPGM2 v tolerancii sucha kukurice. Oddelené listy z Zmcpgm2 mutanty strácali vodu pomalšie ako listy WT v podmienkach dehydratácie (obr. 6c). Viac Zmcpgm2 mutanty ako WT prežili po strese zo sucha (obr. 6d, e), čo naznačuje, že Zmcpgm2 mutanti boli tolerantnejší voči suchu a to ZmcPGM2 mal negatívnu úlohu v tolerancii kukurice voči suchu. Hoci rýchlosť fotosyntézy, vodivosť prieduchov, rýchlosť transpirácie a účinnosť využitia vody (WUE) vykazovali mierne vyššie úrovne v závodoch WT v podmienkach WW, tieto indexy boli výrazne vyššie v Zmcpgm2 mutanty po ťažkom strese zo sucha (SM < 15 %) (obr. 6f–i). Vydedukovali sme, že slabšia úloha o ZmcPGM2 podporovali vyššiu WUE a rýchlosť fotosyntézy v podmienkach DS, čo prospievalo tolerancii kukurice voči suchu. Interval medzi antézou a hodvábom (ASI) je dôležitou vlastnosťou kvitnutia kukurice, čím je ASI kratší, tým lepšie sa peľ a hodváb stretávajú, aby vytvorili semená. Zistili sme, že ASI z Zmcpgm2 mutanty boli významne kratšie ako v rastlinách WT v podmienkach WW aj DS na poli, čo naznačuje, že ZmcPGM2 môže tiež zohrávať dôležitú úlohu pri regulácii kvitnutia.

Roly z ZmcPGM2 pri regulácii tolerancie kukurice k suchu. a Vyjadrenie ZmcPGM2 v rastlinách kukurice pestovanej v podmienkach WW alebo DS. DS2-4 označuje rôzne úrovne stresu. b Rastliny s rôznymi alelami (A/C) chr5.S_10857363, ktoré vykazovali vysokú LD s chr5.S_10856121 (R 2 = 0,81), vykazovali významne odlišné miery prežitia v populácii kukurice. c Porovnanie miery straty vody medzi oddelenými listami B73 divokého typu a Zmcpgm2 mutantov. d Rast divokého typu B73 a Zmcpgm2 mutantné rastliny v dobre zavlažovaných (WW) a suchom stresovaných (DS) podmienkach, po ktorých nasleduje opätovné zalievanie. Lišta = 20 cm pre všetky rastliny zobrazené na tomto paneli. e Porovnanie mier prežitia B73 divokého typu a Zmcpgm2 mutantné rastliny po strese zo sucha. f–i Porovnanie rýchlostí fotosyntézy (f), stomatálne vodivosti (g), miera transpirácie (h) a efektívnosti využívania vody (WUE, i) divokého typu B73 a Zmcpgm2 mutantných rastlín po ukončení zavlažovania v rôznych časových bodoch. Dni označujú čas po ukončení zavlažovania. Graf vložený do (f) označuje vlhkosť pôdy (SM) v každom časovom bode bez zavlažovania. Štatistická významnosť bola stanovená Studentovým t-testom: *P < 0,05 **P < 0,01 ***P < 0,001. j, k Anthesis-silking intervaly (ASI) B73 a Zmcpgm2 mutantné rastliny pestované pod WW (j) a DS (k) podmienky. Prostriedky s písmenami a a b sa výrazne líšia tým t test (P

ZmFAB1A bol kľúčovým regulátorom i-trait dT233_R a tolerancie sucha kukurice

Arabidopsis FAB1A/B reguluje endomembránovú homeostázu pleiotropných vývojových procesov a je potrebný na vývoj peľu [46, 47], ale ich úloha v reakciách na stres plodín zostáva nepolapiteľná. V r bolo 11 SNP ZmFAB1A lokus (GRMZM2G132373), ktorý vykazoval významnú asociáciu s i-znakom dT233_D40_R (pomer derivátu prvého rádu celkovej odrazivosti 959 nm pri strese zo sucha k derivátu prvého rádu celkovej odrazivosti 959 nm v podmienkach studne 40 dní po siatie v podmienkach DS/WW) (Doplnkový súbor 10: Obrázok S10a-c, Doplnkový súbor 1: Tabuľka S7). Najvýznamnejšie SNP chr6.S_117795068 (P = 1,51 × 10-6, MLM) vysvetlil 7,2 % fenotypovej odchýlky a mal vysokú väzbu s 10 ďalšími významnými SNP (R 2 = 0,9) (Dodatočný súbor 10: Obrázok S10d). Rastliny s alelou G najvýznamnejšieho SNP mali vyššie hladiny dT233_D40_R ako rastliny s alelou C (doplnkový súbor 10: obrázok S10e). Predčasný stop mutant Zmfab1a, ktorý mal stop mutáciu na Gln (409) (doplnkový súbor 10: Obrázok S10f), sa získal na ďalšie overenie funkcie ZmFAB1A. Pestovali sme B73 WT a ZmFAB1A mutantných rastlín v podmienkach WW a DS a skúmali i-znaky dT233 a dT233_R v rôznych štádiách rastu/stresu (doplnkový súbor 10: Obrázok S10g). Výsledky ukázali, že hladiny dT233_R boli vyššie v Zmfab1a ako v závodoch WT po miernom alebo silnom strese zo sucha (doplnkový súbor 10: obrázok S10h-j) a preukázali, že ZmFAB1A mal úlohu pri regulácii i-trait dT233_R.

Vyjadrenie ZmFAB1A bol zvýšený pri silnom strese zo sucha (Dodatočný súbor 10: Obrázok S10k). Rastliny s alelou G mali vyššiu mieru prežitia po strese zo sucha ako rastliny s alelou C (doplnkový súbor 10: Obrázok S10l), čo naznačuje úlohu ZmFAB1A v tolerancii sucha kukurice. Opätovné sekvenovanie genómovej DNA ZmFAB1A v populáciách kukurice nezistili nové významné genómové variácie. Analýzy 11 významných SNP (tesne navzájom prepojené, R 2 = 0,9) ukázali, že 4 boli synonymné variácie a 7 boli variácie missense, vrátane chr6.S_117795068 (46 Asp/Glu ), chr6.S_117795706 (231 Asp/Asn ), chr6.S_117795706 (592 chr06/Val 92 chr01719 665 Ala/Val), chr6.S_117795706 (1020 Pro/Arg), chr6.S_117795706 (1072 Met/Thr), chr6.S_117795706 (1112 Gln/Pro), čo by mohli byť potenciálne kauzálne variácie. Ďalej sme overili funkciu ZmFAB1A v tolerancii sucha a výsledky to ukázali Zmfab1a mutanty mali vyššiu mieru prežitia ako rastliny WT po strese zo sucha (doplnkový súbor 10: obrázok S10m an). Navyše, v porovnaní s WT závodmi, Zmfab1a mutanty mali vyššiu rýchlosť fotosyntézy, prieduchovú vodivosť a rýchlosť transpirácie po strese zo sucha s SM < 20 % (Dodatočný súbor 10: Obrázok S10o-q) a vyššiu WUE po ťažkom strese zo sucha (SM = 12 %) (Dodatočný súbor 10: Obrázok S10r). Spoločne tieto údaje demonštrovali dôležitú úlohu ZmFAB1A v regulácii fotosyntézy kukurice, WUE a tolerancie voči suchu.

Potenciálne využitie kandidátskych génov a i-znakov

Genomický výber (GS) je nápomocný pri rýchlom výbere vynikajúcich genetických komponentov, ktoré súvisia s danými fenotypmi. Pretože GS využíva všetkých genetických tvorcov na predpovedanie výkonnosti určitých kandidátov pri selekcii, je preto veľmi užitočným a efektívnym prístupom predpovedať hodnoty určitých genetických tvorcov v chove [48]. Na základe i-znakov zhromaždených v tejto štúdii sme identifikovali viac ako dvetisíc kandidátskych génov odolných voči suchu. Uskutočnili sme GS s ridge regresiou, najlepší lineárny nezaujatý prediktor (RR-BLUP) [49] a Bayes A (metóda) kandidátskych génov, aby sme videli presnosť ich určitých kombinácií pri výbere miery prežitia AMP suchom tolerantného fenotypu. Náhodne vybrané rovnaké množstvo génov z kukuričného genómu (vylúčené kandidátne gény) sa použilo v kontrolnej analýze. Výsledky ukázali, že presnosť selekcie tolerancie kukurice voči suchu kandidátskymi génmi bola výrazne vyššia ako u náhodných génov (obr. 7a), čo naznačuje, že tieto kandidátne gény by mohli byť potenciálnymi genetickými markermi pri selekcii a šľachtení kukurice tolerantnej voči suchu.

Predpoveď tolerancie kukurice voči suchu kandidátskymi génmi a i-znakmi. a Presnosť výberu tolerancie voči suchu rôznymi množstvami kandidátskych a náhodných génov s modelmi RR-BLUP a Bayes A (pozri „Materiály a metódy“). Významy boli určené podľa t test: ***, P < 0,001. b Miera prežitia predpovedaná kombináciou 15 i-znakov v 4 časových bodoch. c–f Predpoveď štyroch známych spektrálnych indexov: odrazivosť červeného údolia (c), zelený vrchol odrazivosti (d), oblasť zeleného vrcholu (e) a oblasť červeného okraja (f), resp

Aby sme vedeli, či i-znaky môžu byť potenciálnymi biomarkermi, vyhodnotili sme 1311 pomerových i-znakov (DS/WW, s významnými asociáciami lokusov vlastností) pri vysvetľovaní fenotypového rozptylu miery prežitia pomocou lineárneho krokového regresného modelu. Výsledky ukázali, že až 60 % fenotypového rozptylu v miere prežitia možno vysvetliť kombináciou 15 i-znakov v 4 časových bodoch (obr. 7b Ďalší súbor 1: Tabuľka S20), čo naznačuje, že tieto i-znaky by sa mohli použiť ako markery na výber zárodočnej plazmy kukurice tolerantnej voči suchu. Zaujímavé je, že 53 % týchto markerových i-znakov, vrátane i-znaku ddT200, ktorý bol spojený s novým génom odolným voči suchu ZmcPGM2, mal vlnové dĺžky 780–1000 nm (obr. 5 Ďalší súbor 1: Tabuľka S20). Týchto 15 markerových i-znakov bolo ďalej porovnaných so štyrmi známymi spektrálnymi indexmi vrátane odrazu červeného údolia, zeleného vrcholu odrazu, zeleného vrcholu a červeného okraja, ktoré sa široko používajú v poľnohospodárskom diaľkovom snímaní na označenie obsahu chlorofylu alebo vody a plodiny. zdravie [50, 51]. Výsledky ukázali dobrú koreláciu týchto markerových i-znakov so štyrmi indexmi (obr. 7c–f). Napríklad 58 % fenotypového rozptylu oblasti červeného okraja bolo vysvetlených pomocou dvoch markerov A248, ddT200 (obr. 7f), čo naznačuje, že tieto markery odrážali zmenu v obsahu chlorofylu alebo vody a mohli byť použité na dynamické sledovanie reakcií na sucho a screening pre prírastky kukurice s vyššou odolnosťou voči suchu. Krížová validácia pozorovania pre mieru prežitia a štyri spektrálne indexy sú uvedené v doplnkovom súbore 1: Tabuľka S20.


SOFTVÉR PRE VÝVOJ MIKROSATELITU

Keď výskumníci vygenerujú alebo získajú údaje NGS, ďalším krokom je použitie softvérového programu na identifikáciu potenciálnych lokusov na skríning. Testovali sme účinnosť a jednoduchosť použitia 10 bežne implementovaných softvérových balíkov na identifikáciu mikrosatelitov pomocou štyroch Arabidopsis thaliana Dátové súbory NGS ťažené zo SRA. Súbory údajov sú: pruh s jedným koncom (1 × 100 bp) Illumina HiSeq 2000 (ERR368422), čo je 10,9 milióna čítaní a celkovo 1,5 Gbp sekvencia, párový koniec (2 × 100 bp) Illumina HiSeq 2000 dráha (ERR965681 97 miliónov čítaní a celkovo 8,7 Gbp sekvencie), párový koniec (2 × 250 bp) Illumina MiSeq run (ERR365834 13,2 miliónov čítaní a celkovo 3,3 Gbp sekvencia) a sekvenovanie PacBio (SRR1284764 476 Mbp sekvencie pri 163 500 prečítaniach). Údaje sme získali v súboroch FASTA a FASTQ zo SRA pomocou sady nástrojov SRA. Ďalej budú tieto súbory údajov označované ako HiSeq1, HiSeq2, MiSeq a PacBio. Veľkosť súborov FASTA pre každý súbor údajov sa pohybovala od 445 MB (PacBio) do 5,7 GB (HiSeq2). Pre niektoré softvérové ​​balíky sme museli použiť iné formáty súborov (napr. FASTQ), ale pre jednoduchosť uvádzame veľkosti súborov FASTA.

Vybrali sme tieto štyri súbory údajov, aby sme zistili, ako počet čítania, dĺžka čítania, platforma sekvenovania a veľkosť súboru údajov ovplyvnili výkon každého softvérového balíka. Naším cieľom bolo poskytnúť čitateľom informácie potrebné na čo najjednoduchšie získanie lokusov mikrosatelitov z verejne dostupných údajov. Každý súbor údajov sme spustili cez každý softvérový program, pričom sme v každom programe použili čo najviac rovnaké nastavenia. Vybrali sme predvolené hodnoty z QDD3 na použitie v každom programe, pretože predvolené hodnoty bolo ťažké zmeniť v QDD3. Hoci je dôležité používať konzistentnú sadu parametrov pre každý program, skutočné použité parametre môžu byť ľubovoľné, preto sme použili predvolené hodnoty QDD3. Kritickými parametrami na štandardizáciu bol počet opakovaní motívu určitej dĺžky potrebný na volanie lokusu. Predvolené hodnoty QDD3 sú: homopolyméry, 1 000 000 opakovaní dinukleotidov, päť opakovaní trinukleotidov, päť opakovaní tetranukleotidov, päť opakovaní pentanukleotidov, päť opakovaní hexanukleotidov, päť opakovaní. Pre každý softvérový balík, ktorý sa dokončil pre všetky súbory údajov, uvádzame celkový počet nájdených lokusov SSR, počet lokusov na megazákladný pár sekvencie a distribúciu lokusov naprieč veľkostnými motívmi (di-, tri-, tetra -, penta-, hexanukleotidy).

Najprv zhrnieme užitočnosť a hlavné charakteristiky softvérových balíkov (pozri nižšie a tabuľku 3). Ďalej porovnáme softvérové ​​balíky, takže budúci výskumníci sú dobre vybavení na ľahké vytváranie lokusov SSR. Cieľom väčšiny týchto programov je hľadať lokusy SSR, kvantifikovať distribúciu lokusov naprieč veľkostnými motívmi a uľahčiť návrh primérov. Mnohé z týchto softvérových balíkov používajú GUI, ale niektoré sú len príkazovým riadkom a vyžadujú znalosť Perlu alebo Pythonu na inštaláciu a spustenie softvéru. Mnohé zo softvérových balíkov spolupracujú s Primer3 (Rozen a Skaletsky, 1999) pri navrhovaní primerov. Väčšina programov je open source, nezávislá od platformy a je schopná spracovať genomické údaje. Keď to bolo možné, spúšťali sme tieto softvérové ​​balíky na vysokovýkonnom výpočtovom klastri. Ako je uvedené nižšie, niektoré softvérové ​​balíky by nefungovali po primeranom čase úsilia biológa, ktorý má skúsenosti s príkazovým riadkom a aspoň jedným programovacím jazykom. Stručne popisujeme a hodnotíme každý program, uvádzame zdroje potrebné na spustenie každého z nich, ako dlho trvalo spustenie a ďalšie relevantné podrobnosti pre hodnotenie softvérových balíkov (tabuľka 3).

softvér Operačný systém Vlastnosti URL Citácie (Web of Science/Google Scholar) Odkaz Komentáre
Geniálny Linux, Mac OSX, Windows Integruje viacero funkcií s pluginmi, užívateľsky prívetivé rozhranie http://www.geneious.com/features/microsatellite-analysis 395/633 Kearse a kol., 2012 Veľmi užívateľsky prívetivý, ale na spustenie vyžaduje platenú licenciu. Zásuvný modul na vývoj mikrosatelitov (Phobos, http://www.ruhr-uni-bochum.de/ecoevo/cm/cm_phobos.htm) je voľne dostupný, veľmi jednoduchý a rýchly.
GMATo Linux, Mac OSX, Windows GUI aj rozhranie príkazového riadku SSR mining a štatistiky na úrovni genómu http://sourceforge.net/projects/gmato/files/?source=navbar 0/8 Wang a kol., 2013 Beží rýchlo a má jasný výstup, ale pre používateľa je ťažké zmeniť dôležité nastavenia parametrov.
HighSSR Linux, Mac OSX, Windows Java program je navrhnutý pre NGS dáta a je schopný detekcie mikrosatelitov, eliminácie redundancie a vývoja primerov a interakcie s PostgreSQL, MUSCLE a Primer3. https://code.google.com/p/highssr/ 7/12 Churbanov a kol., 2012 Nie je možné otvárať veľké súbory (>2 GB) nevhodné pre väčšinu údajov NGS.
MISA Linux, Mac OSX, Windows Predspracovanie sekvencií, vyhľadávanie motívov a interakcia s Primer3 pre návrhy primerov http://pgrc.ipk-gatersleben.de/misa/ 669/1150 Thiel a kol., 2003 Rýchly, ľahko konfigurovateľný, generuje priméry.
MSATCOMMANDER Linux, Mac OSX, Windows Vyhľadávanie motívov, interakcia s Primer3 pre návrh základného náteru a automatické označovanie základného náteru http://code.google.com/p/msatcommander/ 428/509 Faircloth, 2008 Výstup sa ťažko zobrazuje, vyžaduje veľa filtrovania na nájdenie základných štatistík.
PAL_FINDER Linux, Mac OSX, Windows Identifikuje a charakterizuje lokusy opakovania mikrosatelitov zo vzorkovania genómu brokovnicou pomocou 454 alebo Illumina párových čítania a navrhuje PCR priméry interakciou s Primer3 http://sourceforge.net/projects/palfinder/ alebo http://www.snakegenomics.org/CastoeLab/Software.html 87/115 Castoe a kol., 2012 Pomalé, problémy s kompatibilitou veľkých súborov s mnohými formátmi FASTQ by sa pri najväčšom súbore údajov nedokončili.
QDD3 Windows a Linux Počítačový program na výber mikrosatelitných markerov z nespracovaných sekvenčných čítaní získaných z 454 alebo Illumina a navrhovanie primérov z veľkých sekvencií na genómovej úrovni, ktorý sa zaoberá základnou bioinformatikou a je vybavený príkazovým riadkom a užívateľsky príjemným grafickým rozhraním na serveri Galaxy. http://net.imbe.fr/

Väčšina testovaných softvérových balíkov sa úspešne vykonala pre všetky štyri súbory testovacích údajov a priniesla výsledky konzistentné s inými programami (tabuľky 4 a 5). HighSRR a SSR_pipeline neprebehli do konca. Softvérové ​​balíky, ktoré nedokázali spustiť alebo dokončiť vyhľadávanie lokusov, boli buď staré, alebo neboli kompatibilné so súčasnými veľkosťami a formátmi údajov NGS. Napríklad existuje niekoľko typov formátov FASTQ, ale SSR_pipeline rozpoznal iba jednu starú verziu a HighSSR nie je možné spustiť so súbormi väčšími ako 2 GB. Ostatné balíky, vrátane GMATO, PAL_FINDER, QDD3, SRR Locator a STAMP, mali obmedzenia. Tieto balíky boli buď pomalé, nezvládali všetky typy údajov a/alebo veľkosti, alebo sa ťažko používali (napr. vyžadovali značné množstvo formátovania súborov a manipulácie s nimi). PAL_FINDER a MSATCOMMANDER (Faircloth, 2008) konzistentne nachádzali menej lokusov ako iné softvérové ​​balíky (tabuľka 4). Odporúčame použiť Phobos (buď samotný alebo prostredníctvom Geneious, ak je požadovaná integrácia Primer3) alebo MISA. Tieto odporúčania zakladáme na jednoduchosti použitia a spoľahlivosti výsledkov.

MiSeq (ERR365834) a HiSeq1 (ERR368422) b HiSeq2 (ERR965681) c PacBio (SRR1284764) d
Softvérový balík Celkový počet miest Sekvencia miest/Mbp Celkový počet loci Sekvencia loci/Mbp Celkový počet miest Sekvencia miest/Mbp Celkový počet loci Sekvencia loci/Mbp
GMATo 482,084 146.1 171,016 114.0 722,636 83.1 104,630 219.8
MISA 482,336 146.2 171,095 114.1 723,062 83.1 104,778 220.1
MSATCOMMANDER 388,663 117.8 135,168 90.1 543,610 62.5 82,588 173.5
PAL_FINDER 310,495 94.1 158,163 105.4 591,617 68.0 48,831 102.6
Phobos (Geneious, STAMP) 483,037 146.4 172,309 114.9 723,917 83.2 104,896 220.4
Lokátor SSR 481,863 146.0 170,934 114.0 722,580 83.1 104,120 218.7
  • 6,6 milióna párovaných koncových čítaní (2 × 250 13,2 milióna čítaní celkovo) 3,3-Gbp sekvenčný súbor FASTA: 3,9 GB.
  • b 10,9 milióna jednokoncových čítaní (1 × 100) 1,5 Gbp sekvencia FASTA súbor: 2,2 GB.
  • c 48,5 milióna párovaných koncových čítaní (2 × 100 97 miliónov čítaní celkovo) 8,7-Gbp sekvenčný súbor FASTA: 5,7 GB.
  • d 163 500 prečítaní 476-Mbp sekvencia súbor FASTA: 445 MB.
Softvérový balík MiSeq (ERR365834) a HiSeq1 (ERR368422) b HiSeq2 (ERR965681) c PacBio (SRR1284764) d
GMATo
Počet dinukleotidov (%) 395,657 (82.1) 123,902 (72.5) 565,192 (78.2) 95,584 (91.4)
Počet trinukleotidov (%) 82,874 (17.2) 42,764 (25.0) 151,596 (21.0) 8366 (8.0)
Počet tetranukleotidov (%) 2333 (0.5) 2290 (1.3) 3390 (0.5) 556 (0.5)
Počet pentanukleotidov (%) 525 (0.1) 803 (0.5) 895 (0.1) 99 (0.1)
Počet hexanukleotidov (%) 695 (0.1) 1257 (0.7) 1563 (0.2) 25 (0.0)
MISA
Počet dinukleotidov (%) 395,740 (82.0) 123,918 (72.4) 565,328 (78.2) 95,634 (91.3)
Počet trinukleotidov (%) 83,016 (17.2) 42,817 (25.0) 151,850 (21.0) 8454 (8.1)
Počet tetranukleotidov (%) 2357 (0.5) 2294 (1.3) 3406 (0.5) 564 (0.5)
Počet pentanukleotidov (%) 525 (0.1) 806 (0.5) 905 (0.1) 99 (0.1)
Počet hexanukleotidov (%) 698 (0.1) 1260 (0.7) 1573 (0.2) 27 (0.0)
MSATCOMMANDER
Počet dinukleotidov (%) 325,676 (83.8) 99,465 (73.6) 432,335 (79.5) 77,096 (93.4)
Počet trinukleotidov (%) 60,629 (15.6) 32,118 (23.8) 107,818 (19.8) 5148 (6.2)
Počet tetranukleotidov (%) 1613 (0.4) 1824 (1.3) 1925 (0.4) 286 (0.3)
Počet pentanukleotidov (%) 313 (0.1) 650 (0.5) 619 (0.1) 45 (0.1)
Počet hexanukleotidov (%) 432 (0.1) 1111 (0.8) 913 (0.2) 13 (0.0)
PAL_FINDER
Počet dinukleotidov (%) 251,678 (81.1) 114,219 (72.2) 460,072 (77.8) 41,581 (85.2)
Počet trinukleotidov (%) 56,389 (18.2) 40,088 (25.3) 126,509 (21.4) 6595 (13.5)
Počet tetranukleotidov (%) 1570 (0.5) 2042 (1.3) 2909 (0.5) 531 (1.1)
Počet pentanukleotidov (%) 359 (0.1) 717 (0.5) 774 (0.1) 98 (0.2)
Počet hexanukleotidov (%) 499 (0.2) 1097 (0.7) 1353 (0.2) 26 (0.1)
Phobos (Geneious, STAMP)
Počet dinukleotidov (%) 396,367 (82.1) 124,755 (72.4) 566,081 (78.2) 95,743 (91.3)
Počet trinukleotidov (%) 83,088 (17.2) 43,156 (25.0) 151,949 (21.0) 8462 (8.1)
Počet tetranukleotidov (%) 2359 (0.5) 2314 (1.3) 3409 (0.5) 565 (0.5)
Počet pentanukleotidov (%) 525 (0.1) 810 (0.5) 905 (0.1) 99 (0.1)
Počet hexanukleotidov (%) 698 (0.1) 1274 (0.7) 1573 (0.2) 27 (0.0)
Lokátor SSR
Počet dinukleotidov (%) 395,436 (82.1) 123,818 (72.4) 565,033 (78.2) 95,062 (91.3)
Počet trinukleotidov (%) 82,881 (17.2) 42,773 (25.0) 151,690 (21.0) 8373 (8.0)
Počet tetranukleotidov (%) 2335 (0.5) 2288 (1.3) 3384 (0.5) 561 (0.5)
Počet pentanukleotidov (%) 516 (0.1) 800 (0.5) 904 (0.1) 97 (0.1)
Počet hexanukleotidov (%) 695 (0.1) 1255 (0.7) 1569 (0.2) 27 (0.0)
  • 6,6 milióna párovaných koncových čítaní (2 × 250 13,2 milióna čítaní celkovo) 3,3-Gbp sekvenčný súbor FASTA: 3,9 GB.
  • b 10,9 milióna jednokoncových čítaní (1 × 100) 1,5-Gbp sekvenčný súbor FASTA: 2,2 GB.
  • c 48,5 milióna párovaných koncových čítaní (2 × 100 97 miliónov čítaní celkovo) 8,7-Gbp sekvenčný súbor FASTA: 5,7 GB.
  • d 163 500 prečítaní 476-Mbp sekvencia FASTA súbor: 445 MB.

Geniálny je desktopový softvérový balík na organizáciu a analýzu sekvenčných údajov v molekulárnej biológii (Kearse et al., 2012). Vývoj mikrosatelitov vyžaduje niekoľko doplnkov (napr. Phobos, Primer3 a MISA), aby vyhovovali špecifickým potrebám používateľov. Ide o komerčný softvér, ktorý vyžaduje zakúpenie licencie na aktiváciu, čím sa zvyšuje rozpočet na výskum. Komponent, ktorý hľadá lokusy mikrosatelitov, je Phobos, ktorý je možné spustiť nezávisle od Geneious zadarmo. Phobos má rozhranie GUI aj príkazového riadku a rýchlo spracováva veľké súbory. Každý testovaný súbor údajov dokončil vyhľadávanie za menej ako hodinu na štandardnom notebooku (2,5 GHz Intel Core i5, 8 GB RAM). Phobos neinteraguje priamo s Primer3, ale ak sa Phobos používa cez Geneious, výsledky hľadania lokusov v Phobos možno jednoducho preniesť do Primer3. Pre vývoj mikrosatelitných lokusov je Phobos rýchly a užívateľsky prívetivý.

GMATo prichádza s grafickým rozhraním Java a je pripravený na spustenie ihneď po stiahnutí (Wang et al., 2013). Výsledky GMATo sú prezentované ako tabuľka štatistiky lokusov SSR. Beží rýchlo pre súpravu údajov HiSeq2 (súbor s veľkosťou 5,7 GB), úlohu dokončil do 52 minút na stolnom počítači so systémom Windows (osemjadrový 3,4 GHz procesor Intel Core i7-2600, 16 GB RAM). Používateľ však nemôže ovládať distribúciu motívov počtu opakovaní – každá dĺžka opakovania musí byť nastavená na rovnakú hodnotu. Tento program nie je schopný navrhovať priméry, vytvárať markery ani markery elektronického mapovania.

HighSSR deteguje mikrosatelity a eliminuje redundanciu v PCR primeroch pre obnovené lokusy (Churbanov et al., 2012). Identifikuje a hodnotí SSR v nespracovaných sekvenčných čítaniach pomocou Tandem Repeats Finder (TRF Benson, 1999) a ukladá ich do databázy PostgreSQL, pričom poskytuje súhrnné štatistiky, ako je počet alel každého lokusu SSR, ktoré môže analyzovať iný softvér. HighSSR demultiplexuje spojené knižnice, hodnotí polymorfizmus lokusu a implementuje Primer3 pre návrh primérov. Nakoniec sa MUSCLE (Edgar, 2004) používa na rafináciu hrubých zhlukov a destiláciu lokusov z nich. Vyžaduje si to však virtuálny stroj Java a prístup k databáze na serveri PostgreSQL. Navyše neuniverzálne nastavenia parametrov a rôzne Java kódy a shell skripty sťažujú používanie. Pre spustiteľný súbor TRF sme mohli otvoriť iba náš najmenší testovací dátový súbor (PacBio 445 MB).

MISA je skratka pre identifikačný nástroj MIcroSatellite, ktorý bol pôvodne navrhnutý na generovanie lokusov SSR z údajov EST (Thiel et al., 2003). Funguje okamžite, ak je nainštalovaný Perl a rýchlo beží 5,7-GB HiSeq2 dátový súbor hotový za 1,8 hodiny (jeden uzol, jeden procesor a 4 GB pamäte). Používatelia môžu zmeniť predvolené nastavenia úpravou konfiguračného súboru (misa.ini) a MISA dokáže generovať priméry. Jeho výsledky sú v tabuľkovej forme a poskytujú súhrn rôznych štatistík, ako je napríklad frekvencia konkrétneho typu mikrosatelitu. Niektoré štúdie však naznačujú, že MISA sa mohla ťažiť redundantne v prekrývajúcich sa mikrosatelitoch (napr. Wang et al., 2013 Hodel et al., 2016).

MSATCOMMANDER umožňuje rýchlu a automatizovanú detekciu mikrosatelitov, návrh primerov špecifických pre lokus a označovanie (Faircloth, 2008). Vyžaduje Python a zapisuje výstupné súbory vo formáte CSV (comma-separated value). Výsledky sa však ťažko zobrazujú a neobsahujú všeobecné súhrnné štatistiky o typoch nájdených mikrosatelitných lokusov. Používateľ musí stráviť značný čas filtrovaním výstupného súboru, aby určil základné štatistiky (napr. počet nájdených dinukleotidových opakovaní). Využíva Primer3 ako svoj dizajn primeru a motor na označovanie primeru.

PAL_FINDER nájde mikrosatelitné opakujúce sa prvky priamo zo surového sekvenovania NGS a potom navrhne PCR priméry na amplifikáciu týchto lokusov opakovania (potenciálne amplifikovateľné lokusy [PAL]) interakciou s Primer3 (Castoe et al., 2012). Ide o softvér príkazového riadka, ktorý môže používateľ voľne upravovať prostredníctvom požadovaného konfiguračného súboru. Jeho výkon je však veľmi citlivý na pokrytie údajov (množstvo a kvalita PAL Castoe et al., 2012). Po približne 24 hodinách úsilia pri manipulácii so vstupnými súbormi FASTQ sa nám nepodarilo spustiť režim FASTQ. Mohli by sme použiť akýkoľvek typ súboru FASTA v režime „454“, vrátane párovaných údajov Illumina, pokiaľ boli všetky čítania v jednom súbore. Tento program má v porovnaní s inými kontrolovanými softvérovými balíkmi pomalú dobu spustenia (>24 hodín pre súbory údajov>4 GB na štandardnom prenosnom počítači [2,5 GHz Intel Core i5 s 8 GB RAM]).

QDD3 pozostáva zo štyroch samostatne bežiacich modulov s funkciami orezávania kvality, detekcie mikrosatelitov, odstraňovania redundancie, návrhu primérov, kontroly kontaminácie a porovnávania so známymi transponovateľnými prvkami (Meglécz et al., 2014). Dá sa použiť na príkazovom riadku aj cez Galaxy (Afgan et al., 2016) a funguje s RepeatMaskerom (Tarailo-Graovac a Chen, 2009) a množstvom ďalších nástrojov NGS. Jeho prevádzkový čas je relatívne dlhý (pre 5,7 GB dátový súbor 9,5 h na vysokovýkonnom počítači) a používatelia nemôžu meniť predvolené nastavenia pre vyhľadávanie SSR (napr. špecifikovať rôzne počty opakovaní pre rôzne dlhé motívy).

Lokátor SSR integruje funkcie vyhľadávania SSR, frekvenciu výskytu motívov, návrh primérov a simuláciu PCR voči iným databázam, ako aj globálne zarovnania a vyhľadávanie identity a homológie (Da Maia et al., 2008). Vykonáva všetky volania modulov pomocou grafického používateľského rozhrania so zabudovaným systémom ponuky. Vyžaduje si to však určité preformátovanie súboru, čo zvyšuje výpočtový čas. V prípade súboru údajov HiSeq2 trvalo preformátovanie 10 minút a vyhľadávanie SSR na platforme Windows 69 minút (osemjadrový 3,4-GHz procesor Intel Core i7-2600, 16 GB RAM).

SSR_potrubie je program príkazového riadka na identifikáciu mikrosatelitov z vysokovýkonných sekvenčných údajov pomocou prostredia Python (Miller et al., 2013). Detekuje SSR v párových čítaniach Illumina s modulmi na kvalitné filtrovanie a zarovnanie nespracovaných údajov Illumina. SSR_pipeline môže tiež analyzovať údaje z iných sekvenčných platforiem, ako sú 454 a Ion Torrent, pomocou nezávislého modulu detekcie SSR. Po 24 hodinách úsilia biológa so znalosťou bioinformatiky sme však nemohli úspešne spustiť testovacie údaje cez SSR_pipeline.

PEČIATKA je aktualizovaný balík STADEN (Kraemer et al., 2009) na detekciu mikrosatelitov a návrh primerov, s komplexnou integráciou Phobos (Mayer, 2007) na detekciu a analýzu tandemových opakovaní. STAMP používa TROLL (Castelo et al., 2002) na spätné sledovanie párov primérov k súborom sledovania sekvencií, Primer3 na interaktívny návrh a vizualizáciu primérov a SQLite ako databázu na ukladanie výsledkov analýzy. Celkovo je STAMP vysoko flexibilný, vysoko výkonný, interaktívny nástroj pre konvenčný a multiplexný návrh mikrosatelitných markerov, ktorý zabraňuje vytváraniu nadbytočných markerov. Je to však komplikované – vyžaduje si viacero modulov príkazového jazyka nástrojov a predinštaláciu balíka STADEN a nie je vhodný pre údaje NGS s nízkym pokrytím (Meglécz et al., 2014).


Využitie molekulárnych údajov pri správe zberu zoologických záhrad a akvárií: Výhody, výzvy a osvedčené postupy

Anita J. Norman, Katedra biologických vied, San Diego Zoo Global, P.O. Box 120551, San Diego, CA 92112-0551.

Department of Life Sciences, San Diego Zoo Global, San Diego, Kalifornia

Department of Life Sciences, San Diego Zoo Global, San Diego, Kalifornia

Department of Life Sciences, San Diego Zoo Global, San Diego, Kalifornia

Anita J. Norman, Katedra biologických vied, San Diego Zoo Global, P.O. Box 120551, San Diego, CA 92112-0551.

Department of Life Sciences, San Diego Zoo Global, San Diego, Kalifornia

Department of Life Sciences, San Diego Zoo Global, San Diego, Kalifornia

Inštitucionálne prihlásenie
Prihláste sa do Wiley Online Library

Ak ste už predtým získali prístup pomocou svojho osobného účtu, prihláste sa.

Kúpte si okamžitý prístup
  • Pozrite si článok PDF a všetky súvisiace doplnky a obrázky po dobu 48 hodín.
  • Článok môže nie vytlačiť.
  • Článok môže nie byť stiahnutý.
  • Článok môže nie byť prerozdelené.
  • Neobmedzené prezeranie článku PDF a akýchkoľvek súvisiacich doplnkov a obrázkov.
  • Článok môže nie vytlačiť.
  • Článok môže nie byť stiahnutý.
  • Článok môže nie byť prerozdelené.
  • Neobmedzené prezeranie článku/kapitoly PDF a akýchkoľvek súvisiacich doplnkov a obrázkov.
  • Článok/kapitolu je možné vytlačiť.
  • Článok/kapitolu je možné stiahnuť.
  • Článok/kapitola môže nie byť prerozdelené.

Abstraktné

Globálna komunita zoologických záhrad a akvárií široko uznáva, že jej zbierky zvierat a kooperatívne chovné programy čelia kríze udržateľnosti. Všeobecne sa uznáva, že mnohé prioritné druhy nemožno zachovať, pokiaľ sa neprijmú nové stratégie riadenia. Zatiaľ čo molekulárne údaje majú potenciál výrazne zlepšiť riadenie v celom rade scenárov, komunita zoologických záhrad a akvárií ich vo všeobecnosti nevyužívala. Toto zlyhanie pri efektívnom aplikovaní molekulárnych údajov na správu zberu bolo čiastočne spôsobené nedostatkom zdrojov v rámci komunity, na ktorých by bolo možné založiť informované rozhodnutia o tom, kedy je použitie takýchto údajov vhodné a aké kroky sú potrebné na úspešnú integráciu údajov do zvládanie. Tu identifikujeme tri široké oblasti skúmania, v ktorých môžu molekulárne údaje informovať manažment: 1) taxonomická identifikácia 2) neúplné alebo neznáme rodokmene a 3) dedičná choroba. Naprieč týmito témami ponúkame diskusiu o výhodách, obmedzeniach a úvahách o aplikácii molekulárnych údajov na populácie zvierat ex situ v štýle dostupnom odborníkom zoo a akvárií. V konečnom dôsledku máme v úmysle, aby tieto zhromaždené informácie slúžili ako zdroj pre komunitu, ktorý pomôže zabezpečiť, aby molekulárne projekty priamo a efektívne prospeli dlhodobému pretrvávaniu populácií ex situ.


Borrell, J.S. a kol. Enset v Etiópii: slabo charakterizovaná, ale odolná základná látka škrobu. Ann. Bot. 123, 20. https://doi.org/10.1093/aob/mcy214 (2019).

Vavilov, N. I. Pôvod, variácia, imunita a šľachtenie pestovaných rastlín: vybrané spisy NI Vavilova, zv. 72 (Chronica Botanica, Leyden, 1951).

Haile, M. Klastrová analýza pre hodnotenie genetickej diverzity v Enset (Ensete ventricosum (Welw.): Cheesman) klony v stave Areka. J. Plant Sci. 2, 55–69 (2014).

Quinlan, R.J. a kol. Zraniteľnosť a odolnosť fariem Sidamaenset a kukurice v juhozápadnej Etiópii. J. Ethnobiol. 35, 314–337 (2015).

Yemata, G. Ensete ventricosum: viacúčelová plodina proti hladu v Etiópii. Sci. Svet J. 2020, 1–10 (2020).

Tsegaye, A. & Struik, P. Enset (Ensete ventricosum (Welw.) Cheesman) výnos kocho pri rôznych metódach zakladania plodín v porovnaní s výnosmi iných plodín bohatých na sacharidy. NJAS Wagening. J. Life Sci. 49, 81–94 (2001).

Bayu, T. Y. Dynamika využívania pôdy a výzvy enset (Ensete ventricosum) poľnohospodárstvo v hornom toku povodia Baso – Deme, vysočina Gamo, JZ Etiópia. Glob. J. Interdiscip. Soc. Sci. 5, 8 (2016).

Jar, A. a kol. Strom proti hladu: poľnohospodárske systémy založené na ensetoch v Etiópii. Am. Doc. Adv. Sci. 5, 1073–1084 (1997).

Heslop-Harrison, J. S. & Schwarzacher, T. Domestikácia, genomika a budúcnosť banánov. Ann. Bot. 100, 1073–1084 (2007).

Olango, T. M., Tesfaye, B., Pagnotta, M. A., Pè, M. E. & Catellani, M. Vývoj markerov SSR a analýza genetickej diverzity v enset (Ensete ventricosum (Welw.) Cheesman), plodina pre potravinovú bezpečnosť pre siroty z južnej Etiópie. BMC Genet. 16, 98 (2015).

Tobiaw, D. C. & Bekele, E. Analýza genetickej diverzity medzi kultivovaným súborom (Ensete ventricosum) populácie z Essera a Kefficho, juhozápadná časť Etiópie s použitím markera inter simple sequence repeat (ISSR). Afr. J. Biotechnol. 10, 15697–15709 (2011).

Yeshitla, M. &Yemataw, Z. In Enset Research and Development Experiences in Etiópia, Proceedings of Enset National Workshop, Wolkite, Etiópia. (2010) 19–20.

Yemataw, Z. a kol. Morfologické variácie a vzájomné vzťahy kvantitatívnych znakov v enset (Ensete ventricosum (Welw.) Cheesman) zárodočná plazma z južnej a juhozápadnej Etiópie. Rastliny 6, 56 (2017).

Frankel, O. & Brown, A. Genetics: New Frontiers: Zborník z XV. medzinárodného kongresu genetiky/editori, VL Chopra. [et al.] (Oxford & IBH Publishing Co., New Delhi, 1984).

Bezuneh, T. in Zborník zo skúseností Enset z výskumu a vývoja v Etiópii: Národný workshop: 19. – 20. august 2010 Wolkite, Etiópia. 1–21.

Birmeta, G., Nybom, H. & Bekele, E. RAPD analýza genetickej diverzity medzi klonmi etiópskej plodiny Ensete ventricosum. Euphytica 124, 315–325 (2002).

Negash, A., Tsegaye, A., van Treuren, R. & Visser, B. AFLP analýza ensetovej klonálnej diverzity v južnej a juhozápadnej Etiópii na ochranu. Crop Sci. 42, 1105–1111 (2002).

Nuraga, G. W., Feyissa, T., Tesfaye, K., Demissew, S. & Tadele, Z. Fenotypová diverzita enset (Ensete ventricosum (Welw.) Cheesman) landrasy používané v tradičnej medicíne. Genet. Resour. Crop Evol. 66, 1761–1772 (2019).

Birmeta, G., Nybom, H. & Bekele, E. Rozdiel medzi divokým a kultivovaným ensetom (Ensete ventricosum) genofondy v Etiópii pomocou markerov RAPD. Hereditas 140, 139–148 (2004).

Gerura, F.N. a kol. Genetická diverzita a štruktúra populácie vsád (Ensete ventricosum Welw Cheesman) krajiny Gurage zone, Etiópia. Genet. Resour. Crop Evol. 66, 1813–1824 (2019).

Liang, T. a kol. Genetická diverzita Ziziphus mauritiana zárodočnej plazmy na základe markerov SSR a odhadu úrovne ploidie. Planta 249, 1875–1887 (2019).

Kumar, M. a kol. Analýza genetickej diverzity a štruktúry populácie indického cesnaku (Allium sativum L.) odber pomocou SSR markerov. Physiol. Mol. Biol. Rastliny 25, 377–386 (2019).

Ronoh, R. a kol. Vývoj SSR na báze sekvenovania novej generácie (NGS) v afrických nočných vtákoch: nástroje na analýzu genetickej diverzity na ochranu a šľachtenie. Sci. Hortic. 235, 152–159 (2018).

Lassois, L. a kol. Genetická diverzita, štruktúra populácie, analýza rodičovstva a konštrukcia základných zbierok v zárodočnej plazme francúzskych jabĺk na základe markerov SSR. Plant Mol. Biol. Rep. 34, 827–844 (2016).

Biswas, M.K. a kol. Genómová výpočtová analýza mikrosatelitov Musa: klasifikácia, prenosnosť medzi taxónmi, funkčná anotácia, asociácia s transpozónmi a miRNA a potenciál genetického markera. PLoS ONE 10e0131312 (2015).

Biswas, M.K. a kol. Prieskum a využitie nových SSR markerov pre kandidátske gény transkripčných faktorov v Lilium druhov. Gény 9, 97 (2018).

Chen, H. a kol. Hodnotenie genetickej diverzity a štruktúry populácie fazule mungo (Vigna radiata) zárodočná plazma s použitím markerov SSR na báze EST a genómu. Gene 566, 175–183 (2015).

Miyatake, K., Shinmura, Y., Matsunaga, H., Fukuoka, H. & Saito, T. Konštrukcia jadrovej kolekcie baklažánu (Solanum melongena L.) na základe genotypov SNP a SSR v celom genóme. Plemeno. Sci. 69, 498–502 (2019).

Hayano-Kanashiro, C. a kol. Prístup založený na SSR, ktorý zahŕňa nový algoritmus na identifikáciu vzácnych genotypov kukurice, uľahčuje kritériá na ochranu krajinnej rasy v Mexiku. Ecol. Evol. 7, 1680–1690 (2017).

Ashraf, H. a kol. Genetická diverzita pigmentovanej a aromatickej ryže založená na SSR (Oryza sativa L.) genotypy západnej himalájskej oblasti Indie. Physiol. Mol. Biol. Rastliny 22, 547–555 (2016).

Patil, P.G. a kol. Mapovanie asociácie s cieľom objaviť významné asociácie markerov a znakov pre rezistenciu proti fusariovému vädnutiu variant 2 u holubov [Cajanus cajan (L.) Millspaugh] pomocou SSR markerov. J. Appl. Genet. 58, 307–319 (2017).

Bohra, A. a kol. Nové hypervariabilné markery SSR pre analýzu diverzity, testovanie hybridnej čistoty a mapovanie vlastností v Pigeonpea [Cajanus cajan (L.) Millspaugh]. Predné. Plant Sci. 8, 377 (2017).

Nie, X. a kol. Celogenómové mapovanie asociácie založené na SSR pre kvalitu vlákna v celoštátnych horských príbuzenských kultivaroch bavlny v Číne. BMC Genom. 17, 352 (2016).

Zhao, Y. a kol. Asociačné mapovanie tolerancie soli v bavlne založené na SSR (Gossypium hirsutum L.). Genet. Mol. Res. 15, 15027370 (2016).

Abou-Elwafa, S. F. Mapovanie asociácie pre výnosy a znaky prispievajúce k výnosu v jačmeni v podmienkach sucha s markermi SSR založenými na genóme. C. R. Biol. 339, 153–162 (2016).

Yagi, M. a kol. Konštrukcia mapy genetického prepojenia založenej na SSR a RAD markeroch pre karafiát (Dianthus caryophyllus L.). Plant Mol. Biol. Rep. 35, 110–117 (2017).

Ambawat, S. a kol. QTL mapovanie odolnosti proti hrdzi perličkového prosa pomocou integrovanej mapy prepojenia na báze DArT a SSR. Euphytica 209, 461–476 (2016).

Harrison, J. a kol. Návrh sekvencie genómu pre Ensete ventricosum, „strom proti hladu“ odolný voči suchu. agronómia 4, 13–33 (2014).

Yemataw, Z. a kol. Údaje o sekvencii genómu zo 17 prístupov z Ensete ventricosum, základná potravinová plodina pre milióny ľudí v Etiópii. Prehľad údajov 18, 285–293 (2018).

Getachew, S. a kol. Pohľad do genetickej diverzity enset (Ensete ventricosum (Welw.) cheesman) pomocou prenosných mikrosatelitných sekvencií banánov v Etiópii. J. Crop Improv. 28, 159–183 (2014).

Muthamilarasan, M., Misra, G. & Prasad, M. FmMDb: všestranná databáza markerov prosa lišajníka pre výskum prosa a bioenergetických tráv. PLoS ONE 8e71418 (2013).

Iquebal, M. A., Arora, V., Verma, N., Rai, A. & Kumar, D. Prvá celogenómová mikrosatelitná databáza markerov DNA rajčiaka na mapovanie a identifikáciu odrôd. BMC Plant Biol. 13, 197 (2013).

Temnykh, S. a kol. Výpočtová a experimentálna analýza mikrosatelitov v ryži (Oryza sativa L.): frekvencia, variácia dĺžky, transpozónové asociácie a potenciál genetických markerov. Genome Res. 11, 1441–1452 (2001).

Schuler, G. D. Sekvenčné mapovanie elektronickou PCR. Genome Res. 7, 541–550 (1997).

Sonah, H. a kol. Distribúcia a organizácia mikrosatelitov v rastlinách v celom genóme: pohľad na vývoj markerov v Brachypodium. PLoS ONE 6e21298 (2011).

Ellegren, H. Mikrosatelity: jednoduché sekvencie so zložitým vývojom. Nat. Genet. 5, 435 (2004).

Tranbarger, T. J. a kol. SSR markery v transkriptoch génov spojených s post-transkripčnými a transkripčnými regulačnými funkciami počas vegetatívneho a reprodukčného vývoja Elaeisguineensis. BMC Plant Biol. 12, 1 (2012).

Zhao, H. a kol. Vývoj mikrosatelitných markerov bambusu v celom genóme a ich aplikácie na taxonómiu s pomocou molekulárnych markerov pre prírastky v rode Phyllostachys. Sci. Rep. 5, 8018 (2015).

Varshney, R. K., Graner, A. & Sorrells, M. E. Genické mikrosatelitné markery v rastlinách: vlastnosti a aplikácie. Trends Biotechnol. 23, 48–55 (2005).

Pandey, G. a kol. Celogenómový vývoj a použitie mikrosatelitných markerov pre rozsiahle aplikácie genotypizácie v prosa líška obyčajného [Setariaitalica (L.)]. DNA Res. 20, 197–207 (2013).

Biswas, M. K., Xu, Q., Mayer, C. & Deng, X. Genome wide charakterization of short tandem repeat markers in sweet orange (Citrus sinensis). PLoS ONE 9, e104182. https://doi.org/10.1371/journal.pone.0104182PONE-D-14-13890 (2014).

Wang, X. a kol. Porovnávacia charakterizácia celého genómu vedúca k vývoju jednoduchého markera opakovania sekvencie pre Nicotiana. BMC Genom. 19, 500 (2018).

Cavagnaro, P.F. a kol. Celogenómová charakterizácia jednoduchých opakovaní sekvencií v uhorke (Cucumis sativus L.). BMC Genom. 11, 569 (2010).

Victoria, F. C., da Maia, L. C. & Oliveira, A. C. In silico porovnávacia analýza markerov SSR v rastlinách. BMC Plant Biol. 11, 15 (2011).

Morgante, M., Hanafey, M. & Powell, W. Mikrosatelity sú prednostne spojené s neopakujúcou sa DNA v rastlinných genómoch. Nat. Genet. 30, 194 (2002).

Tóth, G., Gáspári, Z. & Jurka, J. Mikrosatelity v rôznych eukaryotických genómoch: prehľad a analýza. Genome Res. 10, 967–981 (2000).

Biswas, M.K. a kol. Využitie sekvencií BAC na ťažbu, charakterizáciu a využitie nových markerov opakovania krátkych sekvencií (SSR) v Citrusoch. Mol. Biol. Rep. https://doi.org/10.1007/s11033-011-1338-5 (2012).

Crow, K. D. & Wagner, G. P. Aká je úloha duplikácie genómu vo vývoji zložitosti a diverzity?. Mol. Biol. Evol. 23, 887–892 (2005).

Alix, K., Gérard, P. R., Schwarzacher, T. & Heslop-Harrison, J. Polyploidia a interšpecifická hybridizácia: partneri pre adaptáciu, speciáciu a evolúciu v rastlinách. Ann. Bot. 120, 183–194 (2017).

Saeidi, H., Rahiminejad, M. R. & Heslop-Harrison, J. Retroelementové inzerčné polymorfizmy, diverzita a fylogeografia v rámci diploidného, ​​D-genómu Aegilops tauschii (Triticeae, Poaceae) podtaxóny v Iráne. Ann. Bot. 101, 855–861 (2008).

Portis, E. a kol. Komplexná charakterizácia jednoduchých opakovaní sekvencií v baklažáne (Solanum melongena L.) genóm a konštrukcia webového zdroja. Predné. Plant Sci. 9, 401 (2018).

Babu, K. a kol. Vývoj a validácia celogenómových a génových mikrosatelitných markerov v palme olejnej (Elaeis guineensis Jacq.): Prvá mikrosatelitná databáza (OpSatdb). Sci. Rep. 9, 1899 (2019).

Koressaar, T. & Remm, M. Vylepšenia a modifikácie programu na navrhovanie primérov Primer3. Bioinformatika 23, 1289–1291 (2007).

Stanke, M. & Morgenstern, B. AUGUSTUS: webový server na predikciu génov v eukaryotoch, ktorý umožňuje používateľom definované obmedzenia. Nucleic Acids Res. 33, W465 – W467 (2005).

D'Hont, A. a kol. Banán (Musa acuminata) genóm a evolúcia jednoklíčnolistových rastlín. Príroda 488, 213 (2012).

Davey, M. W. a kol. Návrh Musa balbisiana sekvencia genómu pre molekulárnu genetiku v polyploidných, inter- a intrašpecifických hybridoch Musa. BMC Genom. 14, 683 (2013).

Krzywinski, M. a kol. Circos: informačná estetika pre porovnávaciu genomiku. Genome Res. 19, 1639–1645 (2009).

Nei, M. &Takezaki, N., Odhad genetických vzdialeností a fylogenetických stromov z analýzy DNA. V: Zborník z 5. svetového kongresu o genetike aplikovanej v živočíšnej výrobe. Guelph, 21 (1994), 405–412.

Liu, K. & Muse, S. V. PowerMarker: integrované analytické prostredie pre analýzu genetických markerov. Bioinformatika 21, 2128–2129 (2005).

Smouse, R. P. P. & Peakall, R. GenAlex 6.5: genetická analýza v Exceli. Populačný genetický softvér pre výučbu a výskum – aktualizácia. Bioinformatika 28, 2537–2539 (2012).

Tamura, K., Stecher, G., Peterson, D., Filipski, A. & Kumar, S. MEGA6: analýza molekulárnej evolučnej genetiky verzia 6.0. Mol. Biol. Evol. 30, 2725–2729 (2013).


Genotypizácia

Po identifikácii sekvencií obsahujúcich SSR sa musia syntetizovať špecifické priméry (18 a 25 bp dlhé), komplementárne k priľahlým oblastiam, po čom nasleduje amplifikácia a testovanie polymorfizmu. Podľa Guichoux. (2011) Guichoux E, Lagache L, Wagner S, Chaumeil P, LéGer P, Lepais O, Lepoittevin C, Malausa T, Revardel E, Salin F a kol. (2011) Súčasné trendy v genotypizácii mikrosatelitov. Mol Ecol Resour 11:591-611. , môže počas amplifikácie SSR nastať množstvo experimentálnych problémov, ktoré môžu ohroziť volanie a zosúladenie alely, čo má za následok zvýšenú chybovosť alebo potrebu rozsiahlych manuálnych opráv. Títo autori podrobne popísali možné riešenia na pomoc výskumníkom pri riešení týchto problémov, ako je koktanie alebo tieňové pásy, nešablónové pridanie nukleotidu Taq polymeráza, nesprávny základný náter atď.

Po vytvorení SSR markerov môže začať genotypizácia. Ide o pomerne jednoduchý a lacný postup. Alelové varianty daného lokusu SSR možno identifikovať elektroforézou na agarózovom géli (AGE) alebo elektroforézou na polyakrylamidovom géli (PAGE), metódami s nízkou zložitosťou, ktoré sa bežne používajú v laboratóriách molekulárnej genetiky. Genotypizácia PAGE je náročnejšia na prácu, ale poskytuje lepšie rozlíšenie, čo umožňuje identifikáciu daných polymorfizmov pre jeden pár báz ( Penha., 2013 Penha HP, Pereira GS, Zucchi MI, Diniz AL, Diniz AL a Vieira MLC (2013) Mikrosatelitné markery v sladkej mučenke a identifikácia polymorfizmov dĺžky a konformácie v rámci opakujúcich sa sekvencií. Plemeno rastlín 132:732-735. Mason, 2015 Mason AS (2015) Genotypizácia SSR. In: Batley J (ed) Genotyping rastlín. Springer, New York, NY, str. 77-89. ). Alternatívne môžu byť označené priméry SSR syntetizované s fluorescenčnými markermi na genotypizáciu kapilárnou elektroforézou s použitím bežných sekvenátorov ( Araújo., 2007 Araújo IS, Intorne AC, Pereira MG, Lopes UV a Filho GA de S (2007) Vývoj a charakterizácia nových tetra-, tri- a dinukleotidových mikrosatelitných markerov v kakau (Theobroma cacao L.). Mol Breed 20:73-81. Csencsics., 2010 Csencsics D, Brodbeck S a Holderegger R (2010) Nákladovo efektívny, druhovo špecifický vývoj mikrosatelitov pre ohrozenú trpasličiu sieťku (Typha minima) pomocou technológie sekvenovania novej generácie. J Hered 101:789-793. Agarwal., 2015 Agarwal G, Sabbavarapu MM, Singh VK, Thudi M, Sheelamary S, Gaur PM a Varshney RK (2015) Identifikácia neredundantnej sady 202 in silico SSR markerov a použiteľnosť výberovej sady v cíceri (Cicer arietinum L.) . Euphytica 205:381-394. ). V tomto prípade sa každá vzorka DNA vloží do kapiláry obsahujúcej polyakrylamidovú matricu, v ktorej sa uskutoční elektroforéza. Zachytí sa fluorescencia emitovaná označeným primérom a určí sa molekulová hmotnosť amplifikovaného fragmentu. Výsledkom je elektroferogram ukazujúci luminiscenčné píky zodpovedajúce každej amplifikovanej alele. Nakoniec fáza genotypizácie pozostáva z porovnávania elektroferogramov rôznych jedincov (pozri Culley., 2013 Culley TM, Stamper TI, Stokes RL, Brzyski JR, Hardiman NA, Klooster MR a Merritt BJ (2013) Účinná technika na vývoj a aplikáciu primerov, ktorá integruje fluorescenčné značenie a multiplexnú PCR. Appl. Plant Sci. 1:1300027. Mason, 2015 Mason AS (2015) Genotypizácia SSR. In: Batley J (ed) Genotyping rastlín. Springer, New York, NY, str. 77-89. ), technika, ktorá je obzvlášť široko používaná pri práci s komplexnými druhmi genómu, ako je cukrová trstina a iné polyploidy (Morais TBR de, 2012, dizertačná práca. Escola Superior de Agricultura "Luiz de Queiroz, Univerzita São Paulo, Piracicaba, SP, Brazília).

Najvhodnejšia metóda genotypovania pre každý projekt je definovaná podľa skúmaného druhu, citlivosti požadovanej pri určovaní variácií alel, dostupnosti zariadenia a nákladovej efektívnosti. Štádiá amplifikácie a genotypovania možno zdokonaliť na multiplexovanie rôznych lokusov SSR, čím sa znížia náklady a ušetrí sa čas a umožní sa analýza vo veľkom meradle ( Brown., 1996 Brown SM, Hopkins MS, Mitchell SE, Senior ML, Wang TY, Duncan RR, Gonzalez-Candelas F a Kresovich S (1996) Viacnásobné metódy na identifikáciu polymorfných jednoduchých sekvencií opakovaní (SSR) v ciroku [Sorghum bicolor (L.) Moench]. Theor Appl Genet 93:190-198. Guichoux., 2011 Guichoux E, Lagache L, Wagner S, Chaumeil P, LéGer P, Lepais O, Lepoittevin C, Malausa T, Revardel E, Salin F a kol. (2011) Súčasné trendy v genotypizácii mikrosatelitov. Mol Ecol Resour 11:591-611. Lepais a Bacles, 2011 Lepais O a Bacles CFE (2011) De novo objav a multiplexná amplifikácia mikrosatelitných markerov pre jelšu čiernu (Alnus glutinosa) a príbuzné druhy pomocou pyrosekvenovania brokovnicou obohateného o SSR. J Hered 102:627-632. ). Existujú dva spôsoby vykonávania multiplexnej analýzy mikrosatelitných lokusov. Prvým je multiplexná PCR, pri ktorej sú rôzne SSR priméry umiestnené do rovnakej reakčnej skúmavky. Nevyhnutné sú tieto fázy: i) určenie dĺžky (v bp) alel v každom lokuse SSR ii) výber lokusov, ktorých dĺžky alel nie sú superponované iii) in silico testovanie pri teplote topenia (Tm) a možná tvorba sekundárnych štruktúr medzi primérmi vybraných lokusov SSR. Druhá metóda analýzy multiplexných lokusov SSR zahŕňa multiplexnú genotypizáciu. V tomto prípade sa amplifikácie uskutočňujú oddelene, ale amplifikované produkty biologickej vzorky sa zmiešajú a vložia do rovnakého gélového kanála pre elektroforézu alebo sekvenčnej kapiláry.

Guichoux. (2011) Guichoux E, Lagache L, Wagner S, Chaumeil P, LéGer P, Lepais O, Lepoittevin C, Malausa T, Revardel E, Salin F a kol. (2011) Súčasné trendy v genotypizácii mikrosatelitov. Mol Ecol Resour 11:591-611. publikovali vynikajúcu analýzu súčasných trendov v genotypizácii mikrosatelitov. Preskúmalo sa niekoľko aspektov, vrátane celkových nákladov na genotypizáciu SSR ako funkcie stupňa multiplexovania a počtu vzoriek s genotypom. Napríklad najviac citovaná komerčná súprava má cenu za vzorku 1,88. Autori potom navrhujú riešenia na zníženie konečných nákladov na vzorku. Podľa týchto autorov väčšina práce vykonanej na vývoji a optimalizácii multiplexovania SSR v skutočnosti pozostáva z fáz spoločných pre všetky rozvojové projekty SSR.

V minulosti boli vyvinuté alternatívne metódy na uľahčenie genotypového PCR multiplexovania kapilárnou elektroforézou, ako je napríklad metóda M13 tailed primer ( Oetting., 1995 Oetting WS, Lee HK, Flanders DJ, Wiesner GL, Sellers TA a King RA (1995) Väzbová analýza s polymorfizmami multiplexovaných krátkych tandemových opakovaní s použitím infračervenej fluorescencie a primérov s chvostom M13. Genomics 30:450-458. ). Pri tejto metóde sa sekvenačná reakcia uskutočňuje ako multiplexná PCR s použitím M13 (reverzného) priméru, konjugovaného s fluorescenčným farbivom a rôznymi modifikovanými SSR (doprednými) primérmi. Priméry SSR sú modifikované 19-bp predĺžením na 5' konci, identické s nukleotidovou sekvenciou M13. V prvom cykle PCR je amplifikácia založená na priméroch SSR, ktoré tvoria anelačné miesto M13 na 3' konci, ktoré sa používa v druhom amplifikačnom cykle. Následne bol publikovaný variant tejto techniky (Multiplex-Ready PCR) s cieľom znížiť náklady na značenie primérov, ktoré sú zvyčajne 5 až 10-krát vyššie ako pri konvenčnej syntéze primérov ( Hayden., 2008 Hayden MJ, Nguyen TM, Waterman A a Chalmers KJ (2008) Multiplex-ready PCR: Nová metóda pre multiplexnú SSR a SNP genotypizáciu. BMC Genomics 9:80. ).


Abstraktné

Predpoveď, že selekcia ovplyvňuje genóm lokusovo špecifickým spôsobom, ktorý ovplyvňuje aj susediacu neutrálnu variáciu, známu ako genetické stopovanie, umožňuje použitie polymorfných markerov v nekódujúcich oblastiach na detekciu stôp selekcie. Keďže však sila selektívnej stopy na lokuse závisí od vzdialenosti od vybraného miesta a časom sa v dôsledku rekombinácie rozpadne, použitie polymorfných markerov úzko spojených s kódovacími oblasťami genómu by malo zvýšiť pravdepodobnosť detekcie stôp. selekcie, pretože je pokrytých viac oblastí obsahujúcich gén. Výskyt vysoko polymorfných mikrosatelitov v nepreložených oblastiach exprimovaných sekvenčných značiek (EST) je potenciálne užitočným zdrojom polymorfizmov spojených s génom, ktorý sa doteraz nepoužíval na skríning genómu v prirodzených populáciách. V tejto štúdii sme hľadali genetické podpisy divergentnej selekcie skríningom 95 genómových mini- a mikrosatelitov odvodených od EST v ôsmich prírodných lososoch atlantických, Salmo salar L., populácie z rôznych priestorových mier obývajúce kontrastné prírodné prostredia (slané, brakické a sladkovodné biotopy). Celkovo sme identifikovali deväť mikrosatelitov spojených s EST, ktoré vykazovali veľmi významné odchýlky od neutrálnych očakávaní pomocou rôznych štatistických metód v rôznych priestorových mierkach a vykazovali podobné trendy v samostatných vzorkách populácie z rôznych prostredí (slané, brakické a sladkovodné biotopy) a mora. oblasti (Barents vs. Biele more). Tieto EST považujeme za najlepšie kandidátske lokusy ovplyvnené divergentnou selekciou, a preto slúžia ako sľubné gény spojené s adaptívnou divergenciou u lososa atlantického. Naše výsledky ukazujú, že skenovanie mikrosatelitného genómu spojeného s EST poskytuje účinnú stratégiu na objavovanie funkčných polymorfizmov, najmä v nemodelových organizmoch.


Metódy

Rastlinný materiál a podmienky experimentu

Súbor 320 prírastkov iránskej pšenice, vrátane 102 odrôd uvoľnených medzi rokmi 1942 a 2014, a 218 krajových odrôd zozbieraných v rokoch 1931 až 1968 (doplnkový súbor 1: tabuľka S1) bol testovaný v dobre zavlažovanom systéme a za dažďa s použitím alfa- mriežkový dizajn s dvoma replikami na poľnohospodárskych výskumných pozemkoch Katedry agronómie a šľachtenia rastlín Teheránskej univerzity. Rastlinné materiály láskavo poskytla Teheránska univerzita a Inštitút na zlepšenie semien a rastlín (SPII), Karaj, Irán. Pre 298 prírastkov (90 odrôd a 208 krajových rás) boli k dispozícii fenotypové aj genotypové údaje. Poľná lokalita sa nachádza na N 35′,80° a E 50′,95° v Karaj v Iráne a experimenty sa uskutočnili počas vegetačných období 2016–17 a 2017–18 (poveternostné podmienky sú uvedené v dodatočnom súbore 3: Obr. S1).

Poľný pokus

Vývoj rastlín bol hodnotený podľa Zadoksovej stupnice a zahŕňal i) dni do vzídenia (Zadoks 12), ii) dni do záhlavia (Zadoks 50), iii) dni do antézy (Zadoks 65), iv) dni do fyziologickej zrelosti (Zadoks 91). a v) obdobie plnenia zrna, keď polovica každého pozemku dosiahla zodpovedajúce štádiá. Soil Plant Analysis Development (SPAD, Minolta Camera Co., Osaka, Japonsko, SPAD502 Plus Chlorophyll Meter) a infračervený teplomer LIHERO sa použili na meranie zelene listov a teploty koruny pri Zadoks 60, v tomto poradí. Úroda zrna a súvisiace znaky vrátane hmotnosti klasu, dĺžky klasu, počtu semien na klas a hmotnosti tisíc zŕn sa merali po zbere v oboch rokoch.

Genotypizácia sekvenčnou a imputačnou metódou

Vývoj a sekvenovanie knižnice GBS pre iránsku pšenicu už skôr opísali Alipour et al. [30]. Stručne, po orezaní sekvenčných čítaní na 64 bp a ich zoskupení do sekvenčných značiek boli SNP identifikované pomocou vnútorného zarovnania umožňujúceho nesprávne párovanie až do 3 bp.Na volanie SNP sa použil kanál UNEAK (Universal Network-Enabled Analysis Kit) GBS, kde boli odstránené čítania s nízkym skóre kvality (

Štruktúra populácie a matica príbuzenstva

Štruktúra populácie vo vzorke bola odhadnutá pomocou STRUCTURE v.2.3.4 [62] s modelom prímesí a s fázou vyhorenia a simulácie pozostávajúcou z 10 000 krokov pre hodnoty K = 1 až 10. ∆K bola vynesená do grafu pre po sebe idúce K hodnoty a používajú sa na určenie najpravdepodobnejšieho počtu subpopulácií. Hodnoty pozorovaných a očakávaných frekvencií alel sa použili na výpočet LD medzi markermi v TASSEL v.5 [63]. Potom sa získala štruktúrna matica (Q-matica) pre všetky prírastky použité na asociačné štúdie. Na určenie vzťahu medzi odrodami a krajovými rasami bol skonštruovaný susedný strom na základe matice párovej vzdialenosti vypočítanej v TASSEL v.5 [63] a vizualizovanej pomocou Archeopteryx (https://sites.google.com/site/cmzmasek/ domov/softvér/archeopteryx).

Štúdia celogenómovej asociácie

Na získanie nestranného odhadu účinkov markerov sme použili všeobecný lineárny model (GLM) aj zmiešaný lineárny model (MLM). Prístup MLM viedol k najpresnejšiemu spojeniu znakov markerov a rôzne verzie modelu MLM, vrátane Q, K alebo Q + K, sa použili na kontrolu účinkov populačnej štruktúry (Q) a difúznejších vzťahov (K) medzi prístupy pomocou TASSEL v.5 [63]. Balík GAPIT [64] sa použil na vykonanie mapovania asociácií pre model MLM v RStudio [61]. Výsledky z TASSEL [63] a GAPIT [64] hodnotené na základe významnosti asociovaných lokusov pomocou t-testy. Vo všeobecnosti GAPIT [64] poskytoval silnejšiu kontrolu mätúcich efektov. Preto sme uviedli iba výsledky z GAPIT [64]. V modeli MLM sú jednotlivci považovaní za náhodné efekty a príbuznosť medzi jednotlivcami je prenášaná prostredníctvom matice príbuzenstva. Na vykonanie klastrovej analýzy sa použili prvky matice príbuzenstva ako miery podobnosti a zhluky sa vizualizovali pomocou metódy skupiny nevážených párov s aritmetickým priemerom (UPGMA) prostredníctvom grafu tepelnej mapy. Manhattanský graf je vizualizovaná forma asociácií medzi fenotypom a genotypom, v ktorej sú SNP usporiadané na základe ich chromozómových pozícií a párov báz. V grafe na Manhattane teda os x predstavuje genómovú polohu každého SNP a os y predstavuje záporný logaritmus P-hodnota získaná z F-testu na testovanie H0. Tepelná mapa aj grafy Manhattanu boli získané z vylepšeného porovnávacieho scenára pomocou balíka GAPIT [64].

Génová anotácia

Sekvencie obklopujúce všetky významne asociované SNP boli získané z databázy pšenice 90 K SNP [65], ktorá sa používa na hodnotenie anotácie génu pomocou Gramene (http://www.gramene.org/) ich zarovnaním s anotáciou IWGSC RefSeq v1.0 (https ://wheat-urgi.versailles.inra.fr/Seq-Repository/Annotations). Funkcia predpokladaných génov bola skúmaná skúmaním dráh, do ktorých boli zapojené kódované enzýmy. Po priradení sekvencií SNP k referenčnému genómu sa na ďalšie spracovanie vybrali prekrývajúce sa gény s najvyšším percentom identity a blastovým skóre. Génová ontológia každého vybraného génu, vrátane molekulárnej funkcie a biologického procesu, bola extrahovaná z databázy ensemble-gramene (http://ensembl.gramene.org).

Analýza fenotypových údajov a výpočet priaznivého alelového efektu

Fenotypové údaje boli analyzované pomocou SAS v.9.4 [66] oddelene pre dve prostredia. Upravené priemery sa potom získali z dizajnu alfa-mriežky použitého na pokročilú lineárnu analýzu. Upravené priemery sa odhadli pomocou GLM a zmiešaných postupov. Fenotypový účinok priaznivých alel (ai) bol odhadnutý pomocou nasledujúceho vzorca:

kde, Xij je fenotypová hodnota jjednotlivec pre ialela, ni je počet osôb nesúcich jalela, NK je n-tá individuálna fenotypová hodnota pre všetky položky a nK je počet jednotlivcov. Pozitívne a negatívne účinky všetkých alel sú zastúpené ai >0 a ai


Pozri si video: Haplotype-based GWAS analysis using rtm-gwas software. A quick GWAS tutorial (August 2022).