Informácie

Ľudská genetická diverzita v Afrike v porovnaní so zvyškom sveta

Ľudská genetická diverzita v Afrike v porovnaní so zvyškom sveta


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Pozadie

Nárok…

Väčšina genetickej diverzity u ľudí je v Afrike

… je celkom bežné. Na stránke Biology.SE je ľahké nájsť príspevky, ktoré toto tvrdia. Zvážte napríklad:

Otázka

  • Je tvrdenie pravdivé?
  • Aký podiel celkovej genetickej diverzity je prítomný v Afrike?

Chápem, že pojem genetická diverzita sa často používa v nejasnom zmysle. Nezabudnite vysvetliť, aké štatistické údaje boli zohľadnené v štúdii, na ktorú by ste sa odvolávali pri odhadoch, aká časť genetickej diverzity sa nachádza v Afrike. Všimnite si, že sa nepýtam "prečo je to pravda?" ale len "je to pravda"?


Tu je strom založený na variáciách mitochondriálnej DNA v ľudských populáciách.

van Oven M, Kayser M. Hum Mutat. 2009 február;30(2):E386-94. Aktualizovaný komplexný fylogenetický strom globálnej variácie ľudskej mitochondriálnej DNA.

Keď sa pozrieme na genetickú vzdialenosť medzi populáciami prostredníctvom mitochondriálnej DNA, všetci neafričania pochádzajú od zakladateľa v jednej skupine mtDNA (L3). Všetky ostatné skupiny L sú africké populácie: L0 sú obyvatelia San, L1 sú trpaslíci Mbenga, L5 sú trpaslíci Mbuti a ostatné sú ostatné africké skupiny.

Ak sa domnievame, že každá haploskupina L predstavuje genetickú variáciu, potom 5/6 (83 %) ľudskej genetickej variácie pochádza z afrických populácií.

Z iného zdroja pohľad na genetiku inak Mapa variácií ľudského genómu zo sekvenovania v populačnej mierke Príroda. 28. októbra 2010; 467(7319): 1061-1073

Populácie s africkým pôvodom prispeli najväčším počtom variantov a obsahovali najvyšší podiel nových variantov, čo odráža väčšiu rozmanitosť afrických populácií. Napríklad 63% nových SNP v projekte s nízkym pokrytím a 76% v projekte exónu bolo objavených v afrických populáciách, v porovnaní s 20% a 33% v populáciách európskych predkov pre exón a projekty s nízkym pokrytím.


Našiel som dva články, ktoré o tom poskytujú nejaké informácie, ale bez definitívnej odpovede.

Konzorcium projektu 1000 genómov (2015) analyzovalo celé genómy a zistilo, že „28 % nových variantov“ sa našlo u afrických jedincov. Nové varianty boli väčšinou (> 99,9 %) jednonukleotidové polymorfizmy alebo krátke indely. Táto tabuľka má plný počet všetkých variantov. Avšak 26% genómov bolo Afričanov, zatiaľ čo Afričania tvoria ~16% svetovej populácie, takže tieto čísla nemožno extrapolovať na celý svet. Ďalším problémom je, že vzorky neboli odobraté od geograficky rozptýlených ľudí (obrázok 1).

Obrázok 1. Podiel genetických variácií zdieľaných v rôznych populáciách.

Dôkaz o väčšej africkej genetickej diverzite uvádza Stephens a kol. (2001), hoci sa pozerajú na Severoameričanov z rôznych etnických skupín, čo nie je ideálne. U Afroameričanov našli oveľa viac jedinečných SNP ako u iných etnických skupín.

Obrázok 2. SNP u Američanov rôznych etnických skupín. Kódy populácie sú AF, Afroameričan; AS, ázijský; CA, kaukazský; a HL, hispánsko-latino.

V literatúre sa mi nepodarilo nájsť tvrdenie, že väčšina ľudských genetických variácií existuje v Afrike, hoci Afrika sa vyznačuje vysokou genetickou diverzitou, napr. tu. Som si istý, že som toto tvrdenie počul aj mimo Stackexchange.

Môj prehľad literatúry rozhodne nie je vyčerpávajúci, takže ak by niekto ešte niečo našiel, pokojne to doplňte.


Dve nové štúdie, ktoré sú výsledkom projektu ľudského genómu, skúmali genetickú diverzitu viac ako 1000 jedincov z 51 populačných skupín na celom svete.6, 7 Rovnako ako v predchádzajúcich štúdiách boli národy Afriky geneticky najrozmanitejšie. Tieto štúdie však tiež určili, že tí z Blízkeho východu boli geneticky druhými najrozmanitejšími. ťažko interpretovateľné

http://www.godandscience.org/apologetics/humans_out_of_africa.html

Myslím, že to znamená, že Afrika obsahuje 150 000 – 500 000 000 rokov ľudského dedičstva v širokej základni populácie, zatiaľ čo základňa pre zvyšok sveta je užšia… to isté, ako keby ste mali 10 farieb mačiek v jednom výbehu a iba 3 farby mačiek sa presťahovalo do parku cez cestu a tam sa množilo.

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4067985/

V súlade s modelom moderného ľudského pôvodu „Out of Africa“ analýzy genetických údajov naznačujú, že Afričania majú vyššiu úroveň genetickej diverzity ako Neafričania (Cann a kol. 1987, 2002; Tishkoff a kol. 1998; Marth a kol. 2004).


Genomika a africké kráľovné: Rozmanitosť v etiópskych genómoch odhaľuje odtlačky historických udalostí

Výskumníci začali odhaľovať genetické dedičstvo etiópskych populácií, ktoré patria medzi najrozmanitejšie na svete a ležia pri bráne z Afriky. Zistili, že genómy niektorých etiópskych populácií majú nápadné podobnosti s genómami populácií v Izraeli a Sýrii, čo je potenciálne genetické dedičstvo kráľovnej zo Sáby a jej spoločníkov.

Tím zistil miešanie medzi niektorými Etiópčanmi a neafrickými populáciami, ktoré sa datujú približne pred 3 000 rokmi. Pôvod a dátum tejto genómovej prímesi spolu s predchádzajúcimi lingvistickými štúdiami sú v súlade s legendou o kráľovnej zo Sáby, ktorá podľa etiópskej knihy Kebra Nagast mala dieťa s kráľom Šalamúnom z Izraela a je spomenutá v Biblii aj koránu.

Etiópia sa nachádza v Africkom rohu a často bola považovaná za jednu z brán z Afriky do zvyšku sveta. Samotný etiópsky región má najdlhší fosílny záznam v histórii ľudstva kdekoľvek na svete. Štúdium populačnej genetiky v tejto rôznorodej oblasti by nám mohlo pomôcť pochopiť pôvod prvých ľudí.

"Z ich geografickej polohy je logické domnievať sa, že migrácia z Afriky pred 60 000 rokmi začala buď v Etiópii, alebo v Egypte. O populáciách obývajúcich región severovýchodnej Afriky z genomického hľadiska sa doteraz vedelo len málo. Toto je prvý genóm štúdia na reprezentatívnom paneli etiópskej populácie,“ vysvetľuje Luca Pagani, prvý autor z Wellcome Trust Sanger Institute a University of Cambridge. "Chceli sme porovnať genóm Etiópčanov s inými Afričanmi, aby sme poskytli základný kus africkej - a svetovej - genetickej skladačky."

Zistili, že etiópsky genóm nie je taký starý, ako sa predtým myslelo, a menej starý ako genómy niektorých juhoafrických populácií. Existovalo aj spojenie s inými obyvateľmi.

„Zistili sme, že niektorí Etiópčania majú 40 – 50 % svojho genómu bližšie ku genómom populácií mimo Afriky, zatiaľ čo zvyšná polovica ich genómu je bližšie k populáciám v rámci afrického kontinentu,“ hovorí Dr Toomas Kivisild, spoluautor z univerzite v Cambridge. "Vypočítali sme genetické vzdialenosti a zistili sme, že tieto neafrické oblasti genómu sú najbližšie k populáciám v Egypte, Izraeli a Sýrii, a nie k susedným Jemencom a Arabom."

Tím zistil, že tieto dve skupiny afrických a neafrických ľudí sa zmiešali približne pred 3000 rokmi, teda pred historicky zdokumentovanými islamskými expanziami a koloniálnym obdobím posledných storočí.

Skoršia štúdia zistila, že etiópsemitský jazyk, etiópsky jazyk patriaci do jazykovej rodiny, ktorou sa hovorí predovšetkým na Blízkom východe, sa oddelil od hlavnej semitskej skupiny pred 3 000 rokmi, približne v rovnakom čase, ako do Etiópie dorazila neafrická genomická zložka. Všetky tieto dôkazy spolu zodpovedajú dobe a miestam legendy o kráľovnej zo Sáby, ktorá opisuje stretnutie etiópskej kráľovnej a kráľa Šalamúna.

„Žiadny z týchto výskumov by nebol možný bez vynikajúcej terénnej práce našich etiópskych kolegov profesora Endashawa Bekeleho a Dr. Ayele Tarekegnovej počas mnohých rokov. pochopenie ľudskej evolúcie a rozvoja personalizovanej medicíny." hovorí Dr Neil Bradman, spoluautor z UCL (University College London). "Etiópska vláda má v praxi podporovať genetický výskum, politiku, ktorá je dobrým znamením pre budúcnosť."

„Náš výskum poskytuje pohľad na dôležité evolučné otázky,“ hovorí Dr Chris Tyler-Smith, spoluautor z Wellcome Trust Sanger Institute. "Vidíme odtlačky historických udalostí na vrchole oveľa dávnejších prehistorických udalostí, ktoré spolu vytvárajú región bohatej kultúry a genetickej rozmanitosti. Ďalším krokom nášho výskumu musí byť sekvenovanie celých genómov, a nie čítanie jednotlivých písmen oboch. Etiópčanom a ďalším, aby skutočne pochopili ľudský pôvod a migráciu mimo Afriku."


Afrika: svet rozmanitosti

Afrika je domovom značnej kultúrnej, jazykovej a genetickej rozmanitosti. V súčasnosti je v Afrike skutočne známych viac ako 2000 etno-lingvistických skupín. Väčšina jazykov, ktorými sa hovorí v Afrike, patrí do štyroch jazykových rodín: nigersko-kordofánčina, afroázijčina, nilosaharčina a khoisančina. Khoisanská lingvistická rodina zahŕňa veľmi rôznorodú skupinu jazykov, ktoré zdieľajú používanie klikacích spoluhlások, ktorými hovoria populácie lovcov a zberačov v južnej Afrike (označované ako „San“) a Hadza a Sandawe vo východnej Afrike. Navyše na celom africkom kontinente žijú populácie v rôznych prostrediach, od tropických dažďových pralesov až po púšte, a praktizujú rôzne stratégie obživy, ako je poľnohospodárstvo, pastierstvo a niektoré formy lovu a zberu.

Napriek významnej úlohe, ktorú Afrika zohrávala v ľudskom pôvode, minulé snahy o sekvenovanie nedostatočne zachytili vysokú úroveň rozmanitosti, ktorá existuje v afrických populáciách. Napríklad projekt 1000 genómov [3] sekvenoval pri nízkom pokrytí genómy viac ako 1 000 v súčasnosti žijúcich ľudí vrátane jedincov z piatich pôvodných afrických populácií z Nigérie, Gambie, Sierry Leone a Kene. Zatiaľ čo poskytuje neuveriteľný zdroj na skúmanie genetických variácií v globálnom meradle, oveľa komplexnejší odber vzoriek genetických variácií v Afrike je nevyhnutný na pochopenie našej minulosti.

Na tento účel dve nové štúdie [4, 5] analyzovali novo vygenerované sekvencie celého genómu od 52 afrických jedincov, ktoré zahŕňajú širokú škálu etnických, kultúrnych a jazykových skupín, ako aj populácií praktizujúcich celý rad stratégií obživy. Obe štúdie zistili, že geografická vzdialenosť a jazyková príslušnosť zohrávajú hlavnú úlohu pri formovaní vzorcov štruktúry populácie [6]. Populácie lovcov a zberačov v južnej Afrike, ako napríklad Khoisan, a v stredoafrickom dažďovom pralese dnes predstavujú najrozmanitejšie ľudské populácie na svete. Spomedzi nich majú Khoisan najrozdielnejšie línie a predstavujú základnú skupinu pre všetkých žijúcich ľudí. Nedávna štúdia založená na starých genómoch odvodených z 2000-ročných pozostatkov juhoafrických lovcov a zberačov naznačuje, že rozdiely medzi predkami súčasných skupín Khoisan a inými populáciami sa mohli vyskytnúť už v rokoch 260 – 350 kya. 7].

Obe štúdie tiež zachytili podpisy niektorých hlavných udalostí rozptýlenia, ktoré formovali históriu africkej populácie. Zdá sa, že v krajine genetických variácií vo väčšine populácií subsaharskej Afriky dominujú stopy takzvanej „bantuskej expanzie“. Táto migrácia bantusky hovoriacich poľnohospodárov (jazyková rodina nigersko-kordofanských) vznikla okolo 4 kya v západnej a strednej Afrike a postupne sa rozšírila po celej subsaharskej Afrike. V priebehu ich rozptýlenia sa bantusky hovoriace skupiny primiešali k miestnym populáciám lovcov a zberačov, s ktorými sa stretli, v rôznej miere a v niektorých regiónoch ich úplne nahradili [8]. Pôvod príbuzný Bantu sa nachádza aj v niekoľkých súčasných populáciách Khoisanov a lovcov a zberačov v stredoafrických dažďových pralesoch.

Genetická diverzita v afrických populáciách bola tiež ovplyvnená migráciou „späť do Afriky“, ktorá priniesla gény z Eurázie späť na africký kontinent. V dôsledku toho severoafrické populácie, zastúpené v týchto dvoch štúdiách Mozabitmi, Saharawi a Líbyjčanmi (ktorí všetci hovoria afroázijskými jazykmi), vykazujú genetickú príbuznosť s euroázijskými populáciami. Podobne, podpisy nedávneho toku génov s euroázijskými populáciami sa našli aj vo východnej Afrike. Ďalej sa navrhlo, že následné južné rozšírenie populácií z východnej Afriky mohlo priniesť východoafrický alebo euroázijský pôvod do južnej Afriky, podpisy tejto demografickej udalosti pretrvávajú v genómoch súčasných khoisanských populácií.


Genetické variácie medzi svetovými populáciami: závery zo 100 polymorfizmov inzercie Alu

Skúmame distribúciu a štruktúru ľudskej genetickej diverzity pre 710 jedincov reprezentujúcich 31 populácií z Afriky, východnej Ázie, Európy a Indie pomocou 100 polymorfizmov inzercie Alu zo všetkých 22 autozómov. Diverzita hliníka je najvyššia u Afričanov (0,349) a najnižšia u Európanov (0,297). Frekvencia vkladania hliníka je najnižšia u Afričanov (0,463) a vyššia u Indov (0,544), E. Ázijcov (0,557) a Európanov (0,559). Medzi africkými populáciami a medzi africkými a neafrickými populáciami sú pozorované veľké genetické vzdialenosti. Koreň susednej siete sa nachádza najbližšie k africkým populáciám. Tieto zistenia sú v súlade s africkým pôvodom moderných ľudí a s efektom úzkeho miesta v ľudskej populácii, ktorá opustila Afriku, aby kolonizovala zvyšok sveta. Genetické vzdialenosti medzi všetkými pármi populácií vykazujú významnú koreláciu medzi produktom a momentom s geografickými vzdialenosťami (r = 0,69, P < 0,00001). F(ST), podiel genetickej diverzity, ktorý možno pripísať rozdeleniu populácie, je 0,141 pre Afričanov/E. Ázijci/Európania, 0,047 pre E. Ázijcov/Indov/Európanov a 0,090 pre všetkých 31 populácií. Analýzy opätovného odberu vzoriek ukazujú, že približne 50 polymorfizmov Alu je dostatočných na získanie presných a spoľahlivých odhadov genetickej vzdialenosti. Tieto analýzy tiež ukazujú, že markery s vyššími hodnotami F(ST) majú väčšiu rozlišovaciu schopnosť a vytvárajú konzistentnejšie odhady genetickej vzdialenosti.

Figúrky

Mapa s miestami…

Mapa zobrazujúca umiestnenie 31 populácií odobratých v štúdii.

Kumulatívne rozdelenie P…

Kumulatívne rozdelenie P -hodnoty merajúce významnosť odchýlky od Hardyho-Weinbergovho očakávania.…

Susedná sieť na…

Susedná sieť na báze 100 Alu inzerčné polymorfizmy. Sieť…


Moderná ľudská diverzita – genetika

Ľudia dnes vyzerajú navonok pozoruhodne rôznorodo. Koľko z tejto rozmanitosti je však geneticky zakódované? Aké hlboké sú tieto rozdiely medzi ľudskými skupinami? Po prvé, v porovnaní s mnohými inými druhmi cicavcov sú ľudia geneticky oveľa menej rôznorodí – čo je kontraintuitívne zistenie vzhľadom na našu veľkú populáciu a celosvetovú distribúciu. Napríklad poddruh šimpanza, ktorý žije práve v strednej Afrike, Pan troglodytes troglodytesmá vyššiu úroveň diverzity ako ľudia na celom svete a genetickú diferenciáciu medzi západnými (P. t. verus) a centrálny (P. t. troglodytov) poddruhov šimpanzov je oveľa väčší ako medzi ľudskými populáciami.

Skoré štúdie ľudskej diverzity ukázali, že väčšina genetickej diverzity bola zistená skôr medzi jednotlivcami ako medzi populáciami alebo kontinentmi a že variácie v ľudskej diverzite sa najlepšie dajú opísať geografickými gradientmi alebo líniami. Rozsiahla štúdia publikovaná v roku 2004 zistila, že 87,6 % celkovej genetickej diverzity moderného človeka pripadá na rozdiely medzi jednotlivcami a iba 9,2 % medzi kontinentmi. Vo všeobecnosti sa 5–15 % genetických variácií vyskytuje medzi veľkými skupinami žijúcimi na rôznych kontinentoch, pričom zvyšná väčšina variácií sa vyskytuje v rámci takýchto skupín (Lewontin 1972, Jorde a kol. 2000a Hinds a kol. 2005). Tieto výsledky ukazujú, že keď sú jednotlivci odoberaní z celého sveta, videný vzor je taký nie záležitosť diskrétnych zhlukov – ale skôr gradientov v genetických variáciách (postupné geografické variácie vo frekvenciách alel), ktoré sa rozprestierajú po celom svete. Preto nie je dôvod predpokladať, že medzi ľuďmi na rôznych kontinentoch alebo „rasách“ existujú veľké genetické diskontinuity. Autori štúdie z roku 2004 tvrdia, že „nevidia dôvod predpokladať, že „rasy“ predstavujú nejaké jednotky relevantné pre pochopenie ľudskej genetickej histórie. Výnimkou môžu byť gény, kde v rôznych geografických oblastiach pôsobili rôzne selekčné režimy. Avšak aj v týchto prípadoch pozorované genetické diskontinuity vo všeobecnosti nie sú „rasovej“ alebo kontinentálnej povahy, ale závisia od historických a kultúrnych faktorov, ktoré sú viac lokálnej povahy“ (Serre a Pääbo 2004: 1683-1684).


Diskusia

Táto komplexná rozsiahla štúdia populačnej stratifikácie obyvateľstva SAE odhaľuje podrobnú štruktúru populácií, ktoré obývajú juhovýchodný roh Arabského polostrova. Štúdia konkrétne odhaľuje súvislú genotypovú krajinu, ktorá sa vyznačuje postupným primiešavaním, bez vytvárania tradičných zhlukov v matematickom zmysle. Je to spôsobené nízkymi hodnotami separácie SAE vzhľadom na svetovú populáciu. Rovnaký efekt platí pre jednotlivé emiráty, ktoré vykazujú rozdiely v rámci populácie takmer také vysoké ako rozdiely medzi jednotlivými populáciami (hodnoty kompaktnosti sa dosahujú blízko 1,0). Ak by existovali jasné zreteľné zhluky, odrazilo by sa to vo vyšších koeficientoch zhlukov s vysokou separáciou a nízkou heterogenitou v rámci klastrov—napríklad v Oceánii alebo Native America (obe 1,38). Vplyv príslušných vplyvov Stredného východu, Strednej/Juhoázijskej Ázie a Afriky možno oceniť na obrázku 1. Iní navrhli dočasný koncept súvislej genotypovej krajiny v populáciách na Blízkom východe. Napríklad Haber a kol. (2017) sekvenovali a porovnali päť starých � 000-ročných jedincov z mesta Sidon a 99 jedincov zo súčasného Libanonu. Štúdia opisuje kontinuitu kanaánskej populácie, etnickej skupiny regiónu Levant, od pobrežia až po vnútrozemské populácie dnešného Jordánska. Kanaánsky genofond údajne vznikol prímesou medzi miestnymi neolitickými populáciami a prisťahovalcami z východných extrémov Blízkeho východu, na území dnešného Iránu.

Postupné primiešavanie, ktoré sa tu pozorovalo v štúdii SAE, však bolo vylepšené novým vizualizačným nástrojom, ktorý graficky kombinuje informácie o prímesi vo forme koláčového grafu s PCA. Použitie analýzy PCA aj prímesí sa bežne používa napríklad v indickej štúdii ukazujúcej genetický vplyv z Afriky (Narang et al., 2011) a obrázok 1 kombinuje tieto dve tradične oddelené funkcie. Formát obrázku tiež zmierňuje potenciálne skreslenie projekcie tým, že koláčové grafy si okrem prvých dvoch hlavných komponentov zachovávajú aj informácie o rozsahu prímesí a populáciách, ktorých sa to týka.

Všeobecné výsledky sa dobre porovnávajú s predchádzajúcimi štúdiami z regiónu, konkrétne z Kataru (Omberg et al., 2012 Fakhro et al., 2016) a Kuvajtu (Alsmadi et al., 2014 John et al., 2015), ktoré odhalili celkovú zhodu keďže všetky tri populácie vykazujú rôznorodú, zmiešanú populáciu, umiestnenú podobne ako ostatné svetové populácie. Okrem toho predchádzajúce analýzy populácií Arabského polostrova od Huntera-Zincka a kol. (2010) a Alsmadi a kol. (2013) našli tri odlišné primárne skupiny predkov, beduínov, Peržanov zo strednej a južnej Ázie a Afričanov (Omberg et al., 2012). Prevládajúcim kmeňom predkov sú beduíni zo Stredného východu (obrázok 2), ľudia pochádzajúci z populácie, ktorá sa vytvorila na Arabskom polostrove. Táto štúdia však nepotvrdzuje predstavu troch zhlukov v matematickom zmysle, ako je vidieť v iných štúdiách. Namiesto toho sa pozorovalo súvislé spektrum distribúcie genotypov (obrázky 1, 4). Príklad na obrázku 1 ukazuje miernu medzeru pod jedným jednotlivcom zo SAE so silným vplyvom zo subsaharskej Afriky. Bežná PCA by viedla k zavádzajúcemu záveru, že iba vzorky nad medzerou tvoria zhluk. Ako však ukazujú koláčové grafy prímesí v grafe, vzorky pod medzerou majú silnú subsaharskú africkú zložku. Preto tvrdíme, že zhlukovanie v tomto type analýzy je pravdepodobnejšie výsledkom nedostatočného odberu vzoriek, než skutočnej stratifikácie. Toto zistenie potvrdzujú kontinuálne gradienty príspevkov predkov, čo naznačuje, že k prímesi pozdĺž východného pobrežia a juhovýchodného cípu Arabského polostrova dochádzalo postupne a bez silných hraníc sociálnej stratifikácie. Spojené arabské emiráty sú relatívne mladým národom, ktorý 2. decembra 1971 vytvorila federácia pozostávajúca zo siedmich emirátov. Rozmanitosť súčasnej populácie Spojených arabských emirátov vznikla v priebehu generácií pred vytýčením súčasných politických hraníc. Aby sa to potvrdilo, štúdia tiež skúmala prímes s ohľadom na miesto narodenia v SAE. Tu skúmané vzorky boli zozbierané zo všetkých siedmich emirátov. Neexistovala jasná korelácia medzi miestom narodenia v SAE a pôvodom predkov.

Pozorovali sme len veľmi jemné stratifikačné efekty a prímesy, napríklad jedinci so podstatnou subsaharskou zložkou sa narodili takmer vo všetkých siedmich emirátoch SAE. Zistilo sa, že to je v súlade s vopred vytvorenými výsledkami analýzy AMOVA (tabuľka 1).

Rozmanitosť pozorovaná v súčasnej populácii SAE mohla vzniknúť dvoma možnými spôsobmi. Všeobecne zaužívané chápanie ľudí vo svete má svoj pôvod v subsaharskej Afrike, migruje na sever, prechádza na Arabský polostrov a šíri sa na východ cez Áziu cez Beringov prieliv, ktorý teraz oddeľuje Rusko od Aljašky, po ktorej nasleduje kolonizácia severu. a následne aj juhoamerický kontinent (Nielsen et al., 2017). Súčasná populačná krajina v Spojených arabských emirátoch mohla vzniknúť z príspevku populácií predkov, ktoré už boli rôznorodé v čase prisťahovalectva z Afriky. Najstaršie a pravdepodobne najrozmanitejšie populácie by žili v severnej Afrike, na Strednom východe (Arabský polostrov a oblasti Levantín), strednej a južnej Ázii, z ktorých dve susedia so subsaharskou Afrikou. Tri najdominantnejšie genetické príspevky do SAE (obrázok 3) a menšie príspevky pochádzajú z týchto štyroch oblastí (obrázok 4).

Alternatívne, rozptýlená distribúcia subjektov zo SAE, keď sa zvažuje v súlade s pôvodovým zložením, ukazuje, že súčasné obyvateľstvo krajiny bolo historicky ovplyvnené populáciami z okolitých regiónov (obrázok 5). Všeobecne sa verí, že moderní ľudia, ktorí migrovali z Afriky, tak urobili asi pred 85 000 rokmi (Cann a kol., 1987 Forster, 2004 Kundu a Ghosh, 2015), keď cestovali pozdĺž južného pobrežia Ázie cez Arabský polostrov. V nedávnej dobe sa dominantnou skupinou stali beduíni, populácia siahajúca najmenej do roku 850 pred Kristom (Marx, 1967 Cavalli-Sforza a kol., 1988 Mohammad a kol., 2009 Hunter-Zinck a kol., 2010 ). Sú to kočovné arabské národy Blízkeho východu žijúce v púšti. Tradične žili v stanoch a pohybovali sa so svojimi stádami po rozsiahlych oblastiach vyprahnutej pôdy pri hľadaní pastvín a vody. Boli to tiež obchodníci, ktorí uvalili dane na obchodné karavány, vyberali tribúty z nebeduínskych osád a prepravovali tovar a ľudí v karavanoch cez cesty, ktoré im boli známe. Keď sa pohybovali po Arabskom polostrove, ich cesty ich zaviedli na nebeduínske základne susediace alebo v rámci regiónu Levant, ako aj Strednej Ázie alebo Perzie. Podľa tu prezentovaných údajov došlo k interakcii so severnou Afrikou, ale v menšom rozsahu (pozri obrázok 1). Pozdĺž južného pobrežia Arabského polostrova vrátane oblasti na juhovýchodnom cípe, ktoré zahŕňa SAE, došlo k migrácii cez Arabský záliv do južnej Ázie a tam, kde sa Červené more a Adenský záliv stretávajú do Afriky. Rozmanitosť je potenciálne funkciou tohto migračného modelu, keď sa národy týchto regiónov presúvali tam a späť medzi africkým a ázijským kontinentom. Ako už bolo spomenuté, v západných častiach Indie existujú africké vplyvy (Narang et al., 2011). Okrem toho nedávne hodnotenie diverzity celého genómu Markanis, populácie, ktorá teraz žije na pobreží Arabského zálivu v Pakistane, potvrdilo interakciu medzi ľuďmi hovoriacimi Bantu z východnej alebo juhovýchodnej Afriky a kmeňmi Balush v Ázii, ku ktorým došlo v r. nedávno ako námorný obchod ovládaný Ománskou ríšou (Laso-Jadart et al., 2017). Vzor prímesí je ovplyvnený tým, čo sa najlepšie popisuje ako efekt “merry-go-round”, pri ktorom by beduíni interagovali s ľuďmi zo susedných populácií, keď prichádzali a odchádzali z osád v rámci a priľahlých k nemu. Arabský polostrov. Rozptýlená povaha populácie zastúpená v grafe PCA, ktorý je na obrázku 1, naznačuje, že k prímesi v regióne dochádzalo počas dlhšieho časového obdobia alebo alternatívne, diverzita bola zavedená už počas primárnych imigračných udalostí a zostala.

Emirátska populácia je tak menej stratifikovaná, ako by sa očakávalo podľa Kuvajťanov (Alsmadi et al., 2013, 2014 John et al., 2015 Thareja et al., 2015) a Kataru (Omberg et al., 2012 Fakhro et al., 2016) štúdie. Treba poznamenať, že štúdia SAE je porovnateľne väčšia, a teda menej náchylná na výberové skreslenie. Je tiež pozoruhodné, že severoafrický príspevok do genofondu SAE je veľmi obmedzený, na rozdiel od vplyvov zo strednej/južnej Ázie a subsaharskej Afriky. Vzorky SAE, ktoré sa objavujú vedľa vzoriek zo severnej Afriky na obrázku 1, sú často zložené z rôznych hlavných komponentov, čo je aspekt, ktorý by nebolo možné odvodiť z bežných PCA grafov. Bez pomerov prímesí prezentovaných ako koláčové grafy by sa tieto vzorky považovali za severoafrické a mohli by sa stretnúť s negatívnymi následkami, ak by sa podrobili diagnostike a/alebo liečbe založenej na tejto nesprávnej kategorizácii.

Ďalším dôležitým výsledkom genotypizácie je poskytnutie alelových frekvencií pre 2,3 milióna variantných lokusov. Táto štúdia, ktorá je doteraz štatisticky podhodnotená, predstavuje včasné úsilie a štatisticky významný odhad odvodený z viac ako 1000 nezávislých náhodných vzoriek. Všimnite si, že databázy ako ExAC a gnomAD (Lek et al., 2016) neposkytujú tento typ informácií z dôvodu nedostatku arabských a SAE špecifických snáh o odber vzoriek. Databáza GME poskytuje akumulované frekvencie alel iba pre “GME”, región, ktorý sa rozprestiera od severnej Afriky od Maroka po južnú Áziu až po súčasný Pakistan. Súbor údajov GME (Scott et al., 2016) ako taký pochádza z vplyvu najmenej 19 etnických skupín, o ktorých je známe, že žijú v tomto širšom regióne. Štúdia prezentovaná v tomto dokumente uznáva, že ocenenie etnicky špecifických rozdielov môže zase poskytnúť pohľad na varianty súvisiace s chorobami špecifickými pre subpopuláciu, čo je úsilie, ktoré zostáva nepolapiteľné.

Kombináciou štatistickej sily z genotypizácie poľa pre 1 000 vzoriek a vysokého pokrytia WGS pre štyroch zástupcov poskytujú údaje v tejto štúdii bohatú základňu pre budúce genomické štúdie v SAE a na Arabskom polostrove, ktoré sa ešte musia študovať. Táto analýza vytvorila referenčný zber údajov, ktorý má šírku a hĺbku. Veľký súbor komplexných genotypových polí nielenže uľahčil mapovanie miestnej genetickej krajiny v globálnom kontexte v rámci hlavných svetových populácií, ale poskytol aj bohatý súbor frekvencií alel špecifických pre danú krajinu. Na druhej strane, štyri genómy budú fungovať ako vhodnejšia referencia pre ďalší “n + 1” miestne sekvenčné úsilie. Aj keď je daná populácia malá, výber vhodnej referencie nie je pre svoju rôznorodosť triviálnym počinom. Aspoň jeden z genómov je však pravdepodobne vhodnejší ako konvenčné referenčné genómy (hg19, GRCh38), pokiaľ ide o percento mapovania čítania a volanie variantov.


Genetická diverzita v Afrike je väčšia ako v ktoromkoľvek inom regióne na svete

Pri pohľade na podskupinu HIV-pozitívnych detí z Botswany medzinárodný tím výskumníkov pod vedením vedcov z Baylor College of Medicine charakterizoval genetické variácie populácie a získal prehľad o genetických variáciách, ktoré môžu byť dôležité pre progresiu ochorenia.

Foto Artem Bali na Unsplash

"Naša štúdia, jedna z prvých populačných genomických štúdií založených na údajoch medzi africkými populáciami, zistila významnú diverzitu v genetickom zložení populácie z južného regiónu afrického kontinentu," povedal Dr. Neil Hanchard, odborný asistent molekulárnej a ľudskej genetiky v Baylor. "Táto štúdia dokazuje potrebu lepšie zvládnuť genómové zloženie kontinentu a jeho jednotlivých krajín, pretože táto populácia je len špičkou ľadovca."

Porovnanie údajov o sekvenovaní celého exómu zo 164 Batswany a 150 podobne sekvenovaných HIV pozitívnych ugandských detí odhalilo, že 13 až 25 percent variácií pozorovaných medzi Batswanou nebolo predtým zachytených alebo zaznamenaných vo verejných databázach.

Hancharda a výskumný tím prekvapilo množstvo nezdokumentovaných informácií, ktoré našli, čo viedlo k dvom kľúčovým záverom štúdie.

"Po prvé, táto štúdia demonštruje šírku variácií na celom kontinente, ktorá je tiež pozorovaná vo viac ako jednom konkrétnom regióne - stále viac a viac variácií sa objavuje, keď sa pozeráme na iné populácie a skupiny," povedal Hanchard. "Po druhé, prostredníctvom tohto výskumu sme si viac vážili výzvy a príležitosti, ktoré prináša genomický výskum v Afrike."

Nielenže sa zistilo, že Batswana sú geneticky jedinečné, ale medzi touto skupinou sú aj vyššie úrovne podobnosti, ktoré nie sú viditeľné v iných populáciách. To môže uľahčiť mapovanie génov súvisiacich s HIV v tejto populácii.

"Genetická štruktúra subkultúr v južnej Afrike je veľmi zložitá a rôznorodá, čo jasne ukazuje, že sa nemôžeme spoliehať len na jednotlivé malé vzorky etnických, kmeňových alebo jazykových skupín, aby sme kategorizovali také rôznorodé populácie alebo spoľahlivo informovali o dizajne štúdie," povedal Hanchard.

Africké populácie sú vo veľkej miere nedostatočne zastúpené v genetickom výskume, no čelia zvýšenej záťaži chorobami. Characterizing genome variation across communities will provide a greater understanding of population movement and shape the future genomic studies on the continent,” Hanchard said.

“The genetic diversity in Africa is greater than in any other region in the world, and accurate mapping and identification of new disease loci can be confounded without an appropriate understanding of this diversity. This is the first study that has examined genome structure in the Batswana and will be invaluable to future efforts to understand the genetic basis of human disease,” said Dr. Graeme Mardon, James R. Davis Chair in Pathology and professor of pathology and immunology and member of the Dan L Duncan Comprehensive Cancer Center at Baylor.

This study is the result of a unique collaborative effort sponsored by the National Institutes of Health and the Wellcome Trust in the UK to bring genomics to Africa. The research was conducted by trainees from Uganda and Botswana who spent two years at Baylor analyzing the data and learning genomics and involved a close collaboration with academic health science centers and universities in Uganda and Botswana, where the grant is centered.

Learn all the details of this study in the American Journal of Human Genetics.

This work was funded by the National Institutes of Health and the Center for Globalization at Baylor. See a full list of authors and their affiliations.


Výsledky

A Genomic Portrait across Two Continents

Our results allow us to trace a detailed view of the genomic composition of the western Mediterranean human metapopulation at the crossroads between Europe and Africa. Local ancestry inference analysis based on large-scale SNP data (1.9 million variants, see Database 1A) showed a significant (P < 0.001) differential contribution of the sub-Saharan African ancestral panel among southern Iberian subpopulations (see supplementary table S1 , Supplementary Material online). RFMix highlighted southern Portugal as the main Iberian target for African (using Yoruban, YRI, as the African proxy) gene input (mean value= 2.09 ± 0.71%) followed by southwestern Andalusians (Huelva) (1.21 ± 0.53%), while this influence was comparatively weaker (0.94 ± 0.28%) in Granada Andalusians. The presence and extent of African signatures in western Andalusia is in accordance with other previous data drawn from the analysis of mtDNA markers based on the same sample set ( Hernández et al. 2015).

As expected, the impact of the sub-Saharan ancestral gene pool on Moroccan Berber genomes is by far stronger than that found in southern Iberians, 13.80 ± 3.41% versus 1.41 ± 0.72%, respectively. Figuig Berbers showed the highest proportion (14.02 ± 1.27%), although differences among Berber populations were not significant. Coudray et al. (2009) and Hernández et al. (2015) showed an increased representation of sub-Saharan mtDNA haplogroups in Figuig Berbers (i.e., high prevalence of L-derived lineages).

Figure 1 presents the African haplotype contribution along chromosomes in representative individuals drawn from the sampled western Mediterranean individuals. The mean number of DNA segments related to sub-Saharan ancestry per sample in southern Iberians is 75.76 with an average size of 2.54 ± 3.14 cM. In Moroccan Berbers, the mean number of segments is 296.97, being the average size 3.26 ± 3.66 cM.

RFMix inferred karyograms in the analyzed populations from southern Iberia and northwestern Africa (Morocco). A representative individual is shown for each population harboring average values of ancestral proportions for both reference panels YRI and CEU.

RFMix inferred karyograms in the analyzed populations from southern Iberia and northwestern Africa (Morocco). A representative individual is shown for each population harboring average values of ancestral proportions for both reference panels YRI and CEU.

Moving forward into a European–Mediterranean landscape ( fig. 2A), the principal component analysis (PCA) in figure 2B illustrates the structure of human populations settled along the N–S and E–W axes of the continents. The first principal component (PC1) absorbed a major variance (76.4%) and separated sub-Saharan individuals (indicated in different shades of purple) from European, Near Easterner, and North African people. Concordant with PC2 (6.9%), European samples confined in the upper left quadrant II of the plot are distributed along a latitudinal axis, with Finns at the top and Iberians plus Italians at the bottom. The N–S directionality in the genetic patterns of variation resembles the close correlation between genetic and geographic positions of populations observed elsewhere (e.g., the case of Europe, Novembre and Ramachandran 2011). Southwestern Iberian individuals (present study) appear slightly displaced from the core of the Iberian samples (excepting some Spanish Basques) toward the positive values of PC1 (quadrant IV). North African clusters are farther from one another than Europeans, whereas Near-Easterners (in green) are positioned between Europeans and North Africans. The PCA also revealed an apparent absence of a longitudinal population structure along the North African fringe. Convergent on SNP data, some North African samples display an interesting proximity to sub-Saharan people, indicating scenarios of differential admixture.

Overview of the genetic structure and global ancestry inference in a selection of European, Near Eastern, and African populations. (A) Countries represented in the database built for comparative analyses. The location of western Mediterranean samples studied here is highlighted in the map with symbols. (B) Principal components analysis (PCA). (C) ADMIXTURE plot for K = 5 ancestral clusters in the populations ordered by geographic affiliation. Both in (B) and (C), the populations genotyped in the present study are marked in bold blue face.

Overview of the genetic structure and global ancestry inference in a selection of European, Near Eastern, and African populations. (A) Countries represented in the database built for comparative analyses. The location of western Mediterranean samples studied here is highlighted in the map with symbols. (B) Principal components analysis (PCA). (C) ADMIXTURE plot for K = 5 ancestral clusters in the populations ordered by geographic affiliation. Both in (B) and (C), the populations genotyped in the present study are marked in bold blue face.

Model-based clustering analyses (ADMIXTURE) were performed at different K levels (2–11) (see fig. 3). The best-fitting ADMIXTURE model (minimum CV= 0.5115) contains K = 5 ancestral source populations ( fig. 2C), and they are represented as “northern” and “southern” European (blue), Near Eastern (in green), North African (in ochre), and sub-Saharan (in purple) ancestries. North African people showed a variable mixture fraction of its own genome with the Near East, southern Europe, and the south of Sahara, with Berbers containing a high proportion of the North African component. Interestingly, the genetic influence of the Near East on Libyan and Egyptian genomes is noticeable. This pattern contrasts with that found in the Maghreb (western North Africa), where that influence is more reduced and comparable to that recorded from western Europe. The observed pattern seems to disagree with conclusions from Arauna et al. (2017), who stated that all of northern Africa is mixed with the Near East.

Ancestry proportions for ADMIXTURE analysis with a variable number of ancestral clusters (K = 2–11). See references and details on populations in supplementary table S8 , Supplementary Material online. Population samples analyzed in the present study are highlighted in blue bold face. Best-fitting model is K = 5.

Ancestry proportions for ADMIXTURE analysis with a variable number of ancestral clusters (K = 2–11). See references and details on populations in supplementary table S8 , Supplementary Material online. Population samples analyzed in the present study are highlighted in blue bold face. Best-fitting model is K = 5.

The average ancestry proportions based on ADMIXTURE analysis K = 5 are presented graphically in supplementary figure S1 , Supplementary Material online and numerically in supplementary table S2 , Supplementary Material online. Within the Iberian Peninsula, the admixture proportion of North African ancestry in southern Portugal samples was 11.17 ± 1.87%, similar to the values observed in Galicia (10.30 ± 1.64%) and western Andalusia (present study, 9.28 ± 1.79%). The Canary Islands (not selected here) exhibit extreme values of the inferred Maghrebi cluster (26%) ( Guillen-Guio et al. 2018). Asni Berbers carry the highest proportion of the native Maghrebi ancestral cluster (82.74 ± 8.36%) with respect to the other Moroccan samples.

The correlation between ancestry components and geography for K = 5 was further explored ( supplementary fig. S2 , Supplementary Material online). We found a positive and significant correlation between latitude and the two European inferred ancestral clusters (Pearson coefficient= 0.652, P = 3.96×10 −5 and Pearson= 0.649, P = 4.38×10 −5 , respectively), whereas the sub-Saharan global sample showed a negative strong correlation (Pearson= −0.905, P = 5.25×10 −13 ). By contrast, the longitude yielded a positive significant correlation (Pearson= 0.633, P = 7.60×10 −5 ) when considering the Near East ancestral proportion. Supplementary figure S3 , Supplementary Material online, shows pairwise FST genetic distances estimated between populations with the heatmap depicting a clear division between sub-Saharan populations and the rest of the analyzed samples. The observed results are in close agreement with the genetic PCA findings analyzed above.

The increase in K ancestral sources leads to more complex patterns, suggesting the presence of microgeographic diversity in specific territories. The ADMIXTURE model for K = 11 yielded a CV value (0.5139) similar to that found for K = 5 (0.5115). The former plot permits subdividing continental groups into finer details. The European block makes clear that a specific Iberian cluster arose (in light blue color) with overrepresentation in French and Spanish Basques and a differential weight in the other Iberian populations. This cluster probably represents a signature of the descendants of people living there during the Last Glacial Maximum (LGM). Finns are fairly distinguished by a deep blue color that is almost absent in Iberians, while an intermediate blue denotes the rest of western Europeans. Non-Basque Iberians present relatively similar admixture proportions of North Africa, eastern Mediterranean’s, and Near East ancestry. The Near East appears subdivided into three groups: Druzes (in light green), Bedouins (in pale green), and Palestinians (in dark green). The genetic impact of Palestinians on the Iberian people is remarkable when compared with the other Levantine groups. According to the geographic position of Italy in the central Mediterranean, the sample analyzed here harbors a greater ancestry fraction from the Near East. In the case of North Africans, characterized by varying shades of ochre, the model permits us to distinguish Mozabite Berbers (light ochre), Tunisian Berbers (Chenini) (intermediate ochre), and Moroccan Berbers (dark ochre). The latter is the northern African component more predominant in Iberia. Sub-Saharan from western Africa and the two emerging groups (Senegalese and Nigerians) used in the present work are weakly represented in Iberia.

Migration Events and Admixture Processes Shaping the Genomic Diversity and Population Structure in the Western Mediterranean

Next, populations were deconstructed to organize samples in genetically homogeneous clusters using a ChromoPainter–fineSTRUCTURE pipeline. The coancestry heatmap is depicted in supplementary figure S4 , Supplementary Material online, and the processed tree is shown in supplementary figure S5 , Supplementary Material online. The tree structure clearly correlates with the geographic adscription of individuals contained therein, as has been evidenced in previous, recent surveys (see Leslie et al. 2015 Gilbert et al. 2017). On a coarser scale and on a global perspective, four large clusters emerge: the first is defined by a deep sub-Saharan group, a second split separating Europeans of North Africans and Near Easterners, and a third branching pattern differentiating the latter two groups shape the whole tree. On a finer level of analysis (N = 41 clusters), western Mediterranean individuals are embedded in five North African and four Iberian clusters (see supplementary table S3 and fig. S5 , Supplementary Material online). When considering Iberians as a whole and their close neighbors, three groups are detected. The first group comprises the Basques, with the C17BAS1 and C18BAS2 subclusters. The former is composed of Basques from Spain and other few Iberian non-Basque individuals, whereas the latter consists of Basques from France. Both Basque groupings appear distant from most Iberian non-Basques. Western Iberians from southern Portugal, Galicia, and other Andalusian samples compose the other Iberian cluster (C29IBE3). The remaining Iberian samples comprise the third cluster C23WAND, which gathers the bulk of western Andalusians.

Finns are differentiated from the rest of Europeans, and most Italians are grouped together, although some of them either group with some French groups or are near the western Iberian cluster (C29IBE3). British and CEU samples show a relative affinity with the Basque group. Near Eastern samples are completely differentiated from those from North Africans with the exceptions of most Egyptians and a few Libyans and Bedouins. Egyptians and Eastern Libyans are populations closer to the Near East than to the Maghreb. This could be mainly due in part to the barrier of the Libyan Desert. Most Berbers are placed in different clusters: C9TUN, C15MOZ, and C10MOR, probably reflecting a clear Berber population structure associated with the old kingdoms and contemporary nations in the region.

Clusters built with fineSTRUCTURE were subsequently used for reconstructing past admixture events using GLOBETROTTER and the results are presented in figure 4 and supplementary table S4 , Supplementary Material online. When considering North Africans as recipients, the most probable donors were Iberian and Italian Peninsulas. In order to minimize an underestimation of inferred European contribution due to some Iberian regions having in themselves North African input, we tested several Iberian (C23WAND/C24IBE1/C25AND/C29IBE3) and one Italian (C22ITA1) donor clusters to explore the dichotomy between these two European sources into North Africa (see supplementary table S4 A a B, Supplementary Material online).

GLOBETROTTER results. (A) Surrogates for the Iberian recipient clusters. (B) Surrogates for the North African recipient clusters. (C) Admixture proportions inferred from a nonnegative least squares approach. (D) GLOBETROTTER results for each cluster. Black points show the mean admixture dates (calculated as 2,000−25×generation time). Barplot colors show the source populations that contributed to the admixture (see A a B). Bar width represents the bootstrap 100% CI. Best sources are indicated in the left.

GLOBETROTTER results. (A) Surrogates for the Iberian recipient clusters. (B) Surrogates for the North African recipient clusters. (C) Admixture proportions inferred from a nonnegative least squares approach. (D) GLOBETROTTER results for each cluster. Black points show the mean admixture dates (calculated as 2,000−25×generation time). Barplot colors show the source populations that contributed to the admixture (see A a B). Bar width represents the bootstrap 100% CI. Best sources are indicated in the left.

Admixture events inferred were defined by two population sources (1 and 2) with different contributions, the best proxy of each source and admixture dates. Most of the estimated admixture episodes for both the Iberian and North African recipient clusters were unique (one-date admixture events). GLOBETROTTER detected two additional admixture pulses for the most diverse clusters on the data set as a reflection of their complex history.

Point estimates of dates spanned from ∼54 to 4 generations ago, that is, from the 7th to 19th centuries CE (see supplementary table S4 , Supplementary Material online). Previous evidence also points to historic migratory events to explain admixture processes in both Iberia and North Africa. Accordingly, Moorjani et al. (2011) estimated dates of a sub-Saharan African admixing source in Portugal and Spain by ∼45 ± 5 and 55 ± 3 generations ago, respectively. Recently, Bycroft et al. (2019) dated admixture events involving European and northwest African source groups to ∼45–35 generations ago (860–1,120 CE). In addition, analyses for North African populations as recipients highlight the effects of recent historical migratory movements, and dates of admixture were mainly explained by the Islamic expansion in Iberia (7th century CE) and the trans-Atlantic/trans-Saharan slave trade (17th century CE) ( Arauna et al. 2017).

With respect to Iberian recipients, virtually all cases in the present study included an admixture event between a major European-like source (82.3 ± 6.5% as an average) and an African source. The latter source is best represented by a North African population and not by a sub-Saharan population. Since we set two different scenarios, C10MOR or C14MAGH2, as North African donors, it should be interesting to search for potential differences along the five Iberian recipient clusters considered (C23WAND, C24IBE1, C25AND, C26IBE2, and C29IBE3). When first using C10MOR as the proxy for North African ancestry, this component is displaced as best-source 1 in two cases (see C24IBE1b and C26IBE2b, supplementary table S4 A, Supplementary Material online) if considering C14MAGH2 instead, the African contribution is present in the rest of comparisons. Therefore, the North African source would have a greater relative proportion regarding the European source when using C14MAGH2 versus C10MOR (mean values: 20.0 ± 5.9% and 14.2 ± 5.3%, respectively). The former cluster comprises northern Moroccan samples and three Algerian individuals, whereas the latter is restricted to Morocco. As stated before, GLOBETROTTER inferred two admixture pulses for western Iberian cluster C29IBE3 (see supplementary table S4 B, Supplementary Material online) encompassing date estimates of 890 CE.

As shown in supplementary table S4 A a B, Supplementary Material online, for the Iberian recipient clusters, source 2 remained constant in all cases (i.e., European source, C21NEUR), whereas the best-source 1 representative varied between the two North African donors distinguished by cluster compositions. For North African receptors, however, the donor clusters are recurrently represented by Yoruban (C41YRI cluster) as the best source the other source would be Mediterranean Europe. It is interesting to note that when using the western Iberia C29IBE3 cluster (comprising individuals with family origins in western Iberia, see scenarios marked by suffix “e”), it replaces the Italian cluster (C22ITA1) (see supplementary table S4 A, Supplementary Material online). When given further support by considering C29IBE3 as the most likely Iberian donor, the relative proportion of the European source (when compared with the African donor) reaches the maximum value (mean European proportion in scenarios: A, 78.8 ± 4.6% C, 75.5 ± 6.6% D, 81 ± 5.0% and E, 82 ± 3.3%).

The cluster C16NAFR unveiled a higher complexity mainly due to two inferred admixture episodes. As for single-pulse events, the introduction of the Iberian C29IBE3 cluster as a donor (C16NAFRe test, supplementary table S4 B, Supplementary Material online) resulted in the best-guess proxy of source 2. Nevertheless, deeper migration events in the region detected through uniparental markers (see Discussion) would be masked by the autosomal variation as a methodological consequence of the recombination ( Fernandes et al. 2015). According to Hellenthal et al. (2014), admixture dates provide higher bounds to migration dates because migrations occurred before population admixtures and after mixing, and temporal dates would estimate a time posterior to the beginning of the mixing.

Evidence Drawn from Ancient and Modern Genomes

Finally, given the current boom in aDNA data for the western Mediterranean area, we integrated our present genomic evidence in a temporal context. The PCA composed of both aDNA assembled genomic data and the modern data set show that aDNA samples are located halfway between the European-Near Eastern-North African gradient and the sub-Saharan cluster, being distributed in a sort of diagonal axis (see fig. 5A). Ancient samples display considerable distances among them, in particular Moroccan Taforalt (LSA, brown crosses) and El Toro, Antequera, Andalusia Early Neolithic (ENE, red triangles).

A genomic chronology of the studied area. Ancient DNA samples are integrated with Database 2B. (A) PCA built with ancient and modern samples (see supplementary tables S8 and S10 , Supplementary Material online). (B) ADMIXTURE plot (K = 3). (C) Mean global ancestry proportions (K = 3) estimated in Spanish, Portuguese, and Moroccan periods (LSA, Late Stone Age ENE, Early Neolithic MNE, Middle Neolithic LNE, Late Neolithic BA, Bronze Age). Average values for modern samples (see pale bars) were calculated from Database 2B ( supplementary table S8 , Supplementary Material online) including the following populations: IBS, SPGA, SPBA, SPAN, SPWA, SPEA (Spain modern), SPOR (Portugal modern), and MAAS, MABO, MAFI, MANO, MASO (Morocco modern).

A genomic chronology of the studied area. Ancient DNA samples are integrated with Database 2B. (A) PCA built with ancient and modern samples (see supplementary tables S8 and S10 , Supplementary Material online). (B) ADMIXTURE plot (K = 3). (C) Mean global ancestry proportions (K = 3) estimated in Spanish, Portuguese, and Moroccan periods (LSA, Late Stone Age ENE, Early Neolithic MNE, Middle Neolithic LNE, Late Neolithic BA, Bronze Age). Average values for modern samples (see pale bars) were calculated from Database 2B ( supplementary table S8 , Supplementary Material online) including the following populations: IBS, SPGA, SPBA, SPAN, SPWA, SPEA (Spain modern), SPOR (Portugal modern), and MAAS, MABO, MAFI, MANO, MASO (Morocco modern).

For Moroccan aDNA samples, a chronological cline is evident, but for the Iberian samples, it would be more challenging to detect this tendency. Both groups of ancient samples deviate slightly from the corresponding present ones toward the sub-Saharan cluster. The ADMIXTURE results can shed some light on the temporal variations of different sources of ancestry in western Mediterranean over time. In figure 5C, we can see that the percentage of the blue European component is similar in ancient and present-day European samples (0.67–0.72), while this component, high in ancient Moroccan samples (0.39–0.59), is reduced sharply in present-day samples (0.08). The ochre component (“Mediterranean” that could represent a Maghrebi/Near Eastern ancestry) changes from (0.05–0.22) in ancient Moroccan samples to 0.73 in contemporaneous ones, while the corresponding change in Iberians goes from zero to (0.28–0.32). The purple sub-Saharan component moves from (0.36–0.43) to 0.19 in Moroccans and from (0.29–0.32) to (0.01–0.02) in Iberians. In short, the pass in the region from ancient to present-day populations consists for Iberia in the substitution of the sub-Saharan component by that “Mediterranean” cluster, while in Moroccans its considerable rise is compensated with notable reductions of European and sub-Saharan ones. These results suggest that the Maghreb component was mostly transferred to Iberia after the Neolithic, obscuring previous genetic relationships between Iberia and North Africa.


Genomic Data Has a Diversity Problem, But Global Efforts Are Underway to Fix It

Genetic data sets skew too European, threatening to narrow who will benefit from future advances.

Genomics has begun its golden age. Just 20 years ago, sequencing a single genome cost nearly $3 billion and took over a decade. Today, the same feat can be achieved for a few hundred dollars and the better part of a day . Suddenly, the prospect of sequencing not just individuals, but whole populations, has become feasible.

The genetic differences between humans may seem meager, only around 0.1 percent of the genome on average, but this variation can have profound effects on an individual's risk of disease, responsiveness to medication, and even the dosage level that would work best.

Already, initiatives like the U.K.'s 100,000 Genomes Project - now expanding to 1 million genomes - and other similarly massive sequencing projects in Iceland and the U.S., have begun collecting population-scale data in order to capture and study this variation.

The resulting data sets are immensely valuable to researchers and drug developers working to design new 'precision' medicines and diagnostics, and to gain insights that may benefit patients. Yet, because the majority of this data comes from developed countries with well-established scientific and medical infrastructure, the data collected so far is heavily biased towards Western populations with largely European ancestry.

This presents a startling and fast-emerging problem: groups that are under-represented in these datasets are likely to benefit less from the new wave of therapeutics, diagnostics, and insights, simply because they were tailored for the genetic profiles of people with European ancestry.

We may indeed be approaching a golden age of genomics-enabled precision medicine. But if the data bias persists then there is a risk, as with most golden ages throughout history, that the benefits will not be equally accessible to all, and existing inequalities will only be exacerbated.

To remedy the situation, a number of initiatives have sprung up to sequence genomes of under-represented groups, adding them to the datasets and ensuring that they too will benefit from the rapidly unfolding genomic revolution.

Global Gene Corp

The idea behind Global Gene Corp was born eight years ago in Harvard when Sumit Jamuar, co-founder and CEO, met up with his two other co-founders, both experienced geneticists, for a coffee.

"They were discussing the limitless applications of understanding your genetic code," said Jamuar, a business executive from New Delhi.

"And so, being a technology enthusiast type, I was excited and I turned to them and said hey, this is incredible! Could you sequence me and give me some insights? And they actually just turned around and said no, because it's not going to be useful for you - there's not enough reference for what a good Sumit looks like."

What started as a curiosity-driven conversation on the power of genomics ended with a commitment to tackle one of the field's biggest roadblocks - its lack of global representation.

Jamuar set out to begin with India, which has about 20 percent of the world's population, including over 4000 different ethnicities, but contributes less than 2 percent of genomic data, he told Leaps.org.

Eight years later, Global Gene Corp's sequencing initiative is well underway, and is the largest in the history of the Indian subcontinent. The program is being carried out in collaboration with biotech giant Regeneron, with support from the Indian government, local communities, and the Indian healthcare ecosystem. In August 2020, Global Gene Corp's work was recognized through the $1 million 2020 Roddenberry award for organizations that advance the vision of 'Star Trek' creator Gene Roddenberry to better humanity.

Global Gene Corp also focuses on developing and implementing AI and machine learning tools to make sense of the deluge of genomic data. These tools are increasingly used by both industry and academia to guide future research by identifying particularly promising or clinically interesting genetic variants. But if the underlying data is skewed European, then the effectiveness of the computational analysis - along with the future advances and avenues of research that emerge from it - will be skewed towards Europeans too.

This problem has already begun to manifest itself in, for example, much higher levels of genetic misdiagnosis among non-Europeans tested for their risk of certain diseases, such as hypertrophic cardiomyopathy - an inherited disease of the heart muscle. Most of the genetic variants used in these tests were identified as being causal for the disease from studies of European genomes. However, many of these variants differ both in their distribution and clinical significance across populations, leading to many patients of non-European ancestry receiving false-positive test results - as their benign genetic variants were misclassified as pathogenic. Had even a small number of genomes from other ethnicities been included in the initial studies, these misdiagnoses could have been avoided.

"Unless we have a data set which is unbiased and representative, we're never going to achieve the success that we want," Jamuar says.

"When Siri was first launched, she could hardly recognize an accent which was not of a certain type, so if I was trying to speak to Siri, I would have to repeat myself multiple times and try to mimic an accent which wasn't my accent so that she could understand it.

"But over time the voice recognition technology improved tremendously because the training data was expanded to include people of very diverse backgrounds and their accents, so the algorithms were trained to be able to pick that up and it dramatically improved the technology. That's the way we have to think about it - without that good-quality diverse data, we will never be able to achieve the full potential of the computational tools."

While mapping India's rich genetic diversity has been the organization's primary focus so far, they plan, in time, to expand their work to other under-represented groups in Asia, the Middle East, Africa, and Latin America.

"As other like-minded people and partners join the mission, it just accelerates the achievement of what we have set out to do, which is to map out and organize the world's genomic diversity so that we can enable high-quality life and longevity benefits for everyone, everywhere," Jamuar says.

Empowering African Genomics

Africa is the birthplace of our species, and today still retains an inordinate amount of total human genetic diversity. Groups that left Africa and went on to populate the rest of the world, some 50 to 100,000 years ago, were likely small in number and only took a fraction of the total genetic diversity with them. This ancient bottleneck means that no other group in the world can match the level of genetic diversity seen in modern African populations.

Despite Africa's central importance in understanding the history and extent of human genetic diversity, the genomics of African populations remains wildly understudied. Addressing this disparity has become a central focus of the H3Africa Consortium, an initiative formally launched in 2012 with support from the African Academy of Sciences, the U.S. National Institutes of Health, and the UK's Wellcome Trust. Today, H3Africa supports over 50 projects across the continent, on an array of different research areas in genetics relevant to the health and heredity of Africans.

"Africa is the cradle of Humankind. So what that really means is that the populations that are currently living in Africa are among some of the oldest populations on the globe, and we know that the longer populations have had to go through evolutionary phases, the more variation there is in the genomes of people who live presently," says Zane Lombard, a principal investigator at H3Africa and Associate Professor of Human Genetics at the University of the Witwatersrand in Johannesburg, South Africa.

"So for that reason, African populations carry a huge amount of genetic variation and diversity, which is pretty much uncaptured. There's still a lot to learn as far as novel variation is concerned by looking at and studying African genomes."

A recent landmark H3Africa study, led by Lombard and published in Príroda in October, sequenced the genomes of over 400 African individuals from 50 ethno-linguistic groups - many of which had never been sampled before.

Despite the relatively modest number of individuals sequenced in the study, over three million previously undescribed genetic variants were found, and complex patterns of ancestral migration were uncovered.

"In some of these ethno-linguistic groups they don't have a word for DNA, so we've had to really think about how to make sure that we communicate the purposes of different studies to participants so that you have true informed consent," says Lombard.

"The objective," she explained, "was to try and fill some of the gaps for many of these populations for which we didn't have any whole genome sequences or any genetic variation data. because if we're thinking about the future of precision medicine, if the patient is a member of a specific group where we don't know a lot about the genomic variation that exists in that group, it makes it really difficult to start thinking about clinical interpretation of their data."

From H3Africa's conception, the consortium's goal has not only been to better represent Africa's staggering genetic diversity in genomic data sets, but also to build Africa's domestic genomics capabilities and empower a new generation of African researchers. By doing so, the hope is that Africans will be able to set their own genomics agenda, and leapfrog to new and better ways of doing the work.

"The training that has happened on the continent and the number of new scientists, new students, and fellows that have come through the process and are now enabled to start their own research groups, to grow their own research in their countries, to be a spokesperson for genomics research in their countries, and to build that political will to do these larger types of sequencing initiatives - that is really a significant outcome from H3Africa as well. Over and above all the science that's coming out," Lombard says.

"What has been created through H3Africa is just this locus of researchers and scientists and bioethicists who have the same goal at heart - to work towards adjusting the data bias and making sure that all global populations are represented in genomics."


Pozri si video: Zivot v Afrike (Jún 2022).