Informácie

Aké sú konvencie pomenovania mutácií proteínov?

Aké sú konvencie pomenovania mutácií proteínov?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Čítal som o proteínoch viažucich maltózu. Zdá sa, že mutantné formy molekuly sú pomenované MalE_, kde _ predstavuje číslo, napríklad MalE36 alebo MalE50.

Môže mi prosím niekto vysvetliť konvenciu pomenovania pre toto? t.j. čo znamená to „E“? Vzťahuje sa číslo na aminokyselinu, ktorá sa zmenila?


MalE je gén, ktorý kóduje proteín viažuci maltózu E. coli. Ak sa pozriete na genotyp akéhokoľvek E. coli kmeň uvidíte podobnú nomenklatúru. Všetko v odpovedi od @Bez je správne, ale v tomto prípade E nemá nič spoločné s glutamanom.

Čísla sú pravdepodobne len ľubovoľné čísla, ktoré boli pridelené jednotlivým mutáciám, ale predtým, ako sa to potvrdí, budete musieť poskytnúť odkaz na zdroj.


Váš príklad odkazuje na zmenu zvyšku aminokyseliny (AA) kyseliny glutámovej (E), ktorý je na pozícii 36. Označuje sa tak, aby ľudia/vedci vedeli, čo sa zmenilo a zvyčajne by tam malo byť ďalšie písmeno za týmto číslom, napríklad Y, čo je tyrozín, na označenie toho, na čo sa zmenilo, ak ide o substitúciu. Potom je tu symbol delta (∆) na označenie vymazania a zvyčajne číselný rozsah, napr. 36-50 alebo len číslo napr. 70 sa objaví za ním, aby označilo, či bol proteín skrátený v určitom rozsahu AA alebo či je skrátený celý proteín z tohto AA. Niekedy (v súčasnosti pomerne často) za symbolom delta nasleduje názov proteínovej domény, ako napríklad SH3 alebo RA, aby sa označilo, že proteínová doména bola vymazaná a ľudia používajú najrôznejšie variácie pomenovania pre proteín, ktorý bol zmenený z jeho natívnej sekvencie. , čo môže byť mätúce!!

Toto sú len niektoré konvencie, ktoré nie sú veľmi dobre zdokumentované a zistíte ich len pri prečítaní niekoľkých článkov, ale uvítal by som akékoľvek úpravy pre dobrý zdroj anotácií o zmene bielkovín.

UPRAVIŤ:

Keďže, ako poukázala odpoveď Alan Boyd, MalE je an E. coli gén kódujúci proteíny viažuce maltózu, potom sa moja odpoveď nebude vzťahovať na žiadne zmeny proteínu AA, ako bolo správne zdôraznené a rozvedené v odpovedi Alana Boyda.


Nomenklatúra génov

Nomenklatúra génov je vedecké pomenovanie génov, jednotiek dedičnosti v živých organizmoch. Je tiež úzko spojená s nomenklatúrou proteínov, pretože gény a proteíny, ktoré kódujú, majú zvyčajne podobné názvoslovie. Medzinárodná komisia zverejnila odporúčania pre genetické symboly a nomenklatúru v roku 1957. [1] Potreba vypracovať formálne usmernenia pre mená a symboly ľudských génov bola uznaná v 60. rokoch a úplné usmernenia boli vydané v roku 1979 (Edinburgh Human Genome Meeting). [2] Niekoľko ďalších rodovo špecifických výskumných komunít (napr. Drosophila ovocné mušky, Mus myši) prijali aj nomenklatúrne normy a zverejnili ich na príslušných webových stránkach modelových organizmov a vo vedeckých časopisoch, vrátane Trendy v genetike Sprievodca genetickou nomenklatúrou. [3] [4] Vedci oboznámení s konkrétnou génovou rodinou môžu spolupracovať na revízii nomenklatúry pre celý súbor génov, keď budú k dispozícii nové informácie. [5] Pre mnohé gény a im zodpovedajúce proteíny sa vo vedeckej literatúre a verejných biologických databázach používa rad alternatívnych názvov, čo predstavuje výzvu pre efektívnu organizáciu a výmenu biologických informácií. [6] Štandardizácia nomenklatúry sa tak snaží dosiahnuť výhody kontroly slovnej zásoby a bibliografickej kontroly, hoci dodržiavanie je dobrovoľné. Nástup informačného veku priniesol génovú ontológiu, ktorá je v niektorých ohľadoch ďalším krokom génovej nomenklatúry, pretože jej cieľom je zjednotiť reprezentáciu génov a atribútov génových produktov naprieč všetkými druhmi.


1 Zásady nomenklatúry

1.1 Kľúčové vlastnosti

Kľúčovým komponentom nomenklatúry je názov génu alebo lokusu a symbol, ktorý identifikuje jednotku dedičnosti. Ďalšie znaky, ako sú alely, varianty a mutácie, sú sekundárne k názvu génu a spájajú sa s ním. Podobne sondy alebo testy používané na detekciu génu nie sú primárnymi znakmi a normálne by sa nemali používať ako názvy.

Primárnym účelom mena a symbolu génu alebo lokusu je byť jedinečným identifikátorom, aby bolo možné informácie o géne v publikáciách, databázach a iných formách komunikácie jednoznačne spájať so správnym génom. Tieto usmernenia sú preto určené na pomoc vedeckej komunite ako celku pri využívaní genetických informácií.

  • identifikovať gén ako člena rodiny, čo môže poskytnúť ďalšie informácie o géne odkazom na iných členov rodiny
  • identifikovať gén ako ortológ génu iného cicavca (zvyčajne človeka)

1.2 Definície

Je dôležité, aby používateľ rozumel tomu, čo je pomenované, a princípom, ktoré sú základom týchto pokynov. Časť 6 uvádza definície, ktoré pomôžu používateľovi rozlíšiť napríklad gény, lokusy, markery a alely.

1.3 Stabilita nomenklatúry

  • V prípadoch, keď bol gén známy len ako mutantný fenotyp a pomenovaný podľa neho: keď sa identifikuje mutovaný gén, potom sa názov mutantu stane názvom mutantnej alely identifikovaného génu (pozri časť 3.1.2).
  • Kde je gén priradený k génovej rodine (paralógov) a je stanovená nomenklatúra rodiny. (pozri časť 2.6.2).
  • Kde boli identifikované ortologické gény medzi myšou, potkanom a človekom a pre všetky tri druhy je prijatý spoločný symbol.

1.4 Synonymá

Gén môže mať niekoľko synoným, čo sú mená alebo symboly, ktoré boli aplikované na gén v rôznych časoch. Tieto synonymá môžu byť spojené s génom v databázach a publikáciách, ale ako primárny identifikátor by sa vždy mal použiť zavedený názov génu a symbol.

1.5 Génové symboly, proteíny a označenia chromozómov v publikáciách

1.5.1 Symboly génov a alel

Génové symboly sú pri zverejnení uvedené kurzívou, rovnako ako symboly alel. Časť 2 nižšie špecifikuje pravidlá pomenovania na stanovenie správnych génových symbolov. Transgény, ktoré nie sú súčasťou natívneho genómu, nie sú vyznačené kurzívou. Na určenie správneho priradenia symbolov génu a alely je k dispozícii pomoc ([email protected]) a symboly je možné rezervovať súkromne pred zverejnením.

Na rozlíšenie medzi formami mRNA, genómovej DNA a cDNA v rámci rukopisu napíšte príslušnú predponu do zátvoriek pred symbol génu, napríklad (mRNA) Rbp1.

1.5.2 Symboly bielkovín

1.5.3 Označenia chromozómov

  • Pri odkaze na konkrétny myšací chromozóm (napr. chromozóm 15) použite veľké písmeno „C“.
  • Pri skracovaní slova Chromozóm nepoužívajte za skratkou bodku (."") (napr. Chromozóm 15 by mal byť skrátený ako Chr 15 a nie Chr.15).

WHO aktualizuje nomenklatúru variantov SARS-CoV-2

Lisa Winterová
1. júna 2021

Pomenovanie variantov SARS-CoV-2 bolo trochu prehnané. Rôzne databázy, ktoré zdieľajú sekvencie vírusu, majú rôzne normy nomenklatúry. Napríklad variant, ktorý sa objavil v Spojenom kráľovstve, sa nazýva B.1.1.7 na platforme Pango, ale na Nextstrain sa nazýva 20I/S:501Y.V1. Včera (31. mája) Svetová zdravotnícka organizácia (WHO) oznámila, že zaujímavé varianty SARS-CoV-2 (VOI) a varianty obáv (VOC) budú na účely verejnej diskusie pomenované podľa gréckej abecedy.

Keďže B.1.1.7 bola prvá VOC označená WHO, podľa nového systému pomenovania sa nazýva Alpha. B.1.351, ktorý pochádza z Brazílie, sa teraz nazýva Beta. Ďalšie dve VOC sú P.1, variant prvýkrát identifikovaný v Brazílii a teraz označovaný ako Gamma, a B.1.617.2, ktorý má pôvod v Indii, teraz nazývaný Delta. Šesť VOI určených WHO používa Epsilon cez Kappa v gréckej abecede. Úplný zoznam bude udržiavaný na webovej stránke WHO.

„Tieto [grécke] označenia nenahrádzajú existujúce vedecké názvy (napr. tie, ktoré pridelili GISAID, Nextstrain a Pango), ktoré poskytujú dôležité vedecké informácie a budú sa naďalej používať vo výskume,“ uvádza sa vo vyhlásení WHO.

Podľa WHO sú názvy technických variantov pre širokú verejnosť príliš mätúce, a tak sa „ľudia často uchyľujú k volaniam variantov podľa miest, kde sú zistené, čo je stigmatizujúce a diskriminačné“.

Nový systém názvov prichádza dlho po tom, čo boli popísané prvé varianty. Predstavitelia WHO tvrdia, že rozhodnutie prišlo po mnohých diskusiách o tom, ktorá konvencia pomenovania by bola najlepšia. Agentúra Reuters uvádza, že skupina zvažovala aj iné možnosti vrátane portmanteau, ovocia alebo gréckych božstiev.

Podľa STAT, skupina stojaca za rozhodnutím bola zložená z mnohých rovnakých ľudí, ktorí sú v Medzinárodnom výbore pre taxonómiu vírusov. Aj keď organizácia pomenovala SARS-CoV-2, nomenklatúra variantov je mimo jej oficiálny rozsah, a tak úloha zostala na WHO.

„Počul som, že je niekedy dosť náročné dohodnúť sa na nomenklatúre,“ hovorí Frank Konings, vedúci pracovnej skupiny. STAT. "Bola to relatívne jednoduchá diskusia, ktorá sa dostala do bodu, v ktorom všetci súhlasili."


Varianty a mutácie koronavírusu

Sledovanie nedávnych mutácií, variantov a línií.

Vedci pomenúvajú varianty, keď sa zmeny v genóme zhodujú s novými ohniskami, ale upozorňujú na ne iba vtedy, ak dôjde k zmene v ich správaní – ak sa napríklad ľahšie prenášajú (B.1.1.7, variant prvýkrát zaznamenaný v Británii ), alebo ak aspoň čiastočne obídu imunitnú odpoveď (B.1.351, variant zistený v Južnej Afrike).

V prepletených písmenách a čísliciach sú zakódované informácie o pôvode variantu: „B.1“ napríklad označuje, že tieto varianty súvisia s prepuknutím v Taliansku minulú jar. (Akonáhle sa hierarchia variantov stane príliš hlbokou na to, aby sa do nej zmestilo ďalšie číslo a bodka, novším sa priradí ďalšie dostupné písmeno v abecednom poradí.)

Ale keď vedci oznámili, že v Spojených štátoch sa šíri variant s názvom B.1.315 – dve číslice odstránené z variantu, ktorý bol prvýkrát videný v Južnej Afrike –, juhoafrický minister zdravotníctva sa medzi tým a B.1.351 „zmýlil“, povedal Tulio de Oliveira, genetik na Lekárskej fakulte Nelsona Mandelu v Durbane a člen pracovnej skupiny WHO.

"Musíme prísť so systémom, ktorému rozumejú nielen evoluční biológovia," povedal.

Keďže po ruke nie sú žiadne jednoduché alternatívy, ľudia sa uchýlili k tomu, že B.1.351 nazývajú „juhoafrický variant“. Ale doktor de Oliveira prosil svojich kolegov, aby sa tomuto termínu vyhli. (Nehľadajte ďalej ako pôvod tohto vírusu: nazvať ho „čínskym vírusom“ alebo „vírusom Wuhan“, ktorý sa stal zdrojom xenofóbie a agresie voči ľuďom východoázijského pôvodu na celom svete.)

Potenciálne škody sú dostatočne závažné na to, aby odradili niektoré krajiny od toho, aby sa prihlásili, keď sa na ich území zistí nový patogén. Zemepisné názvy tiež rýchlo zastarávajú: B.1.351 je teraz v 48 krajinách, takže nazývať ho juhoafrickým variantom je absurdné, dodal Dr. de Oliveira.

A prax by mohla skresliť vedu. Nie je úplne jasné, že tento variant vznikol v Južnej Afrike: bol tam identifikovaný z veľkej časti vďaka usilovnosti juhoafrických vedcov, no označovať ho ako variant tejto krajiny by mohlo iných výskumníkov zmiasť, aby prehliadli jeho možnú cestu do Južnej Afriky z inej krajiny. krajina, ktorá sekvenovala menej genómov koronavírusov.

Za posledných pár týždňov sa z navrhovania nového systému stal niečo ako divácky šport. Niekoľko návrhov na inšpiráciu mien: hurikány, grécke písmená, vtáky, iné mená zvierat ako veverička obyčajná alebo chrobák a miestne príšery.

Áine O’Toole, doktorandka na Edinburskej univerzite, ktorá je súčasťou tímu Pango, navrhla farby, aby naznačila, ako súviseli rôzne konštelácie mutácií.

"Mohli by ste skončiť s prašnou ružovou, purpurovou alebo fuchsiovou," povedala.

Niekedy môže stačiť identifikácia nového variantu podľa jeho charakteristickej mutácie, najmä keď mutácie získajú rozmarné mená. Minulú jar pani O’Toole a jej spolupracovníci začali volať D614G, jednu z prvých známych mutácií, „Doug“.

"Akosi by sme nemali veľké množstvo ľudskej interakcie," povedala. "Toto bola naša myšlienka humoru v blokovaní č. 1."

Nasledovali ďalšie prezývky: „Nelly“ pre N501Y, spoločné vlákno v mnohých nových variantoch obáv a „Eeek“ pre E484K, mutáciu, o ktorej sa predpokladá, že vírus bude menej náchylný na vakcíny.

Ale Eeek sa objavil vo viacerých variantoch na celom svete súčasne, čo podčiarkuje potrebu, aby varianty mali odlišné názvy.

Systém číslovania W.H.O. uvažuje je jednoduché. Akékoľvek nové mená však budú musieť prekonať jednoduchosť a jednoduchosť geografických označení pre širokú verejnosť. A vedci budú musieť nájsť rovnováhu medzi označovaním variantu dostatočne rýchlo, aby sa predišlo geografickým názvom, a dostatočne obozretne, aby neskončili pri označovaní bezvýznamných variantov.

„To, čo nechcem, je systém, v ktorom máme tento dlhý zoznam variantov, z ktorých všetky majú W.H.O. mená, ale naozaj len tri z nich sú dôležité a ostatných 17 nie je dôležitých,“ povedal Dr. Bedford.

Bez ohľadu na konečný systém ho budú musieť prijať aj rôzne skupiny vedcov, ako aj široká verejnosť.

"Pokiaľ sa človek skutočne nestane druhom lingua franca, bude to ešte viac mätúce," povedal Dr. Hodcroft. "Ak neprídete s niečím, čo by ľudia mohli ľahko povedať a napísať a čo si ľahko zapamätať, jednoducho sa vrátia k používaniu geografického názvu."


Genetika

Na uľahčenie presnej komunikácie, je dôležité, aby sa vždy, keď je to možné, použila štandardná genetická nomenklatúra a aby odchýlky alebo návrhy nových systémov názvov schválil príslušný autoritatívny orgán. Revíziu a/alebo publikovanie predložených rukopisov, ktoré obsahujú nové alebo neštandardné názvoslovie, môže redaktor alebo oddelenie časopisov odložiť, aby mohli byť recenzované.

Baktérie. Genetické vlastnosti baktérií sú opísané z hľadiska fenotypov a genotypov. Fenotyp opisuje pozorovateľné vlastnosti organizmu. Genotyp sa vzťahuje na genetickú konštitúciu organizmu, zvyčajne s odkazom na nejaký štandardný divoký typ. Pokyny, ktoré nasledujú, sú založené na odporúčaniach Demerca et al. (Genetika 54:61–76, 1966).

i) Označenia fenotypov sa musia použiť, ak neboli identifikované alebo zmapované mutantné lokusy. Môžu sa tiež použiť na identifikáciu proteínového produktu génu, napr. proteínu OmpA. Označenia fenotypov sa vo všeobecnosti skladajú z trojpísmenových symbolov, ktoré nie sú písané kurzívou a prvé písmeno symbolu je veľké. Na identifikáciu série príbuzných fenotypov je vhodnejšie použiť rímske alebo arabské číslice (namiesto písmen). Séria mutantov nukleokyselinovej polymerázy teda môže byť označená Pol1, Pol2 a Pol3 atď. Charakteristiky divokého typu môžu byť označené horným indexom plus (Pol + ), a ak je to potrebné pre prehľadnosť, negatívnymi hornými indexmi (Pol – ). môžu byť použité na označenie mutantných charakteristík. Malé horné indexy sa môžu použiť na ďalšie vymedzenie fenotypov (napr. Str r pre rezistenciu na streptomycín). Mali by sa definovať označenia fenotypov.

ii) Označenia genotypu sú tiež označené trojpísmenovými symbolmi miesta. Na rozdiel od označenia fenotypu sú to malé písmená kurzívy (napr. ara jeho rps). Ak niekoľko lokusov riadi súvisiace funkcie, tieto sú odlíšené veľkými písmenami kurzívy za symbolom lokusu (napr. araA araB araC). Miesta promótora, terminátora a operátora by mali byť označené podľa Bachmanna a Lowa (Microbiol Rev 44:1–56, 1980), napr. lacZp, lacAt, a lacZo.

(iii) Alely divokého typu sú označené horným indexom plus (ara + jeho +). Horný index mínus sa nepoužíva na označenie mutantného lokusu, preto sa odkazuje na ara mutant skôr ako an ara – kmeň.

(iv) Miesta mutácie sú označené umiestnením sériových čísiel izolácie (čísla alel) za symbol lokusu (napr. araA1 araA2). Ak existuje iba jeden takýto lokus alebo ak nie je známe, v ktorom z viacerých súvisiacich lokusov sa mutácia vyskytla, namiesto veľkého písmena sa použije spojovník (napr. ara-23). V dokumentoch, ktoré uvádzajú izoláciu nových mutantov, je nevyhnutné, aby boli mutáciám priradené čísla alel. Pre Escherichia coli, existuje register takýchto čísel: Coli Genetic Stock Center (http://cgsc2.biology.yale.edu/). Pre rod Salmonella, register je Salmonella Genetic Stock Center (http://people.ucalgary.ca/

kesander/). Pre rod Bacillus, register je Bacillus Genetic Stock Center (http://www.bgsc.org/).

(v) Malo by sa vyhnúť používaniu horných indexov s genotypmi (inými ako + na označenie alel divokého typu). Označenia označujúce jantárové mutácie (Am), mutácie citlivé na teplotu (Ts), konštitutívne mutácie (Con), mutácie citlivé na chlad (Cs), produkciu hybridného proteínu (Hyb) a ďalšie dôležité fenotypové vlastnosti by mali nasledovať za číslom alely [ napr. araA230(dopoludnia) jehoD21(Ts)]. Všetky ostatné takéto označenia fenotypu musia byť definované pri prvom výskyte. Ak sa musia použiť horné indexy, musia byť schválené editorom a definované pri prvom výskyte v texte.

Dolné indexy možno použiť v dvoch situáciách. Dolné indexy možno použiť na rozlíšenie medzi génmi (s rovnakým názvom) z rôznych organizmov alebo kmeňov, napr. jehoE. coli alebo jehoK-12 pre jeho gén E. coli alebo kmeň K-12, v danom poradí, možno použiť na rozlíšenie tohto génu od génu jeho gén v inom druhu alebo kmeni. Môže sa použiť aj skratka, ak je vysvetlená. Podobne sa dolný index používa aj na rozlíšenie medzi genetickými prvkami, ktoré majú rovnaký názov. Napríklad propagátori tzv gln môže byť určený operón glnAp1 a glnAp2. Tento formulár sa mierne líši od formulára odporúčaného Bachmannom a Lowom (napr. desC1p).

(vi) Vymazania sú označené symbolom Δ umiestnené pred deletovaný gén alebo oblasť, napr. ΔtrpA432, Δ(aroP-aceE)419, alebo Δ(jehoQ-hisJo)1256. Podobne možno použiť aj iné symboly (s príslušnou definíciou). Teda fúzia ara a lac operóny môžu byť zobrazené ako Φ(ara-lac)95. Podobne Φ(araB'-lacZ + )96 označuje, že výsledkom fúzie je skrátený araB gén fúzovaný s intaktným lacZ gén a Φ(Muž-lacZ)97(Hyb) ukazuje, že sa syntetizuje hybridný proteín. Inverzia sa zobrazí ako IN(rrnD-rrnE)1. Vloženie an E. coli jeho gén do plazmidu pSC101 v nula kilobázach (0 kb) je znázornený ako pSC101 Ω (0 kb::K-12jehoB)4. V jednoduchých prípadoch je možné použiť alternatívne označenie vložky, napr. galT236::Tn5. Číslo 236 sa vzťahuje na miesto inzercie, a ak kmeň nesie ďalšie gal mutácia, je uvedená samostatne. Ďalšie príklady, ktoré využívajú mierne odlišný formát, možno nájsť v dokumentoch od Campbella a kol. a Novick a kol. citované nižšie. Pri hlásení konštrukcie kmeňov, do ktorých bol vložený a následne vymazaný mobilný prvok, je dôležité uviesť túto skutočnosť do tabuľky kmeňov. Dá sa to urobiť uvedením genotypu kmeňa použitého ako medziprodukt v poznámke pod čiarou v tabuľke alebo priamou alebo zátvorkovou poznámkou v genotype, napr. (F – ), ΔMu cts, alebo mal::ΔMu cts::lac. Pri zadávaní zátvorkových poznámok v rámci genotypu alebo pri delení genotypu na základné prvky sa používajú zátvorky a zátvorky bez špeciálneho významu, zátvorky sa používajú mimo zátvoriek. Na označenie prítomnosti epizómu sa používajú zátvorky (alebo zátvorky) (λ, F+). Odkaz na integrovaný epizóm je označený tak, ako je opísané vyššie pre vložené prvky a exogenota je znázornená ako napríklad W3110/F'8(gal + ).

Informácie o symboloch, ktoré sa v súčasnosti používajú, získate od spoločnosti Berlyn (Microbiol Mol Biol Rev 62:814–984, 1998). E. coli K-12, Sanderson a Roth (Microbiol Rev 52:485–532, 1988) pre Salmonella sérovar Typhimurium, Holloway a kol. (Microbiol Rev 43:73–102, 1979) pre rod Pseudomonas, Piggot a Hoch (Microbiol Rev 49:158–179, 1985) pre Bacillus subtilisPerkins a kol. (Microbiol Rev 46:426-570, 1982). Neurospora crassaa Mortimer a Schild (Microbiol Rev 49:181–213, 1985) pre Saccharomyces cerevisiae. Pre kvasinky, Chlamydomonas spp. a niekoľko druhov húb, symboly, ako sú tie, ktoré sú uvedené v Príručka mikrobiológie, 2. vyd. (A.I. Laskin a H.A. Lechevalier, ed., CRC Press, Inc., Cleveland, OH, 1988).

Konvencie pre pomenovanie génov. Odporúča sa, aby (úplne) nové gény dostali mená, ktoré sú mnemotechnickými znakmi ich funkcie, vyhýbajúc sa menám, ktoré už sú priradené, a skorším alebo alternatívnym názvom génov, bez ohľadu na baktériu, pre ktorú boli takéto priradenia urobené. Podobne sa odporúča, aby vždy, keď je to možné, mali ortologické gény prítomné v rôznych organizmoch rovnaký názov. Ak homológia nie je zrejmá alebo funkcia nového génu nebola stanovená, môže sa poskytnúť dočasný názov pomocou jednej z nasledujúcich metód. (i) Gén môže byť pomenovaný na základe jeho polohy na mape v štýle yaaA, analogický štýlu používanému na nahrávanie vložení transpozónu (zef), ako je uvedené nižšie. Zoznam takýchto názvov používaných pre E. coli publikoval Rudd (Microbiol Mol Biol Rev 62:985-1019, 1998). (ii) Dočasný názov môže byť uvedený v štýle, ktorý opísali Demerec et al. (napr. usg, gén upstream od folC). Takéto mená by mali byť jedinečné a mená ako napr orf alebo genX by sa nemali používať. Na porovnanie, databáza Coli Genetic Stock Center obsahuje aktualizovaný zoznam E. coli názvy génov a génové produkty. Je prístupný na internete (http://cgsc.biology.yale.edu/index.php). Zoznam možno nájsť aj v práci Rileyho (Microbiol Rev 57:862–952, 1993). Pre gény iných baktérií si pozrite vyššie uvedené odkazy.

V prípade prokaryotov by názvy génov nemali začínať predponami označujúcimi rod a druh, z ktorého je gén odvodený. (V prípade potreby sa však môžu použiť dolné indexy na rozlíšenie medzi génmi z rôznych organizmov alebo kmeňov, ako je opísané v časti v časti "Baktérie" vyššie.) Pre eukaryoty sa takéto predpony môžu použiť kvôli prehľadnosti, keď sa diskutuje o génoch s rovnakým názvom z dvoch rôzne organizmy (napr. ScURA3 oproti CaURA3) predpony sa nepovažujú za súčasť vlastného mena génu a nie sú písané kurzívou.

Locus tagy. Lokusové značky sú systematické, jedinečné identifikátory, ktoré sú priradené ku každému génu v GenBank. Všetky gény uvedené v rukopise by mali byť čitateľom vysledovateľné k ich sekvenciám a na tento účel môžu byť v rukopisoch použité lokusové značky na identifikáciu necharakterizovaných génov. Okrem toho by autori mali skontrolovať GenBank, aby sa uistili, že používajú správny, aktuálny formát pre locus tagy (napr. veľké verzus malé písmená a prítomnosť alebo neprítomnosť podčiarkovníka atď.). Formáty značiek locus sa medzi rôznymi organizmami líšia a môžu sa tiež aktualizovať pre daný organizmus, takže je dôležité skontrolovať GenBank v čase prípravy rukopisu.

"Mutant" proti "mutácia." Majte na pamäti rozdiel medzi mutáciou (zmena primárnej sekvencie genetického materiálu) a mutantom (kmeň nesúci jednu alebo viac mutácií). Dá sa hovoriť o mapovaní mutácie, ale nedá sa zmapovať Podobne mutant nemá žiadny genetický lokus, iba fenotyp.

"Homológia" proti "podobnosť." Ak chcete použiť výrazy, ktoré popisujú vzťahy medzi génmi, pozrite si články Theissen (Nature 415:741, 2002) a Fitch (Trends Genet 16:227–231, 2000). "Homológia" znamená vzťah medzi génmi, ktoré majú spoločná čiastočná homológia evolučného pôvodu nie je rozpoznaná. Keď sa diskutuje o porovnávaní sekvencií, je vhodnejšie použiť výraz „percento sekvenčnej podobnosti" alebo „percento sekvenčnej identity", ako je to vhodné.

Označenia kmeňov. Nepoužívajte genotyp ako názov (napr. „následné použitie leuC6 na transdukciu"). Ak nebolo zvolené označenie kmeňa, vyberte vhodné slovné spojenie (napr. "iný kmeň obsahujúci leuC6 mutácia").

Vírusy. Genetická nomenklatúra pre vírusy sa líši od genetickej nomenklatúry pre baktérie. Vo väčšine prípadov vírusy nemajú žiadny fenotyp, pretože nemajú žiadny metabolizmus mimo hostiteľských buniek. Preto nemožno robiť rozdiely medzi fenotypom a genotypom. Horné indexy sa používajú na označenie hybridných genómov. Genetické symboly môžu byť jedno, dve alebo tri písmená. Napríklad mutantný kmeň X môže byť označený ako X Aam11 int2 červená114 cI857 tento kmeň nesie mutácie v génoch cja, int, a červená a jantárovo stlačiteľná (Am) mutácia v géne A. Kmeň označený λ att 434 imm 21 by predstavoval hybrid fága λ, ktorý nesie oblasť imunity (imm) fágu 21 a príloha (att) oblasť fága 434. Inzercie hostiteľskej DNA do vírusov by mali byť označené hranatými zátvorkami a genetické symboly a označenia pre takto vloženú DNA by mali zodpovedať tým, ktoré sa používajú pre hostiteľský genóm. Genetické symboly pre fág λ možno nájsť v správach Szybalskiho a Szybalského (Gene 7: 217–270, 1979) a Echolsa a Murialda (Microbiol Rev 42: 577–591, 1978).

Eukaryoty. FlyBase (http://flybase.org/) je autorita pre genetickú nomenklatúru Drosophila melanogaster. WormBase (https://www.wormbase.org/#01-23-6) je autorita genetickej nomenklatúry pre Caenorhabditis elegans. Pri pomenovaní génov pre Aspergillus druhov, mali by sa dodržiavať pokyny pre názvoslovie uverejnené na http://www.aspergillusgenome.org/Nomenclature.shtml a Aspergillus Genome Database (http://www.aspgd.org/) by sa mala prehľadať, aby ste sa uistili, že žiadne nové meno sa už nepoužíva. The Saccharomyces Databáza genómu (https://www.yeastgenome.org/) a Candida Genome Database (http://www.candidagenome.org/) sú autority pre Saccharomyces cerevisiae a Candida albicans genetickej nomenklatúry, resp. Autori by mali používať nomenklatúru konzistentnú s komunitnými databázami vrátane SGD, CGD, AspGD, PomBase, genomických databáz Broad Institute a databáz rodiny EuPathDB. &ldquoKlasifikácia a nomenklatúra ľudských parazitov&rdquo ponúka užitočné informácie o súčasnej nomenklatúre parazitov.

Transponovateľné prvky, plazmidy a reštrikčné enzýmy. Nomenklatúra transponovateľných prvkov (inzertné sekvencie, transpozóny a fág Mu atď.) by sa mala riadiť odporúčaniami Campbella et al. (Gene 5:197–206, 1979), s modifikáciami uvedenými v časti vi v časti „Baktérie“ vyššie. Internetová stránka, kde sú opísané sekvencie inzercie eubaktérií a archeí a kde je možné zaznamenať nové sekvencie, je https://www-is.biotoul.fr.

Systém označovania inzercií transpozónov na miestach, kde nie sú známe lokusy, napr. zef-123::Tn5opísal Chumley et al. (Genetika 91:639-655, 1979). Nomenklatúrne odporúčania Novick et al. (Bacteriol Rev 40:168-189, 1976) pre plazmidy a plazmidovo špecifikované aktivity, Low (Bacteriol Rev 36:587-607, 1972) pre F' faktory a Roberts et al. (Nucleic Acids Res 31:1805–1812, 2003) pre reštrikčné enzýmy, DNA metyltransferázy, navádzacie endonukleázy a ich gény by sa mali použiť vždy, keď je to možné. Nomenklatúra pre konštruované molekuly rekombinantnej DNA in vitro sa riadi nomenklatúrou pre inzercie vo všeobecnosti. DNA vložená do rekombinantných molekúl DNA by mala byť opísaná pomocou génových symbolov a konvencií pre organizmus, z ktorého bola DNA získaná.

Determinanty tetracyklínovej rezistencie. Nomenklatúra pre determinanty rezistencie na tetracyklín je založená na návrhu Levyho a kol. (Antimicrob Agents Chemother 43:1523–1524, 1999). Štýl pre takéto determinanty je napr. Tet B priestor pomáha rozlíšiť označenie determinantu od označenia pre fenotypy a proteíny (TetB). Vyššie uvedený článok tiež uvádza správny formát pre gény, proteíny a determinanty v tejto rodine.

Pokiaľ ide o kmeň myší a genetickú nomenklatúru, ASM odporúča autorom, aby sa odvolávali na usmernenia stanovené Medzinárodným výborom pre štandardizovanú genetickú nomenklatúru pre myši, ktoré sú dostupné na domovskej stránke Mouse Genome Informatics na adrese http://www.informatics.jax.org/ a v Genetické varianty a kmene laboratórnej myši, 3. vyd. (M. F. Lyon a kol., ed., Oxford University Press, Oxford, Anglicko, 1996).


Krok 1: Názov chrbtice

Do názvu plazmidu zahrňte prázdny názov hlavného reťazca. Táto jednoduchá informácia môže často sprostredkovať veľa dôležitých detailov. Keď poznáte kostru, na ktorej je plazmid založený, môžete zvyčajne odvodiť: a) bakteriálnu antibiotickú rezistenciu, b) promótor, ktorý riadi inzert a c) akékoľvek iné selekčné markery (na použitie v iných typoch buniek, napr. eukaryotických bunkách ).

Tip: Katalóg publikovaných a komerčne dostupných prázdnych chrbticových sietí nájdete na stránke Vector Database.


Obsah

Systémy Anti-CRISPR boli prvýkrát videné v r Pseudomonas aeruginosa profágy, [5] ktoré znefunkčnili systém CRISPR–Cas typu I-F, charakteristický pre niektoré kmene týchto baktérií. Po analýze genómových sekvencií týchto fágov boli objavené gény kódujúce päť rôznych proteínov Anti-CRISPR (tiež nazývaných Acrs). Takéto proteíny boli AcrF1, AcrF2, AcrF3, AcrF4 a AcrF5. Výskum zistil, že žiadny z týchto proteínov nenarušil expresiu génov Cas ani zostavenie molekúl CRISPR, takže sa predpokladalo, že tieto proteíny typu I-F priamo ovplyvnili rušenie CRISPR-Cas. [6]

Ďalšie skúmanie potvrdilo túto hypotézu objavom 4 ďalších proteínov (AcrE1, AcrE2, AcrE3 a AcrE4), o ktorých sa ukázalo, že prekážajú Pseudomonas aeruginosasystém CRISPR-Cas. [7] Navyše, lokus génov kodifikujúcich tieto proteíny typu I-E bol skutočne blízky lokusu zodpovednému za expresiu proteínov typu I-F v rovnakej skupine fágov, čo viedlo k záveru, že oba typy proteínov spolupracovali. [8] Týchto prvých deväť proteínov však nezdieľalo žiadne spoločné sekvenčné motívy, čo by uľahčilo identifikáciu nových rodín proteínov Anti-CRISPR.

Neskôr sa ukázalo, že fágy, ktoré produkovali takéto proteíny, tiež kódovali domnelý transkripčný regulátor s názvom Aca 1 (anti-CRISPR asociovaná 1), ktorá bola geneticky umiestnená skutočne blízko génov anti-CRISPR. Predpokladá sa, že tento regulačný proteín je zodpovedný za expresiu génu anti-CRISPR počas infekčného cyklu fága, preto sa zdá, že oba typy proteínov (anti-CRISPR a Aca1) spolupracujú ako jeden mechanizmus. [5]

Po niekoľkých štúdiách sa našla podobná sekvencia aminokyselín ako Aca1, čo viedlo k objavu Aca2, nová rodina proteínov Aca. Aca2 tiež odhalil existenciu piatich nových skupín anti-CRISPR proteínov typu I-F v dôsledku ich genómovej blízkosti: AcrF6, AcrF7, AcrF8, AcrF9 a AcrF10. Tieto proteíny neboli prítomné len v Pseudomonas aeruginosa's fágy, pretože ovplyvnili aj iné bunky Proteobaktérie kmeň. [6]

Vďaka využívaniu bioinformatických nástrojov sa v roku 2016 AcrIIC1, AcrIIC2 a AcrIIC3 rodiny proteínov boli objavené v Neisseria meningitidis (ktorá bola predtým infikovaná fágmi). Takéto proteíny boli prvými nájdenými inhibítormi CRISPR-Cas typu II (konkrétne brzdili II-C CRISPR-Cas9, typ mechanizmu používaného v genetickom vydaní ľudských buniek). [9] O rok neskôr štúdia potvrdila prítomnosť inhibítorov CRISPR-Cas9 typu II-A (AcrIIA1, AcrIIA2, AcrIIA3 a AcrIIA4) v Listeria monocytogenes (infikované bakteriofágmi, ktoré zaviedli anti-CRISPR proteíny). Ukázalo sa, že dva z týchto proteínov (AcrIIA2 a AcrIIA4) fungujú správne Streptococcus pyogenes obranný systém CRISPR typu II-A.

Výsledkom celého tohto výskumu bolo objavenie 21 rôznych rodín proteínov Anti-CRISPR, napriek tomu, že v dôsledku rýchleho mutačného procesu fágov môžu existovať iné inhibítory. Thus, more research is needed to unravel the complexity of anti-CRISPR systems.

Anti-CRISPR genes can be found in different parts of the phage DNA: in the capsid, the tail and at the extreme end. Moreover, it has been found that many MGEs have two or even three Acr genes in a single operon, which suggest that they could have been exchanged between MGEs. [10]

As all proteins, Acr family proteins are formed by the translation and transduction of the genes, and their classification is based on the type of CRISPR-Cas system they inhibit, due to the fact that each anti-CRISPR protein inhibits a specific CRISPR-Cas system. Although not many anti-CRISPR proteins have been discovered, these are the ones that have been found so far:

Anti-CRISPR protein families (table adapted from a reference) [6]
Anti-CRISPR protein family Characterized member CRISPR system inhibited Number of amino acids
AcrE1 JBD5‑34 (Pseudomonas aeruginosa) I‑E 100
AcrE2 JBD88a‑32 (P. aeruginosa) I‑E 84
AcrE3 DMS3‑30 (P. aeruginosa) I‑E 68
AcrE4 D3112‑31 (P. aeruginosa) I‑E 52
AcrF1 JBD30‑35 (P. aeruginosa) I‑F 78
AcrF2 D3112‑30 (P. aeruginosa) I‑F 90
AcrF3 JBD5‑35 (P. aeruginosa) I‑F 139
AcrF4 JBD26‑37 (P. aeruginosa) I‑F 100
AcrF5 JBD5‑36 (P. aeruginosa) I‑F 79
AcrF6 AcrF6Pae (P. aeruginosa) I‑E and I‑F 100
AcrF7 AcrF7Pae (P. aeruginosa) I‑F 67
AcrF8 AcrF8ZF40 (Pectobacterium phage ZF40) I‑F 92
AcrF9 AcrF9Vpa (Vibrio parahaemolyticus) I‑F 68
AcrF10 AcrF10Sxi (Shewanella xiamenensis) I‑F 97
AcrIIA1 AcrIIA1Lmo (Listeria monocytogenes) II‑A 149
AcrIIA2 AcrIIA2Lmo (L. monocytogenes) II‑A 123
AcrIIA3 AcrIIA3Lmo (L. monocytogenes) II‑A 125
AcrIIA4 AcrIIA4Lmo (L. monocytogenes) II‑A 87
AcrIIC1 AcrIIC1Nme (Neisseria meningitidis) II‑C 85
AcrIIC2 AcrIIC2Nme (N. meningitidis) II‑C 123
AcrIIC3 AcrIIC3Nme (N. meningitidis) II‑C 116

So far, genes encoding anti-CRISPR proteins have been found in myophages, siphophages, putative conjugative elements and pathogenicity islands.

Attempts have been made to find common surrounding genetic features of anti-CRISPR genes, but without any success. Nevertheless, the presence of an aca gene just below anti-CRISPR genes has been observed. [10]

The first Acr protein families to be discovered were AcrF1, AcrF2, AcrF3, AcrF4 and AcrF5. [5] These inhibitors are mainly found in Pseudomonas phages, which are capable of infecting Pseudomonas aeruginosas possessing a type I‑F CRISPR–Cas system. Then, in another study, AcrE1, AcrE2, AcrE3 and AcrE4 protein families were found to also inhibit the type I‑F CRISPR–Cas in Pseudomonas aeruginosas. [7]

Later on, AcrF6, AcrF7, AcrF8, AcrF9 and AcrF10 protein families, which were also able to inhibit type I‑F CRISPR–Cas, were found to be very common in proteobacteria MGEs. [10]

The first inhibitors of a type II CRISPR–Cas system were then discovered: AcrIIC1, AcrIIC2 and AcrIIC3, that block the type II‑C CRISPR–Cas9 activity of Neisseria meningitidis. [9]

Finally, AcrIIA1, AcrIIA2, AcrIIA3 and AcrIIA4 were found. These protein families have the ability to inhibit the type II‑A CRISPR–Cas system of Listeria monocytogenes. [11]

As for the naming convention of Acr family proteins, it is established as follows: firstly, the type of system inhibited, then a numerical value referring to the protein family and finally the source of the specific anti-CRISPR protein. For example, AcrF9Vpa is active against the type I-F CRISPR–Cas system. It also was the ninth anti-CRISPR described for this system, and it is encoded in an integrated MGE in a Vibrio parahaemolyticus genóm.

As exposed above, there is a wide spectrum of anti-CRISPR proteins, but few of these have been deeply studied. One of the most studied and well-defined Acrs is AcrIIA4, which inhibits Cas9, thus blocking the II-A CRISPR-Cas system of Streptococcus pyogenes.

AcrIIA4 Edit

The protein was solved using nuclear magnetic resonance (NMR) it contains 87 residues and its molecular weight is 10.182 kDa. [13] AcrIIA4 contains:

  • 3 antiparallel β-strands (the first, from residues 16 to 19, the second, from 29 to 33, and the third, from 40 to 44) that form a β-sheet. This represents a 16,1% of the total number of amino acids, as 14 of them form the β-strands.
  • 3 α-helices (the first, 2–13 residues, the second, 50–59 residues, and the third, 68–85 residues).
  • 1 310 špirála placed between the first (β1) and second (β2) β-strands, which starts at residue 22 and end in residue 25. The total helical part is composed of 40 residues, which is a 50,6% of the protein.
  • Loops joining the different secondary structures.

There is a good definition of the secondary structures, as the three α-helices are packed near the three β-strands. Strikingly, between β3 strand, α2 and α3 helices, there is a hydrophobic core, originated by a cluster of aromatic side chains which are attracted by non-covalent interactions, such as pi stacking. Moreover, as it is an acidic protein, there is a high concentration of negatively charged residues in the loops between β3 and α2, between α2 and α3, and in the first part of α3, which may play an important role in the inhibition of Cas9, as negative charges might imitate phosphates of nucleic acids. [14]

AcrF1 Edit

On the other hand, there is another Acr, AcrF1, which may not have been as studied as the explained above, although there is a good description of its structure. It inhibits the I-F CRISPR-Cas system of Pseudomonas aeruginosa. Maxwell et al. [15] solved the 3D structure using NMR.

The protein contains 78 residues, [6] between which interact to form secondary structures. The structure of AcrF1 is formed of two anti-parallel α-helices and a β-sheet, which contains four anti-parallel β-strands. This β-sheet is placed in the contrary side of the α-helical part, which creates a hydrophobic core formed of 13 amino acids. Turns can also be found in different parts of the protein, for instance, joining the β-strands. [15] [16]

There are surface residues which actively participate in the active site of AcrF1, two of which are tyrosines (Y6 and Y20) and the third amino acid is a glutamic acid (E31), as their mutation by an alanine causes a 100-fold decrease in the activity of the protein (with Y20A and E31A mutations), and a 10 7 -fold decrease when Y6 is mutated.

The different structures that form the protein create a strange combination, as Maxwell et al. conducted a DALI search in order to find similarities between other proteins, and they found no informative similarities. [15]

Avoiding destruction of the phage DNA Edit

The principal function of anti-CRISPR proteins is to interact with specific components of CRISPR-Cas systems, such as the effector nucleases, to avoid the destruction of the phage DNA (by binding or cleavage). [17] [18]

A phage introduces its DNA into a prokaryotic cell, usually the cell detects a sequence known as "target", that activates CRISPR-Cas immune system, but the presence of an initial sequence (before the target) encoding the formation of Acr proteins, avoids phage destruction. Acr proteins are formed before the target sequence is read. This way, the CRISPR-Cas system is blocked before it can develop a response.

The procedure starts with the CRISPR locus being transcribed into crRNAs (CRISPR RNA). CrRNAs combine with Cas proteins forming a ribonucleoprotein complex called Cascade. This complex surveys the cell to find complementary sequences of the crRNA. When this sequence is found, the Cas3 nuclease is recruited to the Cascade, and the target DNA from the phage is cleaved. But, for instance, when AcrF1 and AcrF2 are found (anti-CRISPR proteins), these interact with Cas7f and Cas8f-Cas5f, respectively, not allowing the binding to the phage DNA. Moreover, the cleaving of the target is prevented by the union between AcrF3 and Cas3. [6]

The majority of Acr genes are located next to anti-CRISPR-associated (Aca) genes, which encode proteins with a helix-turn-helix DNA-binding motif. Aca genes are preserved, and researchers are using them to identify Acr genes, but the function of the proteins they encode is not totally clear. The Acr-associated promoter produces high levels of Acr transcription just after the phage DNA injection into the bacteria takes place and, afterward, Aca proteins repress the transcription. If this wasn't repressed, the constant transcription of the gene would be lethal to the phage. Therefore, Aca activity is essential to ensure its survival. [19]

Phage-phage cooperation Edit

Moreover, it has been verified that bacteria with CRISPR-Cas systems are still partially immune to Acr. Consequently, initial abortive phage infections may be unable to hamper CRISPR immunity, but phage-phage cooperation can increasingly boost Acr production and promote immunosuppression, which might produce an increase on the vulnerability of the host cell to reinfection, and finally allow a successful infection and spreading of a second phage. [17] This cooperation creates an epidemiological tipping point, in which, depending on the initial density of Acr-phages and the strength of CRISPR/Acr binding, phages can either be eliminated or originate a phage epidemic (the number of bacteriophages is amplified). [20] [21]

If the starting levels of phages are high enough, the density of immunosuppressed hosts reaches a critical point where there are more successful infections than unsuccessful ones. Then, an epidemic begins. If this point is not reached, phage extinction occurs, and immunosuppressed hosts recover their initial state. [20] [21]

Phage immune evasion Edit

It has become clear that Acr proteins play an important role in allowing phage immune evasion, though it is still unclear how anti-CRISPR proteins synthesis can overcome the host’s CRISPR-Cas system, which can shatter the phage genome within minutes after the infection. [17]

Within all the Anti-CRISPR proteins that have been discovered so far, mechanisms have been described for only 15 of among them. These mechanisms can be divided into three different types: crRNA loading interference, DNA binding blockage and DNA cleavage prevention.

CrRNA loading interference Edit

CrRNA (CRISPR RNA) loading interference mechanism has been mainly associated with the AcrIIC2 protein family. [23] In order to block Cas9 activity, it prevents the correct assembly of the crRNA‐Cas9 complex.

DNA binding blockage Edit

AcrIIC2 has been shown not to be the only one capable of blocking DNA binding. There are 11 other Acr family proteins that can also carry it out. Some among those are AcrIF1, AcrIF2, and AcrIF10, which act on different subunits of the Cascade effector complex of the type I‐F CRISPR‐Cas system, preventing the DNA to bind to the complex. [24]

Furthermore, AcrIIC3 prevents DNA binding by promoting dimerization of Cas9 [23] [25] and AcrIIA2 mimics DNA, thereby blocking the PAM recognition residues and consequently preventing dsDNA (double-stranded DNA) recognition and binding. [26] [27]

DNA cleavage prevention Edit

AcrE1, AcrIF3 and AcrIIC1 can prevent target DNA cleavage. Using X-ray crystallography, AcrE1 was discovered to bind to the CRISPR associated Cas3. [28] Likewise, biochemical and structural analysis of AcrIF3 showed its capacity of binding to Cas3 as a dimer so as to prevent the recruitment of Cas3 to the Cascade complex. [24] [29] [30] Finally, thanks to biochemical and structural AcrIIC1 studies, it was found that it binds to the active site of the HNH endonuclease domain in Cas9, which prevents DNA from cleaving. Thus, it turns Cas9 into an inactive but DNA bound state. [25]

Reducing CRISPR-Cas9 off-target cuts Edit

AcrIIA4 is one of the proteins responsible for the CRISPR-Cas9 system inhibition, the mechanism used in mammalian cells edition. Addition of AcrIIA4 in human cells avoids Cas9 interaction with the CRISPR system, reducing its ability to cut DNA. However, diverse studies have reached the conclusion that adding it in small proportions after the genome editing has been done, reduces the number of off-target cuts at the concrete sites in which Cas9 interacts, a thing that makes the whole system much more precise. [26]

Avoiding ecological consequences Edit

One of the main objectives of using CRISPR-Cas9 technology is eradicating diseases, some of which are found in disease vectors, such as mosquitoes. Anti-CRISPR proteins can impede gene drive, which could create uncertain and catastrophic consequences in ecosystems. [31]

Detect presence of Cas9 in a sample Edit

In order to know whether a certain bacterium synthesises Cas9, and therefore uses CRISPR-Cas9, or to detect accidental or not allowed use of this system, AcrIIC1 can be used. As the aforementioned protein binds to Cas9, a centrifugal microfluidic platform has been designed to detect it and determine its catalytic activity. [31]

Phage therapy Edit

Antibiotic resistance is a public health problem that is constantly increasing, because of the bad use of antibiotics. Phage therapy consists of the infection of bacteria using phages, which are much more specific and cause less side effects than antibiotics. Acrs could inhibit the CRISPR-Cas9 system of some bacteria and allow these phages to infect bacterial cells without being attacked by its immune system. [31]


ZFIN Zebrafish Nomenclature Conventions

Full gene names are lowercase italic, and gene symbols are three or more lowercase letters and are also italicized. The letters should be unique with respect to other named zebrafish mutants and genes. Gene symbols should not be the same as gene abbreviations in mouse or human, except in cases of established orthology, where the gene symbol should match that of the orthologue. Zebrafish gene designations should not include any reference to species, for example d, dr, z or zf. The use of punctuation such as period and hyphens in gene names or symbols is discouraged, except under specific circumstances described below.
Gene names should be registered at ZFIN.


1.1. Gene Nomenclature
Genes should be named after the mammalian orthologue whenever possible. When mammalian orthologues are known, the same name and abbreviation should be used, except all letters are italicized and lower case. Members of a gene family are sequentially numbered.

Príklady:
Names - engrailed 1a, engrailed 2b
Symbols - eng1a, eng2b

In some cases when a zebrafish gene has been renamed to the mammalian orthologue from an older zebrafish name, it is still preferable within a publication to refer to the previous name. Refer to the previous name by appending the previous name in parentheses. Previous names are searchable at ZFIN.

Príklady: shha (syu), bmp2b (swr)


1.2. Duplicated genes The zebrafish genome contains duplicated segments that resulted from a genome-wide duplication in the ray fin fish lineage after it diverged from the lobe fin lineage (that included avian and mammalian species). For this reason, zebrafish often have two copies of a gene that is present as a single copy in mammals.

In these cases, symbols for the two zebrafish genes should be the same as the approved symbol of the human or mouse orthologue followed by "a" or "b" to indicate that they are duplicate copies. Before these symbols are assigned, it is important to provide evidence by mapping that the two copies reside on duplicated chromosome segments. It is preferable that all copies in one of the duplicate chromosome segments use the same "a" or "b" suffix, although this will not always be possible for historical reasons. The a or b suffix does not indicate primacy of publication and will be assigned purely based on the suffix of the surrounding genes. This terminology should not be used for duplicates that resulted prior to the divergence of ray fin and lobe fin fish. In these cases it is preferable to use terminology that is most consistent with the mammalian nomenclature.

Príklady: hoxa13a, hoxa13b

In some cases when there is a unique mammalian orthologue, but addition of the a, b suffixes would conflict with a different mammalian gene symbol, then numerical suffixes .1, .2 should be appended to the orthologous mammalian gene symbol instead of a, b.

Tandem duplicate gene, with a single mammalian orthologue should have gene symbols appended with a .1, .2, using the same symbol as the mammalian orthologue. The gene name should include the words, "tandem duplicate".

Príklady: alkaline phosphatase, intestinal, tandem duplicate 1 (alpi.1) and alkaline phosphatase, intestinal, tandem duplicate 2 (alpi.2)

When mammalian gene duplications prevent identification of a unique mammalian orthologue, then an alternate gene symbol should be chosen. A possible choice would be an approved gene symbol from a unique non-mammalian orthologue. When a gene is homologous to a human gene, but orthology is ambiguous, the gene should be named after the closest mammalian homologue with the word 'like' appended to the name of the homologue. In some cases, a gene family described in zebrafish is homologous to a mammalian gene family but the evolution of the gene family is ambiguous. Under these circumstances the zebrafish gene family should be named with the same stem as the mammalian gene family with the gene number beginning after the end of the mammalian numbering and continuing sequentially throughout the gene family. If the members of the gene family are on the same chromosome, the adjacent genes should be given sequential numbers.


1.3. Mutant loci with unidentified genes Mutant loci for which the gene has not yet been identified are given placeholder gene names. When the gene is identified, it is renamed following standard nomenclature guidelines as described above. Genes identified by mutation are typically named to reflect the mutant phenotype. The symbol should be derived from the full name. Numbers should generally not be used in naming a mutant.

Príklad: touchy feely, tuf

Mutant names should be registered at ZFIN.


1.4. Genes identified only by genomic sequencing projects
Large-scale genome sequencing projects use a variety of prediction methods to identify both open reading frames and genes. Some of these genes are already known, while others are new. Novel genes identified by these means often cannot be identified and are assigned a name comprised of a prefix, a clone name, and an integer. The prefix is used to specify the research institution that identified the gene (e.g., "si" for the Sanger Institute). A colon separates the prefix from the clone identifier. In many cases, there are multiple predicted reading frames in a single clone. These genes are distinguished with a full stop (period) between the clone name and an integer. Integers are assigned to genes in the clone as they are identified and do not indicate the order of genes. If part of a gene is found in more than one clone, the name of the first clone in which the 5' portion of the gene is found takes precedence.

Príklady: si:bz3c13.1, si:bz3c13.2, si:bz3c13.3

Genes initially identified by genomic sequencing projects are renamed using standard nomenclature guidelines (described above) as more information about them becomes available.


1.5. Genes identified only by other large scale projects
Large-scale sequencing of ESTs or full length cDNA clone sets often result in large numbers of unidentified genes. These are given placeholder names with the project prefix, a colon and a clone number, similar to genes identified by genomic sequencing projects. In these cases, the clones usually contain only one or a fragment of a single gene.

Príklady: im:7044540, zgc:165514


1.6. Transcript variants
Transcript variants that originate from the same gene are not normally given different gene symbols and names. However, variants from a single gene can be distinguished in publications by adding to the end of the full name a comma, "transcript variant", and a serial number and by adding to the end of the symbol an underscore, "tv", and a serial number.

Príklady:
Names -myosin VIa, transcript variant 1, myosin VIa, transcript variant 2,
Symbols -myo6a_tv1 myo6a_tv2

1.7 Pseudogenes

Pseudogenes are sequences that are generally untranscribed and untranslated and which have high homology to identified genes . However, it has recently been shown that in different organisms or tissues functional activation may occur. Pseudogenes will be assigned the next number in the relevant symbol series, suffixed by a "p" for pseudogene e.g. prf1.9p is the symbol for "perforin 1.9, pseudogene".

2. PROTEINS

The protein symbol is the same as the gene symbol, but non-italic and the first letter is uppercase.

Príklady: Ndrw, Brs, Eng1a, Eng2b, Ntl

Note the differences between zebrafish and mammalian naming conventions:

species / gene / protein
zebrafish /shha/ Shha
human / SHH / SHH
mouse / Shh / SHH

In publications, it is sometimes convenient to refer to a protein which has been renamed based on orthology using the more commonly known name in parentheses following the current name.

Príklady: Shha (Syu), Bmp2b (Swr)

3. ALLELES and GENOTYPES


3.1 Line designations

When describing genes wild-type alleles are indicated using a superscript "+", while mutant alleles are indicated using a superscript line designation. Line designations are composed of a institution-specific designation followed by a number. The full list of institution designations can be found at ZFIN.

Institute specific line designations should be two or three letters in length, preferably two letters. These designations should not be the same as a gene name in mouse or human. The institution designation should be followed by a unique number specific to a particular line. Other letters should not immediately follow the institution designation but may be appended to the end of the line designation to make it unique. Line designations should only contain alphanumeric characters. Dominant and Semi-dominant alleles have a d in the first position of the line designation to distinguish them from recessive alleles. Semi-dominant is defined as the situation when the penetrance of the mutant phenotype in a mutant-allele/wild-type allele heterozygote is less than complete. For example, only 70% of the individuals show the phenotype rather than 100%. This means that the letter 'd' cannot begin an institution designation. Line designations for transgenic lines follow these same rules, so the same number cannot be give to both a transgenic line and a mutant allele.

Príklady: "b" is the Eugene designation "m" is for MGH, Boston "t" is Tuebingen, Germany


3.2 Genotype nomenclature for publications

Heterozygotes and homozygotes in a single locus are depicted by having each allele separated by a slash "/".

ednrb1a b140 / ednrb1a + (heterozygote, can be abbreviated ednrb1a b140/+ )

ednrb1a b140 / ednrb1a b140 (homozygote, can be abbreviated ednrb1a b140/b140 alebo ednrb1a b140 )

For homozygous genotypes involving multiple loci, the genotype at each locus is listed in order according to chromosome number, from 1 to 25, with a semicolon to separate loci on different chromosomes.

For heterozygous genotypes, loci on homologous chromosomes are separated by a slash.

For linked loci, the haplotype on each chromosome is written sequentially, with a space separating syntenic loci. Loci are placed in the order they appear on the chromosome, top to bottom. Homologous chromosomes are separated by a slash, and non-homologous chromosomes are separated by semicolons.

For unmapped loci, genotypes of unmapped loci are listed alphabetically within braces following genotypes of mapped loci on different chromosomes.

ednrb1a b140 mycbp2 tj236 <> tl35 > (edi is unmapped, all three loci are written as if they are on different chromosomes)

Poorly resolved loci on same chromosome are listed alphabetically within braces.

<abcb 000 def m000 > (poorly resolved loci on same chromosome) ednrb1a b140 <> 000 def m000 > cx41.8 t1 (poorly resolved loci in a known interval between mapped loci, all on same chromosome)


3.3 Genotype displays in ZFIN

Due to technical constraints, genotypes at ZFIN are shown in alphabetical order by gene, and then by allele designation. See below for display of complex genotypes involving transgenic or chromosomal rearrangements.

4. CHROMOSOMES AND ABERRATIONS

The chromosome numbering system corresponds to the old Linkage Group designations with what was LG1 now named Chr1. Chromosomes are designated by non-italic numerals, 1 to 25. Reminder: cytogenetically identified chromosome numbers differ from the ‘Chr’ designations used for linkage groups and the reference genome sequence. Chromosome differences have not been observed between males and females in laboratory strains.

Príklady:
Chr1 to Chr25

Chromosome rearrangements are indicated with the following prefixes, followed by the details within parentheses. See below for specific examples. Common prefixes include:

Df, deficiency
Dp, duplication
In, inversion
Je, vkladanie
T, translocation
Tg, transgene


4.1. Deficiencies

A deficiency is defined as a deletion that removes or disrupts 2 or more adjacent loci. Intragenic deletions are not treated as deficiencies, but as small deletions and shall be named as an allele of the disrupted gene (see section 3).

The general format for naming a deficiency is:
Df(Chr##:xxx)line#

Df indicates deficiency. Termín xxx should describe the salient features of the deficiency, as determined by the investigator. In cases where the deficiency removes sequences from named genes, the name should contain the standard symbols for those genes. The deleted genes should be listed in order, when known, separated by commas. The line designation should follow standard nomenclature conventions (institution designation followed by line number).

The chromosome where the deficiency maps should be specified by its number (##) using two digits (i.e., 03 for Chr03) so that computers will order them properly.

Príklad: Df(Chr12:dlx3b,dlx4b,tbx24)b380

When a gene is disrupted at one of the two breakpoints of the deficiency, please contact the nomenclature coordinator at ZFIN for assistance ([email protected]).


4.2. Premiestnenia
The general format for naming translocations depends upon the type of translocation:

Reciprocal translocations have two separate chromosomal elements, and each element has a distinct name: T(Chr##Chr##)xxx<line#,##U.##L a T(Chr##Chr##)xxxline#,##U.##L

T indicates translocation. The elements in the parentheses are the chromosomes involved, the lower numbered chromosome is listed first, and the chromosomes are separated by a semicolon. The chromosomes should be specified by their numbers (##) using two digits (i.e., 03 for Chr03) so that computers will order them properly.

Termín xxx should describe some salient feature of the translocation, as determined by the investigator. In cases where the translocation moves a named gene primarily studied by the investigator, xxx would usually be the standard symbol for that gene. prípadne xxx could just be an experimental series number.

The line designation should follow standard nomenclature conventions (institution designation followed by line number). After the line designation comes a comma, and then a phrase that indicates the new order of the chromosomes, starting from the top of the chromosome as displayed by convention. The first number (##) is the Chr number, followed by upper case U to indicate the upper arm of a chromosome or by upper case L to indicate the lower arm of a chromosome. The location of the centromere is indicated by a period. No spaces. Translocations are written as an allele of a gene when the gene is disrupted at one of the breakpoints of the translocation. There can be as many as four alleles of a translocation.

T(Chr02Chr12)ndr2b2131,02U.12L02L a T(Chr02Chr12)ndr2b2131,12U.12L02L

This example illustrates a reciprocal translocation where a portion of the lower arm of Chr12 was translocated interstitially into the proximal lower arm of Chr2 and a portion of the lower arm of Chr2 was translocated to

the distal lower arm of Chr12.

Resolved translocations are where the two elements of the translocation separate and a mutant line has just one of the elements. This results in the animal being monosomic for some chromosome regions and trisomic for others. In these cases, the mutant line would be designated with just one of the elements rather than two as in the reciprocal designation above. The allele name would remain the same to indicate their common origin and common breakpoint.


4.3. Transgenic lines and constructs

Transgenic constructs now have their own pages in ZFIN. Transgenic construct names are important because the construct name is used in the transgenic line nomenclature when the insertion is NOT an allele of a gene (see below).


4.3.1 Transgenic constructs

Construct Nomenclature

Tg(regulatory sequence:coding sequence)

Tg indicates transgene. Within the parentheses, the most salient features of the transgene should be described. Brevity and clarity in the transgene name are favored, in general, over exhaustive detail. Regulatory sequences, which can be derived from either an enhancer or promoter, should be listed to the left of the colon. In general, the regulatory sequence is named for the gene from which it was derived or the gene/transcript that it regulates. Coding sequences are placed to the right of the colon. Not all transgenic constructs will have both regulatory and coding elements, and in this case, the colon will not be used. In cases where a construct utilizes sequences from a named gene, it should contain the standard zebrafish lowercase symbol for that gene. The entire transgene name should be italicized.

  • Enhancer trap, promoter trap, gene trap constructs : These all use the same nomenclature conventions as described for transgenic constructs, substituting Et, Pt, Gt as necessary.
  • Transgenes with transcripts in constructs: For those cases where a specific transcript or transcript promoter of a gene is used, the transcript number or name should be used. It should be noted that the use of hyphens here is distinct from the use of hyphens in regulatory or coding sequence fusions as discussed below. The hyphen in transcript names is an integral part of the transcript name and demarcates the transcript number for a gene.

Príklad: Tg(pitx2-002:GFP) In this case an internal pitx2 gene promoter that generates the pitx2-002 transcript is driving expression of GFP.

  • Fusions in constructs: Regulatory or coding sequence fusions should be separated by hyphens.

Príklad: Tg(actb2:stk11-mCherry) This construct codes for a fused protein of stk11 and mCherry under the control of the actb2 promótor.

  • Promoter elements of differing sizes in constructs: In cases where a number of constructs are generated with different sizes of promoter elements, these may be specified within the parentheses using the length of the upstream DNA:

Príklady: These examples represent two constructs that code for a fusion protein of sptb and GFP driven by an upstream enhancer either 3.5kb or 6.0kb 5' to the hhex gén.
Tg(-3.5hhex:sptb-GFP)
Tg(-6.0hhex:sptb-GFP)

However, in many cases, the changes within the construct may be too small or too complex to change the number of kbp or cannot be determined. To differentiate these constructs, they will be appended with a sequential number between the Tg (also Et, Pt, Gt) and the parentheses, instead of including further details in the name. Details will be provided in the notes field on the construct page.

Examples: original construct: Tg1(uxs1:GFP) subsequent construct: Tg2(uxs1:GFP) additional constructs: Tg#(uxs1:GFP)

  • Foreign Genes used in constructs: For those cases where a gene from a different species is used, the three letter species abbreviation should be used (Homo sapien [Hsa], Mus musculus [Mmu], Salmo salar [Ssa]) followed by a period and the gene symbol. For human genes use the standard gene symbol conventions of all capital letters. For mouse and other species, the first letter of the gene is capitalized. An exception to the 3-letter rule is Chlamydomonas reinhardtii. Please use Cr for this organism as the 3-letter abbreviation (Cre) conflicts with the abbreviation for the Cre-Lox system.

Príklad: Tg(Hsa.FGF8:GFP) Here the promoter of the human FGF8 gene is driving expression of GFP.

Príklad: Tg(Ssa.Ndr2:GFP) Here the promoter of the salmon Ndr2 gene is driving expression of GFP.

  • Mutations used in constructs: When a mutated form of a gene is used in a construct, the mutation/s in the gene can be included in the construct. The variations should be represented at the most basic level, describing either DNA or amino acid changes. Manuscript descriptions of the mutated sequence should always be related to a reference sequence (accession number) in order to be relevant and informative. The accession number will be added to the construct page.

Príklad: Tg(cav3:cav3_R26Q-GFP) The mutation results in an amino acid substitution of arginine for glutamine at position 26.

Príklad: Tg(Hsa.MPZ_1026T>A:EGFP) The nucleotide mutation is in human gene MPZ at position 1026 where T has been replaced by A.

  • Clones in constructs: Transgenic constructs using modified clones, such as BACs and PACs, should be named with the clone type inserted between the "Tg" and the "(". The accession number of the clone must be included in the publication, so it can be associated with the construct. A link to the appropriate clone will be added to the construct page.

Príklad: TgPAC(tal1:GFP) GFP is inserted within or near the coding sequence of tal1 in the PAC with the GenBank# AL592495.

  • Two or more cassettes in one construct: If there are two or more cassettes in a construct, it is necessary to distinguish between cassettes by using a comma.

Príklad: Tg(isl2b:GAL4,UAS:GFP) Tu, isl3 promoter drives GAL4, and UAS drives GFP

  • Two or more distinct constructs inserted at the same locus: If 2 or more independently injected constructs are experimentally demonstrated to be integrated at the same locus, each construct should be separated by a comma. In this case, the line will be assigned one line designation (allele) number. Note: if it is later determined that the constructs integrated in different loci, an additional line number will be needed.
  • One promoter drives two or more coding sequences in construct: When one promoter is used to drive more than one coding sequence, a comma is used to separate the gene names. This includes uni- & bidirectional promoters.
  • Construct using a regulatory element that regulates more than one gene in vivo: For those situations where a construct utilizes enhancers or promoters from genes that regulate two or more genes in vivo, only one of the genes should be represented in the name such that the gene with the lowest number or gene closest to the promoter is listed.

Príklad: Tg(dlx1a:GFP) This construct utilizes regulatory elements of dlx1a a dlx2a to drive expression of GFP. In this case the lower0numbered gene is listed in the name.

Príklad: Tg(zic4:Gal4TA4, UAS:mCherry) This construct utilizes an enhancer of both the zic1 a zic4 genes to drive expression of Gal4TA4, with an additional cassette that has UAS driving mCherry expression. In this case, the gene closest to the enhancer was listed in the name.


4.3.2 Enhancer trap, promoter trap, gene trap constructs

These all use the same nomenclature convention as described for transgenic constructs above, substituting Et, Pt, or Gt as necessary.


4.3.3 Transgenic lines

Transgenic lines are of two types, those that are known to create alleles of genes and those that are not known to create alleles of genes. For a line that does not create an allele of a gene, the feature name consists of the construct name appended with a unique line number with no superscript. The line number should begin with the laboratory designation followed by a unique number.

For lines that do create alleles of a gene, a standard genetic representation is used, where the allele designation is superscripted above the gene, but is appended with a Tg to indicate that it is a transgenic insertion allele. Details regarding the construct used will be available on the genotype page. Gene traps and enhancer traps known to create alleles of a gene are handled in a similar fashion, appending Gt or Et to the allele designation.

4.3.4 Stable transgenic lines derived from another transgenic or founder line

When new lines of fish with unique, stable, and heritable transgenic compositions are generated from another transgenic line, the derived lines should all receive unique allele/line designations. If the derived line and the original line are generated in different laboratories, the derived line should be assigned the allele/line designation associated with the second laboratory.

Original allele generated at Caltech: ct1 new lines derived from ct1 and generated at Caltech: ct2, ct3 OR ct1a, ct1b new lines generated from ct1, but generated at University of Oregon: b###


4.3.4 Display of complex genotypes at ZFIN

Genotypes at ZFIN are shown in alphabetical order with transgenic lines that are not alleles of genes first, then other alleles.

5. PRIORITY IN NAMES

As described above, zebrafish genes are named based on orthology to a human or mouse gene. If an ortholog cannot be identified, then the name that appears first in the literature will be given priority assuming it follows other nomenclature guidelines. ZFIN recommends submission of proposed gene names via the ZFIN form or consultation with the zebrafish nomenclature committee ([email protected]) for nomenclature assignment.

When a mutation is found in a previously cloned zebrafish gene, then the mutant will be referred to as an allele of the gene. If both the cloned gene and the mutation are known by different names and later found to be the same gene, then the name of the gene usually takes priority. The exception to this rule is when the mammalian gene has a gene symbol that is less than two characters such as the mouse gene brachyury which has the symbol T. In this case the zebrafish gene retained the original name no tail, ntl.

6. MAPPING AND SEQUENCING INFORMATION

The genome project began in 1994, and by 1996 the genetic map was closed. NIH funded major programs to develop a doubled haploid meiotic mapping panel, deficiency strains and expressed sequence tags (ESTs), The ESTs and anonymous markers have been mapped on two radiation-hybrid panels. The Sanger Institute began full genome sequencing in 2001. A physical map is being constructed from the BAC libraries used for sequencing. Genomic information is updated regularly on ZFIN.