Schattingen over de laatste 30 jaar van het aantal menselijke eiwit-producerende genen ©Nature |
protein-coding | non-coding | total genes | source |
19.901 | 15.779 | 35.680 | GENCODE/EBI |
20.203 | 17.871 | 38.074 | RefSeq/NCBI |
21.306 | 21.856 | 43.162 | GTEx, CHESS 2018 [2] |
De nieuwste data (GTEx, CHESS 2018) zijn gebaseerd op messenger RNA (mRNA). Zo selecteer je genen die daadwerkelijk afgelezen worden. Zo filter je 'genen' uit die wat betreft DNA kenmerken op genen lijken, maar toch niet afgelezen worden. Maar dan ben je er nog niet. Ze controleerden of kandidaat genen ook voorkomen bij andere soorten. Dat telde als tweede criteriumof het echte genen zijn [3].
De aantallen geven een behoorlijke toename te zien ten opzichte van de twee andere onderzoeken. Maar ze zijn gebaseerd op computer berekeningen, terwijl de vorige twee handmatig beoordeeld zijn. Daartegenover staat dat het nieuwste onderzoek op een veel groter aantal individuen berust [4]. Wat dat betreft zou het nieuwste onderzoek betrouwbaarder en vollediger moeten zijn. De onderzoekers claimen 5000 nieuwe genen gevonden te hebben.
Wat me opvalt is dat in de pers meestal uitsluitend het aantal eiwit-producerende genen gerapporteerd wordt. Ook in de grafiek van Nature staan alleen eiwit-producerende genen. Waarom? De zgn. niet-coderende genen, die dus alleen RNA produceren zijn net zo belangrijk. Omdat dat RNA belangrijke functies in de cel vervuld. Je komt dan op een totaal van ruim 43.000 genen. Het dubbele!
Dit is een interessant getal, want volgens berekeningen is het maximaal aantal genen dat natuurlijke selectie kan onderhouden ongeveer 40.000 ! [5]. Als deze schatting uit 1972 nog iets waard is, zitten we dus dicht bij ons maximum. Als je daar nog bij optelt dat er ook nog gen regulators zijn (die bijdragen aan het aflezen van genen), dan wordt het helemaal spannend. Een recente schatting van evolutiebioloog Michael Lynch is dat de 'kwaliteit van ons genoom' door schadelijke mutaties iedere generatie met 1% daalt [6]. Dat zou er op kunnen wijzen dat we ons maximum aantal genen al overschreden hebben. Maar er is een tweede factor. Dat is dat we natuurlijke selectie verhinderen haar werk te doen door de steeds verdergaande medische en sociale zorg. De oorspronkelijke publicaties [1,2] houden zich daar echter niet mee bezig. Die houden zich met fundamenteel onderzoek bezig.
Voor de liefhebbers nog een interessant gegeven: de onderzoekers vonden ruim 97.000 nieuwe zgn. splice variants in eiwit-producerende genen. Dat zijn verschillende manieren (alternative splicing) waarop introns [7] uit genen geknipt kunnen worden. Die worden niet als aparte genen geteld want ze zijn van hetzelfde stuk DNA afkomstig. Er bestaat dus tussen mensen een grote variatie hoe er geknipt wordt. Geen mens doet dat op precies dezelfde manier. Het gevolg: we hebben ook niet precies dezelfde eiwitten in ons lichaam. Wat is het effect van al die varianten? Zijn ze nuttig of schadelijk? Als je wilt uitzoeken of een ziekte wordt veroorzaakt door splice varianten dan ben je voorlopig nog niet klaar.
Alsof dat nog niet genoeg is: niet minder dan 30 miljoen stukken DNA worden afgelezen tot RNA moleculen, die waarschijnlijk van geen enkele nut zijn voor ons functioneren. 'Transcriptional noise' noemen de onderzoekers dat. Het moet wel noise zijn, want zoveel genetische informatie kan natuurlijke selectie helemaal niet onderhouden.
Een gek idee dat je miljoenen stukken DNA voor niets afleest. Dat vonden de auteurs ook: the cell is a relatively inefficient machine, transcribing more DNA into RNA than it needs.
Tot slot nog een cliffhanger (creationisten: opgelet!): ze vonden een gen dat de grootste overeenkomst vertoonde met de Chinese hamster en andere knaagdieren en veel minder met alle andere primaten. De mens heeft dus een knaagdier gen. Een evolutionair raadsel [8].
Postscript
25 jun 2018De uiteindelijke conclusie die de auteurs trekken is dat het mysterieuze gen 102723822 een verontreiniging is [9]. Het is mij niet duidelijk in welk opzicht dit een verontreiniging is: van het biologisch materiaal, bij de verwerking in het lab, bij de verwerking in de computer? En waarom zou dit het enige gen van de 43.162 genen zijn in de verontreiniging? Zou je dan niet méér genen moeten verwachten?
Ten tweede, en misschien nog belangrijker, als het een verontreiniging is, zou je dan niet 100% (in plaats van 98%) identiteit moeten verwachten met een bestaand gen in het genoom van een of andere soort? Uit hun conclusie blijkt dat het gen kennelijk in geen enkel mens voorkomt, anders noem je het geen verontreiniging. Voor mij is en blijft het een raadsel.
Postscript
20 dec 2018De traditionele definitie van eiwitproducerende genen is:
- ATG methionine start codon
- een Open Reading Frame (ORF) van minimaal 300 nucleotides lang
Bron: Ruaidhrí Jackson et al (2018) The translation of non-canonical open reading frames controls mucosal immunity, Nature 12 dec 2018
Vorig blog over dit onderwerp
- We weten niet precies hoeveel genen de mens heeft 24 Mar 2014
- Random genen en het probleem van de vergeten eiwitjes 13 April 2015
- ENCODE project is een mijlpaal, maar 80% functioneel dna roept vragen op 18 Sept 2012
Noten
- Cassandra Willyard (2018) New human gene tally reignites debate, Nature News (gratis). Het artikel is ook in de Scientific American verschenen onder dezelfde titel maar zonder de bovenstaande illustratie. Het betekent zo ongeveer: nieuwe score van aantal menselijke genen ontketent discussie. Het Nature artikel is gebaseerd op [2].
- Salzberg et al (2018) Thousands of large-scale RNA sequencing experiments yield a comprehensive new human gene list and reveal extensive transcriptional noise (preprint). (Full pdf).
- Nog een criterium: het ORF (Open Reading Frame) moest tenminste 180 baseparen of 60 aminozuren lang zijn. Dat betekent dat peptides niet meetellen. Waarom?
- "30 different tissues taken from several hundred cadavers". (!) dat zijn menselijke overledenen.
- "several researchers pointed out in the early 1970s that the estimated mutational load from deleterious mutations placed an upper limit of approximately 40,000 for the total number of functional loci" (wikipedia)
- Michael Lynch (2016) 'Mutation and Human Exceptionalism: Our Future Genetic Load', Genetics, 2016 Mar; 202(3): 869–875 (gratis full text). Citaat: "load of mutations imposed on the human population drags fitness down by ∼ 100 × 0.01 × 1% = 1% per generation".
- Introns: stukken niet coderend DNA in een gen. Ik heb er verschillende blogs over gemaakt: Het intron-mysterie voor gevorderden (2) Evolutie van introns
- Kom ik later op terug.
- "It is 98% identical to the closest rodent protein, but only 95% identical to the most similar human protein, ... It would be extraordinary for a human protein to have multiple hits to rodents that are all closer than any match to primates. Thus from evolutionary evidence, this protein is clearly a rodent protein, not a human one." "we concluded that this unplaced scaffold represents contamination in the current human assembly."