![]() |
| Peter Waterhouse |
Bestaat random DNA? Bestaan er random genen? random eiwitten? Bestaan er genen die uit random DNA zijn ontstaan? Wat zijn eigenlijk 'random' genen? Ik vind dit uiterst fascinerende vragen die me niet los laten.
Ze kwamen bij me op naar aanleiding van een recent artikel in Nature [1] Het artikel bevatte een raadselachtige opmerking. Het citaat valt nogal met de deur in huis, daarom heb ik voor degenen die niet op de hoogte zijn van van DNA sequencing een korte inleiding onder aan het blog. Hier de raadselachtige opmerking:
"Sequences encoding potential peptides from ORFs of this size are often ignored or filtered out by automated genome-annotation programs, because the probability of their occurring by chance alone increases exponentially as they get shorter." [1]
'peptides' = kleine eiwitten van 2 – 50 aminozuren.Dus: genomics software filtert potentiële genen van minder dan 100 baseparen eruit omdat die door toeval ontstaan zouden kunnen zijn. Door toeval? So what? An ORF is an ORF! Wat een onzin: hoe 'weten' die genen nu dat ze 'toevallig' zijn? Als ze de standaard signalen hebben van genen (het zijn immers ORFs), dan zal de celmachinerie ze toch gewoon verwerken? en mRNA en eiwitten produceren? Als je alle genen van de mens wilt inventariseren, dan ga je toch niet een betrekkelijk willekeurige ondergrens van 100 bp vaststellen? Dan mis je alle kleine genen! Discriminatie van kleine genen! Dat ze toevallig ontstaan zijn is een menselijk criterium. De cel weet daar toch niets van af?
'ORFs' = Open Reading Frame = stuk DNA dat kan coderen voor een eiwit.
'this size' = kleiner dan 100 baseparen.
'Genome-annotation programs'= software die uit miljarden bases in het DNA (potentiële) genen detecteren.
De redenen voor dit filter kunnen complexer zijn dan in het artikel gesuggereerd wordt, maar toch wordt dit filter standaard gebruikt in de wereld van genomics. Ik heb het nagevraagd bij de auteur van het artikel, prof. Waterhouse. En hij bevestigd [7] dat er standaard een ondergrens van 100 baseparen in de software staat ingesteld en dat daardoor géén peptiden met een lengte van 33 aminozuren of minder ontdekt kunnen worden. Maar biochemici kennen vele peptides met biologische werking [8]. Wat is hier aan de hand?
Waarom die ondergrens?
Dit is de redenering van Peter Waterhouse:
Statistisch gezien moeten er heel veel korte ORF's*) in het genoom zitten, maar
in de ORF database zien we ze niet terug. Het is dus de discrepantie van de berekening en de data in de database. Ik wist niet dat dit probleem bestond!
*) ORF = Open Reading Frame = dat stuk DNA van begincode tot stopcode dat gelezen en vertaald kan worden tot eiwit.Waarom 'statistisch gezien'?
Van de 64 codons zijn er 3 stopcodons. Als je een stuk DNA hebt met willekeurige volgorde van de codons, dan zal gemiddeld 3 op de 64 een stopcodon zijn. Een stuk DNA van 21 codons lang zal dus zeker voorkomen. Statistisch gezien kunnen er stukken véél langer dan 21 codons voorkomen als het DNA maar lang genoeg is. Statistici hebben berekend dat als je een stuk DNA van 2000 baseparen hebt, de kans op een ononderbroken stuk van 400 baseparen 50% is (dus een ORF van 400 bp).
Hoeveel kleine genen zijn er?
Ik vond [3] dat in de beroemde fruitvlieg Drosophila maar liefst 600.000 ORFs van minder dan 100 aminozuren zijn gevonden! (=300 base paren omdat 3 bases coderen voor 1 aminozuur) Dat is net iets groter dan hierboven, maar vallen in de kleine eiwitjes categorie. Als je dus van plan bent alle genen van de mens te inventariseren en je hebt al een lijst van 25.000 genen die je moet valideren, dan ga je om de klus praktisch uitvoerbaar te maken alle ruis eruit filteren en dat zijn ... de kleinere!
Wat is klein?
Een gen dat uit één exon bestaat is gemiddeld plm 2.000 baseparen lang (= 666 amino zuren lang). Een gen bestaat meestal uit meerdere exons. De gemiddelde lengte van een gen is 17.000 baseparen (= 5666 aminozuren) [4]. Daarmee vergeleken is een gen van minder dan 100 baseparen echt heel klein. Het kan een eiwit coderen van maximaal 33 aminozuren. Maar met zo'n eiwitje kun je toch leuke dingen doen (bv hormonen). Mag U zelf googelen (peptide, dipeptide, etc).
Kunnen die allemaal functioneel zijn?
Het is zéér onwaarschijnlijk dat die 600.000 kleine ORFs in Drosophila allemaal functionele eiwitten opleveren. Het aantal genen in een organisme heeft nl. een bovengrens. Die bovengrens wordt bepaald door de mutatiefrequentie en de intensiteit van natuurlijke selectie. Theoretisch is er dus wel plaats voor miljoenen genen in ons DNA, maar natuurlijke selectie kan die niet 'onderhouden' [5].
Hoeveel kleine genen zijn functioneel?
Voor de mens weet ik het niet, maar de auteurs van het Drosophila artikel [3] komen na zorgvuldige analyse tot zeker 400 en potentieel 4000 kleine genen (ORFs).
Worden kleine genen gediscrimineerd?
Ja! Niet alleen omdat software ze gewoon ongezien in de prullenbak gooit. Maar ook als je kijkt naar het boek van Scherer (2008) A short guide to the human genome, dan zoek je tevergeefs naar het kleinste gen. Wat je wel ziet: de grafiek van What is the size of a typical gene? heeft een x-as uitgedrukt in kb (=1000 bases)! Bij die maatstaf vallen de kleinste uit de boot. Je ziet hoofdstukjes: Which are the largest genes? Which genes have the largest introns? etc. Grote genen zijn interessant, kleine genen niet! Die discriminatie is al oud: in 2007 zie ik al een publicatie waarin zonder meer 300 baseparen (=100 aminozuren) als benedengrens wordt genomen om genen te herkennen! [2]. Vergelijk dat met de huidige grens van 100 baseparen.
Terechte discriminatie?
En toch: kleine genen hebben een groot probleem dat grote genen niet hebben: ze zijn klein. Hoe kleiner ze zijn hoe groter de kans dat de ORFs toevalstreffers zijn. OK. Theoretisch tenminste (zie boven: statistisch gezien). Dát probleem hebben grote genen niet: een gen van 1000 of meer ononderbroken baseparen kan geen toeval zijn. Er is nog iets: als een cel nutteloze kleine eiwitjes maakt van 20 of 30 aminozuren lang: dat is niet rampzalig. Maar nutteloze eiwitten van duizenden aminozuren produceren is een zware belasting voor de cel. Het wordt een ander verhaal als er tienduizenden kleine eiwitjes geproduceerd worden. Doe zelf de optelsom: vele kleintjes maken één grote. Tenslotte: zélfs als je alleen maar ORFs wilt elimineren die om diverse redenen er random uitzien, dan heb je toch selectief méér kleintjes te pakken. Dus terechte discriminatie? Eerst onderzoeken, dan weggooien!
Nog verder terug in de tijd
In 1997 was er al een complete genoom van de gist beschikbaar [6]. (gist is eencellige en het kleinere genoom is makkelijker te sequencen dan dat van de mens). Opvallend: ze zagen toen al het nut van die kleine eiwitjes maar gezien het enorme aantal van een kwart miljoen met lengte tot 300 baseparen (=100 aminozuren), was het een gigantisch karwij. Het lijkt wel of sinds die tijd het nut van kleine eiwitjes in de vergetelheid is geraakt...
Wat nu?
In mijn blog We weten niet precies hoeveel genen de mens heeft had ik al geconstateerd dat dat makkelijker gezegd is, dan gedaan. Om verschillende redenen. Ze zijn moeilijk te vinden. En: waar moet je ze zoeken? Toch moet het wil je een volledige inventarisatie van het menselijke genoom.
Wat er nu moet gebeuren is het menselijk genoom opnieuw analyseren zonder die ondergrens van 100 baseparen en de gevonden genen analyseren. Dat is inderdaad een hele klus. Het kleinste peptide is per definitie 2 aminozuren lang (di-peptide), met 1 is het gewoon een aminozuur.
Reactie op prof Waterhouse
De reden dat kleine potentiële genen softwarematig worden uitgefilterd is niet dat ze wel eens statistische ruis zouden kunnen zijn, want daar weet de cel niets van. De cel leest DNA af ongeacht of het gen iets nuttigs doet. De oplossing van het misverstand is onderscheid maken tussen proxy en ultimate verklaringen. Proxy: de cel leest DNA af volgens de biochemische wetten. Ultimate: evolutionair gezien zal de cel niet vele generaties lang waanzinnige hoeveelheden nutteloze eiwitjes produceren, want die vormen een belasting voor de verwerkingscapaciteit van de cel (ribosomen) en dat gaat ten koste van de productie van nuttige eiwitten.
Let op: ik heb alleen bezwaar tegen de reden van uitfiltering. Waterhouse doet een pleidooi voor het analyseren van kleine genen. En daar ben ik het mee eens.
Filosofisch slot
Ik vind het nog steeds jammer en kan het maar moeilijk accepteren dat er duizenden potentiële genen (ORFs) in ons genoom zitten die helemaal niets doen. Het is niet zomaar junk, ze hebben de kenmerken van genen. Gewoon zonde van de ruimte die ze in het DNA in beslag nemen! Je zou er zo ontzettend veel nuttige dingen mee kunnen doen. Zoals ziektes die een genetische basis hebben bestrijden...! Maar ik ben voorbarig: eerst afwachten wat het onderzoek oplevert.
Zoeken van genen in DNA voor beginners
Stel je een héél lange reeks van een paar miljard letters
en leestekens in willekeurige volgorde voor.
Probeer daar woorden en zinnen in te ontdekken.
Dat is de magnitude van de taak die wetenschappers
hebben die het menselijk genoom willen lezen.
In de biologie bestaan er twee talen:
1) taal van het DNA, 2) taal van eiwitten.
De taal van DNA wordt geschreven in bases en die van
eiwitten wordt geschreven met aminozuren.
Er is een exacte relatie tussen de twee talen.
Ze zijn 1 op 1 in elkaar te vertalen.
Taal van DNA: genen zijn de woorden:
genen zijn gescheiden door stopcodons (spaties);
een stuk DNA tussen twee stopcodons heet ORF
ORFs zijn potentiele genen (woorden).
Biochemici kennen duizenden eiwitten,
en die kunnen ze vertalen in de taal van DNA.
Van dat DNA is bewezen dat ze eiwitten produceert.
Dat zijn bewezen genen.
Genetici kunnen in de computer DNA vertalen in eiwitten.
Maar hier geldt: eerst het eiwit zien, en dan geloven!
|
Noten
- Peter M. Waterhouse, Roger P. Hellens (2015) Plant biology: Coding in non-coding RNAs, Nature 2 April 2015
- Eric S. Lander et al (2007) 'Distinguishing protein-coding and noncoding genes in the human genome', PNAS. Opmerkelijk: toen al constateerden ze: "The largest open question concerns very short peptides, which may still be seriously underestimated." Maar, wat is kort?
- Hundreds of putatively functional small open reading frames in Drosophila
- Stewart Scherer (2008) A short guide to the human genome. (online)
- Dit komt door mutatiedruk. Theoretical calculations based on the mutational load that a genome can tolerate and observed average mutation rates of human genes (~10-5 per gene per generation) suggest an upper limit of about 100.000. ( hier)
- Small Open Reading Frames: Beautiful Needles in the Haystack Genome Research, 1997
- Hi Gert,
What we are saying is that the chance of an ORF of this size occurring just by chance is enormous, yet the number of ORFs of this size ( smaller 100nt) that are annotated in genomes is very small. We believe that a major cause of this , having talked to a number of expert bioinformaticians, is that in the annotation programs, ORFS of under 100nts are filtered out either very early (e.g. rejected in the first parse) or later in the algorithms. If there are an huge number, as you say, the cell machinery will act on them – either making small peptides or acting as regulatory elements ( e.g.. stalling or loading ribosomes on the RNA) and they are potentially having a very large effect on the cell/organism. Alternatively, there is a very strong selection pressure against transcripts with such small ORFs – either as upstream uORFs or as small transcripts. What we are saying is that we do not know the answer because the bioinformatic interrogation of genomes/transcriptomes does not look at ORFs of this size. if we ignore this question it is possible that we are missing a whole new layer of regulation, so we need to be ingenious in finding ways to test this hypothesis. I am sure you will know that the existance of microRNAs was only discovered in the last 15 years and that their existence and immense importance came as a real surprise to biologists. Perhaps we will see the same thing for small peptides.
We do do not guarantee that small peptides, from ORFs that have been ignored because they are so small, are of a similar importance as microRNAs – just that they might be.
Best regards,
Peter - Zie: peptides, dipeptides, tripeptides, tetrapeptides, etc. Voorbeelden: sex-peptide (36 amino acids = 108 baseparen), endorphins: α-endorphin (16 aa = 48 bp) en beta-endorphin (31 aa = 93 bp) en dus dicht tegen de 100 bp grens. Een complicatie is dat het DNA dat codeert voor peptides, introns kan bevatten waardoor de totale genlengte veel groter is dan 100bp. In dat geval worden ze wel gedetecteerd met de standaard instelling van de software. (toegevoegd: 14 april)
Vorige blogs over dit onderwerp:
- We weten niet precies hoeveel genen de mens heeft blog 24 mrt 14
- ENCODE project is een mijlpaal, maar 80% functioneel dna roept vragen op 18 sept 2012. Ik zou de ENCODE publicaties moeten onderzoeken op kleine eiwitjes... wat zeggen ze daar over?
- ‘Dark proteins’ hiding in our cells could hold clues to cancer and other diseases. Nature 29 Jan 2025. "... a list of more than 7,000 of these ‘non-canonical’ ORFs, which generally don’t meet the requirements to be considered protein-coding genes and have therefore been omitted from databases". ... researchers call them microproteins because they tend to be much shorter than 100 amino acids ... suggests that the vast majority of them are errors of translation or serve roles only for regulating translation ... Ribosomes are energy-hungry organelles, and the cost of producing these proteins is “quite tremendous”, he says. "Why would a cell translate junk over and over again?" ... "We may be watching the birth of a protein," says Weissman.










