20 May 2019

Waarom er geen gaten zitten in de genetische code

Abstract:
Julius Fredens et al have succeed to eliminate 2 codons for the amino acid Serine and 1 stopcodon from the genetic code of the bacterium Escherichia coli by creating a fully synthetic genome.
In this blog I suggest that on an evolutionary time scale mutation pressure
in this bacterium will re-create the deleted codons elsewhere in the genome by point mutation. But because they cannot be translated, those blank codons will function as stop codons and will terminate protein synthesis. This would be harmful. Consequently, there will be a negative selection for blank codons and a positive selection for meaningful codons (as long as those codons can be translated). I suggest a general rule: natural genetic codes will not have empty codons. All 64 codons will have a meaning. There will be no holes.
U en ik zijn hier op aarde omdat twee mensen seks hebben gehad. De oorzaak dat U en ik op onze ouders lijken is DNA. Maar, het rare is dat er in het DNA helemaal geen bouwplan voor het menselijk lichaam opgesloten ligt. Het DNA 'codeert' [1] uitsluitend voor eiwitten. Preciezer gezegd: DNA codeert voor losse aminozuren, de bestanddelen van eiwitten. Het DNA codeert voor maar 20 verschillende aminozuren. Dat is alles! Dat is de hele erfelijkheid! Dat is alles wat DNA doet! Hoe uit losse aminozuren een menselijk lichaam ontstaat is een ander verhaal. Over die genetische codering, de universele vertaalsleutel om de informatie in DNA te vertalen naar eiwitten, gaat dit blog.

Hoe zit die code in elkaar? De natuur heeft gekozen voor een nogal merkwaardige manier van coderen. Hoe er voor die 20 aminozuren wordt gecodeerd heeft niemand kunnen voorspellen. Dat volgt uit geen enkele theorie. Er is geen formule waar je het uit af kunt leiden. Het lijkt een arbitraire afspraak [4]. De natuur heeft gekozen om 61 codes te gebruiken voor 20 aminozuren. Dat is gemiddeld 3 codes per aminozuur. Voeg daarbij nog 3 stop codes. Dat zijn in totaal 64 codes. Die 64 codes vind je traditioneel in een tabel van 64 vakjes (zie figuur).

Ik schreef gemiddeld 3 codes per aminozuur. Maar bijvoorbeeld het aminozuur Serine heeft 6 verschillende codes. Anders gezegd: Serine heeft 6 synonieme codes. 'Synoniem' impliceert dat die codes onderling inwisselbaar zouden zijn. In de tabel met alle 64 codes zie je daarom Serine 6 keer verschijnen. Ieder vakje is een andere code.

Figuur 1: 64 universele genetische codes en 20 aminozuren.
Twee codes van de zes codes voor aminozuur Serine worden vervangen door 2 andere
en één stop code wordt vervangen door een andere (totaal 3 substituties).
(eigen figuur gebaseerd op bestaande tabel).
Recent zijn onderzoekers er in geslaagd in de bacterie Escherichia coli de codering voor Serine terug te brengen van 6 naar 4. Er zijn dus 2 codes geëlimineerd. Ze hebben de 'universele' genetische code gewijzigd.

Maar omdat er duizenden eiwitten zijn met Serine komen de Serine codes ook duizenden keren voor in het DNA. De onderzoekers hebben dit toegepast op de bacterie Escherichia coli. Heb je het goed gedaan dan is de bacterie levensvatbaar en blijft het precies dezelfde eiwitten produceren als de ongemodificeerde bacterie. Het fenotype is hetzelfde.

Tevens hebben ze ook nog 1 stopcode van de 3 vervangen door een van de andere twee zodat er maar 2 stop codes overblijven (figuur 2). Een stopcode markeert het einde van het eiwit waarvoor het gen codeert. Ook hier is de functionaliteit hetzelfde gebleven. Als het goed is worden nog steeds dezelfde eiwitten geproduceerd.

Figuur 2. Drie codes zijn verdwenen (blanco): 1 stopcode en 2 Serine codes.
Blijft over: 61 codes: 59 voor 20 aminozuren en 2 stopcodes

Om dit te bereiken moesten de onderzoekers op 18.214  plaatsen in het genoom van de bacterie de codes vervangen. De totale lengte van het DNA van de bacterie E. coli is 4 miljoen basenparen. Ze hebben zodoende ongeveer 1% van het DNA veranderd. Dit lijkt niet veel maar dit is zelfs ondoenlijk met moderne  CRISPR-cas technieken. Hoe hebben ze dat opgelost? Gewoon de wijzigingen in de computer gedaan en daarna het hele genoom van 4 miljoen basenparen laten synthetiseren door een robot. De techniek is veel en veel gecompliceerder, en er kwamen ook interessante complicaties boven water, maar dat laat ik nu even zitten.

Vergelijk: Wat de onderzoekers gedaan hebben is te vergelijken met het vervangen van het woord 'boos' door het synoniem 'kwaad'; 'zoenen' door kussen'; en 'expositie' door 'tentoonstelling' in een boek. Er zijn 3 woorden geëlimineerd. Het boek wordt er niet korter door, maar je gebruikt minder verschillende woorden om hetzelfde te zeggen. Je hebt synoniemen geëlimineerd.

Het eindresultaat is een genetisch gemodificeerde bacterie met een synthetisch genoom van 61 codes: 59 voor aminozuren en 2 voor stop codes. En de bacterie blijft leven. Dat is het bewijs dat je codes kunt vervangen door synonieme. Het lijkt simpel maar is een grote technische prestatie.

In theorie zou je verder kunnen gaan door 4 overblijvende codes voor Serine te reduceren tot één. En het zelfde doen voor alle 20 aminozuren. Ieder aminozuur heeft dan één code. En de stop codes vervangen door 1 stop code. Zo houd je 21 codes in plaats van 64 codes over. Het absolute minimum. [2]

Waarom?
 
Dit zet je aan het denken over de vraag: waarom heeft evolutie dit niet gedaan? Waarom zoveel synoniemen? Gaat evolutie niet voor eenvoud? Na een nachtje slapen kreeg ik het idee dat organismes met ongebruikte codes (de witte vakjes in figuur 2) evolutionair instabiel zijn. Waarom?

Als je nog even naar de tabel figuur 1 kijkt dan zie je dat 4 Serine coderingen in hetzelfde blok alleen in de derde letter verschillen. De eerste en tweede letter zijn hetzelfde. Daarom staan ze natuurlijk in hetzelfde blok van 4. Als er nu een mutatie in de 3e letter optreedt, dan heeft dat geen effect. Het blijft Serine. Dat geeft een zekere evolutionaire robuustheid. 
Maar wat als er door een spontane puntmutatie een niet bestaande code ontstaat? (blanco vakje in de figuur). Je kunt die code wel verwijderd hebben uit het genoom, maar die kan spontaan terugkeren! Dan heb je een dode code die nergens voor codeert [3]. Die code hebben de onderzoekers immers verwijderd. Dat kan (en zal?) tot gevolg hebben dat de synthese van het eiwit afbreekt en er geen intact eiwit geproduceerd kan worden. Het zal hetzelfde effect hebben als een stopcode denk ik [6]. Dat is vervelend als het eiwit belangrijk is. En het hele verhaal wordt fataal als je de genetische code hebt gereduceerd tot het theoretisch minimum van 21 codes.

Op korte termijn in het laboratorium zal dat niet ernstig zijn. Het effect is te vergelijken met gewone spontane mutaties. Die heb je altijd. Maar op langere evolutionaire termijn zullen er vele eiwitten (met Serine) niet gesynthetiseerd kunnen worden. Dat kan schadelijk of zelfs fataal zijn voor het organisme.

Afgezien van deze zeer specifieke laboratorium omstandigheden, geldt in het algemeen: de genetische code is niet voor niets behoorlijk redundant. Organismen zijn daardoor beter bestand tegen puntmutaties vooral van de derde letter.
Figuur 3. Door 8 buren wordt er mutatiedruk uitgeoefend
 op de lege codes. (eigen figuur)
toegevoegd: 21 mei.
Als je in kaart brengt welke puntmutaties in de blanco codes (die verwijderd waren) terecht komen, dan kom je tot 8. De blanco codes hebben 8 buren. Dat is 8 van de 64 of 12,5%. Zie figuur 3. De mutaties zijn in dit geval van de 2e en 3e letter van de code. Blanco codes zijn niet veilig. Ze worden op termijn opgevuld. Niet op de originele plaatsen, want die verschillen in alle drie bases [5]. Dit is misschien wel de reden dat er nooit gaten in de genetische code zullen zitten. Laten we de volgende hypothese opstellen:
Heb je eenmaal een 3-letter genetische code, dan heb je automatisch 4x4x4 = 64 codes en alle 64 codes zullen opgevuld worden. Er komen geen gaten voor.

Dat zou wel eens een reden kunnen zijn waarom de genetisch code is zoals hij is. Als ik me niet vergis.


Update 22 mei: inleiding verbeterd en Engelse samenvatting toegevoegd. 
27 mei: Titel gewijzigd in: Waarom er geen gaten zitten in de genetische code.

 

Dankwoord

Met dank aan de vaste blogbezoeker Harry die mij wees op de publicatie.


Opdracht

Dit blog is opgedragen aan Mei Li Vos: wat is de genetische code toch mooi ontworpen!


Noten

  1. De woorden 'code', 'coderen' , 'vertaalsleutel', 'informatie', 'synoniem'  en dergelijke zijn hier figuurlijk gebruikt. Dat is gangbaar taalgebruik en dat volg ik voor het gemak. Maar er is niemand die letterlijk iets gecodeerd heeft. Daar heb ik eerder over geblogd (hier).
  2. In de praktijk kan niet ieder synoniem zonder nadelige gevolgen vervangen worden door een willekeurig ander. Dus die zijn niet 100% synoniem. Daar ga ik nu even niet op in.
  3. De onderzoekers hebben het betreffende tRNA verwijderd, of in ieder geval overbodig gemaakt. 
  4. Een arbitraire afspraak: wij hebben de huismus, de Engelsen noemen dat 'house sparrow' en de Duitsers 'Haussperling', terwijl onze spreeuw in Engeland 'starling' en in Duitsland 'Star' heet. Het Engelse 'star' is weer heel wat anders. Het zijn arbitraire afspraken om dingen aan te duiden. Het doet er niet toe welke codes je gebruikt, als iedereen het consistent gebruikt, werkt het. [ 22 mei ]
  5. De blanko codes worden niet opgevuld door mutatie op dezelfde plaats in het genoom omdat de onderzoekers maximaal verschillende Serine codes gebruikt hebben om ze te vervangen (zie pijlen in figuur 1). Ze ontstaan op plaatsen waar buren in de genetisch code tabel liggen. Het is enigzins verbazend dat er 3 stopcodons zijn omdat ze 5 buren hebben die door puntmutatie kunnen muteren naar een stopcodon: dat zijn 5 kansen dat een codon dat voor een aminozuur codeert in een stopcodon verandert. Waarom zou 1 stop code niet voldoende zijn? Dan hou je nog 2 codes over die nuttig gebruikt kunnen worden voor aminozuren zoals Tryptofaan die maar 1 code hebben. [ 23 mei 2019 ]
  6. Een punt mutatie die een code voor een aminozuur verandert in een stopcode heet: non-sense code. (wikipedia: https://en.wikipedia.org/wiki/Nonsense_mutation ). De vraag is of de kunstmatige situatie van blanco codes die de onderzoekers hebben gecreëerd vergelijkbaar is met een stopcode. Een stopcode wordt niet door een tRNA gelezen, maar door een Release factor (eiwit). Maar die zijn er natuurlijk niet voor de blanco codes die de onderzoekers hebben gecreëerd. Het effect zou kunnen zijn dat de synthese niet netjes wordt gestopt, maar het proces bevriest en dus een ribosoom bezet blijft. Dat zou wel eens erger kunnen zijn dan een normale stopcode! [ 29 mei 2019 ]

Bronnen

 

Vorige blogs over dit onderwerp


Plaatsen van commentaren:

Ik heb moderatie en woordverificatie voor comments op dit blog uitgezet. Desondanks moet U plaatjes beoordelen bij het inzenden van comments. Dat is niet om U te plagen! Ik kan dat niet uitzetten. Google dwingt dat af. Zie het als 'betaling' voor een gratis blog. Wordt U daar gek van, stuur het comment dan per email en dan plaats ik het.

7 comments:

  1. gert,


    Het lijkt een arbitraire afspraak [4] zeg je.

    Is hier het ‘frozen accident’ van Crick hier niet beter op zijn plaats; want we hebben geen idee waarom er die 61 (-3) nucleotiden/basen, ofwel 'codes' voor die 20 (beter: juist déze 20) aminozuren zijn. Het probleem is maw veel groter dan die term afspraak suggereert- zou ik zeggen.

    En dat geldt ook voor de grote verschillen in redundantie. Bijv 6 codons voor Serine en maar 2 voor Tyrosine. Of heeft dat verschil simpel te maken met het feit dat Serine gewoon vaker gebruikt wordt dan Tyrosine? Maar dan nog.

    Is de analogie tussen codons en letters niet inzichtelijker dan die tussen codons en woorden? Bij letters gaat het namelijk ook om de volgorde- ik moet van een sekwentie een zinnig alternatief betekenisvol woord maken, zeg een functie: Een niet een heel ander woord (heel andere functionaliteit) Bijv sekwentie ipv sequentie.

    Verder: de onderzoekers hebben een aantal letters weggegooid, en het blijkt dat we heel goed zonder kunnen (al werkt die nieuwe bacterie 60% minder!) Oo hier lijkt me de analogie meer voor de hand liggen: we kunnen inderdaad heel goed zonder de Q en de X en de Y in ons alfabet. En op de plaats die daardoor vrij komt zouden we (dus ook) heel goed nieuwe letters- voor allerlei nieuwe combinaties en functionaliteit- kunnen zetten.

    Enfin,of je de analogie nu op woordniveau ziet, of op letterniveau, de synthetische biologie laat zien dat bean bag genetics (ander woord voor pop gen, denk Grafen en zo) definitief de prullenbak in kan.

    Evolutie wordt een experimenteel bestudeerbaar.

    En de eerste onderzoeken mbv NN (deep learning) laten volgens mij ook duidelijk zien dat je beter data-gedreven dan 'model'gebaseerd kunt zoeken naar die spelden in die combinatorische hooibergen van aminozuren en eiwitten (patronen)- en, niet te vergeten, naar de betere letters voor nieuwe functionaliteit, dus naar het uitbreiden van de code, het veranderen van dat ‘frozen accident’.

    Nu we het toch over hem hebben: zijn centrale dogma wordt hier op zijn kop gezet. (welke betekenis je ook aan zijn term 'informatie' wenst te geven!)

    Anders gezegd: we hebben het hier niet over ‘mutation pressure’ op ‘evolutionary time scale’ die iets gaan creëren, we hebben het volgens mij over héél iets anders! .

    genoeg knuppels weer, ik hoor het wel!






    ReplyDelete
  2. Harry! OK! Daar gaan we:
    Behalve kennelijk arbitraire verschillen in mensentalen die ik noemde in noot 4, heb je ook arbitraire? overeenkomsten: Engelse school = Nederlandse school = Duitse Schule. Die te verklaren zijn met Common Descent.
    Maar ga NIET 1-op-1 deze voorbeelden op de genetische code projecteren! De genetisch code legt het verband tussen twee werelden: de wereld van van aminozuren (en eiwitten) en de wereld van 4 bases ATCG, dus DNA. Daar gaat het om. De mensentaal is niet bedoeld om een koppeling te maken tussen 2 werelden...

    Als je even googelt: 'the origin of the genetic code', dan kom je al gauw bij bv:
    Origin and evolution of the genetic code: the universal enigma
    Eugene V. Koonin* and Artem S. Novozhilov.
    met de uitspraak:
    "Even a perfunctory inspection of the standard genetic code table shows that the arrangement of amino acid assignments is manifestly nonrandom."
    dwz: de meeste aminozuren zijn geclusterd in de tabel: Serine 4 bij elkaar en verderop nog 2 bij elkaar. etc. Dus: een mix van clustering en randomness.
    Michael Yarus (2010) zegt het zo:
    "Is seems now likely that only 25% of the codons can be explained by a chemical affinity of amino acid and codon-RNA, and 75% of the codons are arbitrary assigned".
    De hoeveelheid literatuur over dit onderwerp is niet aan te slepen!!!

    Waar ik in dit blog de aandacht op hebben willen vestigen is:
    er zitten geen gaten in de code tabel! Alle vakjes zijn ingevuld!
    Dat heb ik me nog nooit zo duidelijk gerealiseerd! Jij?
    En hoe zou dat komen???

    Met mutation pressure (mijn term) bedoel ik:
    Stel TTA (LEUCINE) muteert in: TCA (was Serine, nu blanko!)
    door een simpele puntmutatie. Nu heb je een codon dat de onderzoekers zorgvuldig uit het genoom en de code tabel hadden verwijderd! en dat nergens voor codeert!
    (had ik in het blog moeten uitleggen)
    ... ... ...

    ReplyDelete
  3. Gert

    eerste snelle reactie:

    je zegt

    De mensentaal is niet bedoeld om een koppeling te maken tussen 2 werelden..."

    Dan gaat je eigen analogie (met woordsynomiemen) dus óók niet op

    Trouwens, wat denk je dat we hier zitten te doen- welke betekenis je ook wenst te geven aan de term 'koppeling' en 'werelden".

    Maar goed, je kunt stellen dat het niet om 2 maar om 3 gaat: de wereld van jouw hersens, die van mij en de wereld buiten ons..;-)

    wordt vervolgd

    (overigens denkik dat ik wel degelijk goed begrepen had waar je in je blog aandacht aan wilde besteden, maar ik durfde aandacht te vragen voor een punt waar de onderzoekers zelfs nogal mee bezig zijn..)

    ReplyDelete
  4. harry schreef "niet te vergeten, naar de betere letters voor nieuwe functionaliteit, dus naar het uitbreiden van de code".

    Dat is inderdaad het idee op de achtergrond om nieuwe 'onnatuurlijke' maar nuttige aminozuren te introduceren in de genetische code.
    Zodra je dat hebt gedaan plus een bijpassend tRNA, heb je lege plek(ken) opgevuld. En dan heb je niet meer het probleem dat lege plekken door mutatie opgevuld worden zoals ik hierboven beschreef. Ondertussen gaf mij die unieke bacterie met lege plekken de gelegenheid te filosoferen over eigenschappen van de genetische code. ...

    Terzijde: op het blog van Gerdien een didactisch zeer goed stuk over ruis en de novo genen.
    https://evolutiebiologie.blogspot.com

    ReplyDelete
  5. gert,

    we verschillen van interesse:

    als ik je goed begrijp wilde je laten zien hoe er nog enige logica dan wel structuur in dat bevroren ongeluk van Crick zit. Of dat dat in beton gegoten is oid. Zo komt het bij mij over, om die vreselijke uitdrukking maar eens te gebruiken

    Juist omdat ik denk dat de onderzoekers heel iets anders willen, en ook uitproberen. En als dat lukt, vind ik dat veel interessanter en relevanter- ook voor de hele evolutietheorie.

    Zoals de club van Chin laat zien zitten we uiteindelijk misschien helemaal niet vast aan die nucleotiden die we toevallig in ons dna hebben, dus ook niet aan die 20 toevallige aminozuren, en dus al helemaal niet aan die eiwitten waar we het nu mee moeten doen.

    Dát vind ik nou relevant, om daar over te speculeren (zie bijv Church in Regenesis, Venter in zijn boek), razend interessant. Want het roep méér vragen op dan we kunnen beantwoorden.

    (maar gaat snel: neem bijvoorbeeld: Nature Genetics. doi:10.1038/s41588-019-0411-1)

    Dank voor de link- over transcriptie gesproken trouwens! ;-)

    ReplyDelete
  6. Harry, nee het is geen verschil in belangstelling. Het is een verschil in focus in dit blog. Ik heb in 2012 geblogd over alternatief DNA:
    Waarom DNA? (5) XNA: een belangrijke stap naar functioneel alternatief DNA
    https://korthof.blogspot.com/2012/04/waarom-dna-5.html

    En 2017:
    De volgende stap: het synthetiseren van het complete menselijke DNA
    https://korthof.blogspot.com/2017/03/de-volgende-stap-het-synthetiseren-van.html

    en:
    Intelligent ontworpen DNA
    https://korthof.blogspot.com/2017/03/intelligent-ontworpen-dna.html

    ik zal die toevoegen aan het blog want het gaat over synthetisch DNA.

    In de boven besproken publicatie hebben de auteurs nog geen alternatief aminozuur geïntroduceerd. Vandaar.

    ReplyDelete
  7. ok, gert

    klopt
    en
    dankt dat mijn geheugen even opfriste!

    ReplyDelete

Commentaar wordt gemodereerd bij posts ouder dan een maand.