Evolution blog

09 April 2012

DNA beoordeeld vanuit informatietheoretisch perspectief

Om de betrouwbaarheid van DNA als informatiedrager op een onafhankelijke manier te kunnen beoordelen gebruik ik de theorie van 'Error-Correcting Codes' zoals beschreven wordt door John MacCormick (2012) Nine Algorithms That Changed the Future: The Ingenious Ideas That Drive Today's Computers. We hebben het immers over DNA als informatiedrager en het onderzoeksveld informatica beschikt over een goed uitgewerkte mathematische theorie van informatie overdracht. Dus bij de informatica zijn we bij het juiste adres.

Dat wil niet zeggen dat we informatietheorie blindelings kunnen toepassen op DNA. Maar we voorkomen in ieder geval dat we, zoals gebruikelijk, DNA opvatten als het beste middel van informatie overdracht dat de natuur ons te bieden heeft. Als DNA het enige informatie opslagmiddel is, hoe zouden we het dan met iets anders kunnen vergelijken?

De eerste en meest simpele methode om fouten in informatie overdracht te detecteren is domweg de informatie te herhalen. (Tussen haakjes: een favoriet fragment uit een interview op tv van een man die letterlijk zei:

"Ik zeg alles maar één keer. Ik zeg alles maar één keer. Ik zeg alles maar één keer."

MacCormick noemt dit 'the repetition trick' (p.62). Als je de hele boodschap tweemaal herhaalt is de kans klein dat ze allebei dezelfde fout bevatten. Maar je weet niet welke van de twee de foutloze is. Daarom moet je de boodschap drie maal of nog vaker herhalen en kijken welke het vaakst voorkomt. Dat zal de juiste zijn. Dit is natuurlijke een nogal kostbare en inefficiënte methode. Het verbazingwekkende is dat de natuur deze methode heeft toegepast: DNA is dubbelstrengs. De boodschap is in tweevoud aanwezig. We zouden niet zo gauw op dit idee komen, omdat we zo gewend zijn aan het feit dat DNA een geniale dubbele helix is. We zeggen dan: uiteraard is DNA dubbel omdat enkelstrengs DNA veel te instabiel en dus onbetrouwbaar is als opslagmedium. Maar dat is precies het punt. Het kan wel zijn dat dubbelstrengs DNA stabieler is, maar deze methode is 100% redundant en kost bovendien tweemaal zoveel aan bouwstenen die ook gesynthetiseerd moeten worden. Je kunt dus ook zeggen dat dubbelstrengs DNA een compensatie is voor een zwakheid in plaats van een genialiteit. De volledige informatie zat immers ook al in enkelstrengs DNA. Denk aan mRNA dat enkelstrengs is en de volledige informatie voor het eiwit bevat. Dus we hebben 100% herhaling van de informatie in dubbelstrengs-DNA.

In de informatietheorie is herhaling de simpelste methode. Maar die wordt eigenlijk niet gebruikt omdat die zo ontzettend verspillend is. Vooral als het om megabyte en gigabyte hoeveelheden gaat. Een bekend evolutiehandboek [1] schrijft dat de worm Caenorhabditis elegans een verbazingwekkend lage mutatiefrequentie heeft van één puntmutatie op de 100 miljoen bases. Dat is een hele goede score, maar er wordt niet bij gezegd dat de kosten een 4-voudige genoomredundantie, en verder nog ongeveer 10% overhead aan DNA-repair genen zijn. Want het DNA-repair systeem moet je ook als overhead rekenen. Het zou immers niet nodig zijn als DNA foutloos gerepliceerd zou worden. Voor een eerlijke vergelijking zou je ook de software die checksums berekent er ook bij moeten tellen. Ik weet niet hoe groot die is. Ik denk redelijke kort, want het zijn elementaire berekeningen.
Bedenk verder dat het menselijk chromosoom 1 (het grootste) alleen al 247 miljoen bases telt. Voor het menselijk genoom totaal zou dat neerkomen op ruim 30 mutaties als het 1x gekopieerd zou worden [2].

In de evolutieleerboeken zie je vaak staan dat de cel feitelijk gebruik maakt van die redundantie bij het repareren van DNA (mismatch van bases) [3]. In feite heeft een diploid organisme dus een 4-voudige herhaling van genetische informatie. Ieder chromosoom is in tweevoud aanwezig en ieder chromosoom bestaat weer uit dubbelstrengs DNA. In totaal 4 maal. De cel schijnt ook gebruik te maken van de diploïde informatie. Dit wordt recombinational dna repair genoemd [6]. Dit kun je allemaal slim noemen, maar uit informatietheoretisch oogpunt is dit de methode met de grootste overhead. In de informatica kan het met véél minder overhead, zoals de redundancy methode [4] en de nog efficiëntere checksum en pinpoint methodes (zie MacCormick hoofdstuk 5). Deze methode voegt extra bitjes toe aan het einde van de informatie die het mogelijk maken vast te stellen of er fouten in de boodschap zitten. Het mooie van deze methodes is dat ze niet alleen foutdetectie maar ook foutcorrectie mogelijk maken [5]. Bij informatie overdracht in computers kan de overhead van checksums minder dan 1 duizendste van een procent van de totale informatie zijn, terwijl er vrijwel 100% garantie is op een foutloze informatie overdracht. En er worden nog betere fout correctie methodes ontwikkeld. Die zijn wel weer ietsje groter.

Dit alles kan verder uitgediept worden, maar ik hoop de lezer op een spoor gezet te hebben. Informatietheorie biedt een onafhankelijke theorie waarmee je de prestaties van DNA als opslagmedium kunt beoordelen.

Opmerkingen

Scott Freeman, Jon Herron (2007) Evolutionary Analysis, p. 149.

Nu kun je wel zeggen die fouten zijn juist nuttig voor evolutie, en genetische diversiteit, evolvability, adaptability, maar we hadden het over betrouwbare informatieoverdracht. Het nut en de efficiëntie van mutaties is een heel ander verhaal. De overgrote meerderheid van mutaties zijn geen verbeteringen.

Het is mij nog niet duidelijk hoe de cel bepaalt welke van de twee bases de foute is en alleen de foute corrigeert. Mogelijk gaat de cel er van uit dat bij replicatie de oude streng correct is en alleen de mismatch in de nieuwe streng corrigeert. Dit lijkt me tenminste een mogelijkheid.

De genetische code maakt ook gebruik van redundantie: de meeste aminozuren worden door meerdere base tripletten in DNA gecodeerd. Dit voorkomt een groot aantal fouten in de aminozuurvolgorde van eiwitten. Strikt genomen worden hier geen fouten in DNA gecorrigeerd, maar de gevolgen van fouten geneutraliseerd. Dit lijkt op de Redundancy trick van MacCormick (p. 64)

Doet de natuur aan checksums? Mogelijk is Nonsense-mediated mRNA decay waarbij een door mutatie ontstaan stopcodon midden in een eiwit herkend wordt en vervolgens het mRNA vernietigd wordt. Dit kun je slim noemen. Dit is altijd beter dan het ingekorte foute eiwit produceren, maar beter was het om de fout eerder te herkennen en het stopcodon te corrigeren. Het probleem is: hoe weet je wat het originele codon was? Gokken wat het meest waarschijnlijke codon was? Een andere mogelijke foutdetectie methode is detecteren of een exon door 3 deelbaar is omdat codons uit 3 bases bestaan. Maar hoe moet je zo'n fout herstellen als je hem al gedetecteerd had?

Een ander mechanism dat gebruikt schijnt te maken van de 4-voudige redundantie is meiotic silencing by unpaired DNA (MSUD). Het is begrijpelijk dat het gedurende meiosis gebeurt omdat dan de homologe chromosomen paren. Er wordt geen repair verricht, maar silencing van het DNA. (toegevoegd: 11 april)

Postscript 17 april:
Een goed en gratis overzicht over DNA repair vind je hier:
http://www.web-books.com/MoBio/Free/Ch7G.htm
Het is onderdeel van een website met gratis ebooks, waaronder Molecular Biology Web Book

Chapter 7: DNA Replication, Mutation and Repair

04 April 2012

Koonin over Dawkins 'selfish genes' en het repareren van DNA

Ik liep tegen een interessante passage aan in Eugene Koonin The Logic of Chance. Die passage zet het thema van mijn serie blogs over 'De ontdekking van de structuur van DNA' in een nieuw licht. Niet dat Koonin dat zelf doet, maar dat maakt het juist des te interessanter. Eerste citaat:

"Replication of the genetic material is the single central property of living systems" (p. 413)

De replicatie van het genetisch materiaal is de belangrijkste eigenschap van het leven. Er staat nog net niet 'het doel van het leven'! Hij vervolgt:

"Once one realizes that replication of the genetic material is the single central property of living systems, there is no logical escape from the selfish gene perspective. In particular, Dawkins provocatively claimed that organisms are but vehicles for replicating and evolving genes. (p.413–414).

Iets verder wordt hij nog specifieker:

"All phenotypic features of organisms emerge and evolve only inasmuch as they are conductive to genome replication." (414)

Dit is natuurlijk het beroemde selfish gene concept van Dawkins. Het fenotype (lichaam) van bacterie, plant en dier staat ten dienste van de replicatie van het genoom. Voeg nu uw achtergrond kennis toe: dat genoom bestaat uit DNA. En de relevante informatie in DNA berust op de specifieke Watson-Crick base paring van de bases A met T en C met G. Nu ziet u ook waarom de volgende passage cruciaal is:

"A large fraction [!] of the core phenotype consists of anti-entropic devices that lower the error rate of information transmission in the replication process itself, as well as the ancillary processes of transcription, translation, and protein and RNA folding, and keep in check the deleterious effects of those errors that do occur". (414)

Baron Münchhausen trekt zichzelf aan zijn haren uit het moeras.
( wikipedia )

Koonin claimt dus dat een groot deel van de machinerie van een organism in feite tot taak heeft kopieer fouten te minimaliseren. Bij een bacterie wordt 10% van het genoom voor DNA repair gebruikt (p.275) en de mens heeft tenminste 130 DNA-repair enzymen. Het woord anti-entropic devices betekent eigenlijk systemen om degradatie te verminderen zoals DNA-repair (is in eerdere blogs ter sprake gekomen). En verder om fouten bij het vertalen van genetische informatie naar eiwitten te herstellen. Want ook daar worden fouten gemaakt. En dat is weer belangrijk omdat eiwitten de machinerie vormen die replicatiefouten moeten herstellen. Foutgevoeligheid van DNA oplossen door voor méér eiwitten in het DNA te coderen! Een wonderbaarlijke prestatie die lijkt op Baron Münchhausen die zich aan zijn haren uit het moeras trok.
Als U zich afvraagt wat maag, darm, mond, tong, tanden, etc in ons lichaam doen, dan heeft Koonin daar ook een antwoord op: die zorgen voor de grondstoffen voor replicatie en de rest van het lichaam in stand te houden. Een typsiche Dawkiniaanse selfish gene beschrijving! Typerend voor Koonin gebruikt hij 'replicatie' in plaats van 'DNA'. Hij bedoelt de componenten van DNA: 4 bases, deoxyribose, fosfaat, nucleosides, nucleotides.

Ik vertaal dit naar DNA: die fouten bestaan uit fouten in de Watson-Crick base paring (AT en CG) die we punt-mutaties noemen. Ten tweede: inserties, deleties die in feite berusten op breuken in de fosfaat-suiker backbone van DNA (de backbone was chemisch steviger dan de base binding zoals we in eerdere blogs concludeerden). Maar zowel de base paring als de fosfaat-suiker backbone maakten DNA tot zo'n chemisch perfect molecuul, zoals we in vorige blogs gezien hebben. Een molecuul waar nauwelijks chemische alternatieven voor te vinden zijn. 'Optimaal gezien de omstandigheden' zei iemand. Een molecuul dat chemisch niet anders opgebouwd kan worden dan het is. Een noodzakelijk molecuul. Als je Röntgen-diffractie patronen en de bestanddelen kent, volgt daaruit noodzakelijkerwijs de driedimensionale structuur van DNA. Zo logisch zit DNA in elkaar. Welnu, 'the secret of life' is dat het leven een groot deel van zijn machinerie nodig heeft om beschadigingen en replicatie fouten in DNA te herstellen!

Nota bene: het is mijn interpretatie van bovenstaande passages van Koonin dat een groot deel van de biologische machinerie van ons lichaam tot taak heeft de chemische tekortkomingen van DNA als informatiedrager te compenseren. Evolutie heeft gekozen voor DNA en het compenseren van de nadelen van DNA.

Koonin heeft het nergens in zijn boek over de chemische structuur van DNA (dubbele helix). Hij vraagt zich niet af of er een andere/betere backbone of bases mogelijk zijn. Hij noemt Watson en Crick op pagina 21, maar laat nergens een afbeelding van het beroemde Watson-Crick DNA model zien. Hij heeft het (heel abstract!) over de betrouwbaarheid van informatieoverdracht in biologische systemen (p.275). Hij heeft het alleen over DNA als drager van genetische informatie of 'genome'. Koonin is dan ook een genome onderzoeker. Ergens anders (p.24) zegt hij dat het principe van foutgevoelige replicatie substraat onafhankelijk is, zoals bij computer virussen. Het 'grappige' is dat Koonin de Shannon informatie theorie nodig heeft om te concluderen dat fout-vrije informatie overdracht onmogelijk is: "Information theory is adamant in its insistence on the impossibility of error-free information transmission." (p.23). Wel, dat is een omweg. We kennen immers de chemische eigenschappen van DNA! Die bepalen of fout-vrije transmissie mogelijk is of niet. Bovendien beperkt Koonin's abstracte informatietheoretische benadering het zicht op het ontstaan van DNA en het ontstaan van het leven. En dat is een heel ander onderwerp, maar komt wel uitgebreid aan bod in zijn boek.

Samenvatting

DNA replicatie is cruciaal in de evolutie ('essentie van het leven')
maar DNA heeft nadelen (replicatie fouten, beschadigingen) veroorzaakt door de chemie van DNA
die nadelen worden (ten dele) door repair systemen opgevangen
DNA replicatie én DNA repair vormen 'de essentie van het leven'
DNA repair wordt uitgevoerd door enzymen die in het DNA gecodeerd moeten worden
dat kost méér DNA dat onderhouden moet worden
een kosten/baten kwestie? het levert meer op dan het kost?

Enkele recente blogs over DNA

10 mrt 2012: Enkele verbazingwekkende feiten over zwakke plekken in DNA
2 mrt 2012: Stabiliteit van DNA wordt schromelijk overdreven

en nog 10 blogs in januari en februari ! (klik op label DNA.)

Postscript 5 april 2012

Ik schreef dat het toevoegen van DNA repair enzymen méér DNA kost dat onderhouden moet worden. Wat nu als er mutaties optreden in DNA-repair enzymen? Dan kunnen die zichzelf (en de rest van de genen!) niet meer adequaat repareren! Potentieel een catastrofe! Vergelijk dit met de menselijke samenleving wanneer in een ramp- of oorlog situatie gewonden naar ziekenhuizen worden gebracht. Wat nu als het ziekenhuis personeel zelf gewond of ziek is? of het ziekenhuis gebombardeerd, ingestort of weggespoeld is? Die crisissituatie in de menselijke samenleving is een goede metafoor voor een genoom met gemuteerde DNA-repair-genen!

01 April 2012

Indische gans waargenomen.

Koppeltje Indische gans Anser indicus, Hoogekampse plas, t.N.v Utrecht

Hoewel ik ze nooit eerder in het wild in Nederland gezien had (voor zover mijn geheugen gaat) is dit onmiskenbaar de Indische gans (Bar-headed Goose, Anser indicus): gele snavel en poten, typerende koptekening. Volgens de vogelgids zijn dit uit gevangenis ontsnapte vogels die in zeer kleine aantallen vooral 's winters in Nederland gezien kunnen worden. De vogels waren behoorlijk tam, dus makkelijk te fotograferen met een eenvoudig toestel. Hij hoort in Centraal-Azië thuis. Hij is bekend omdat hij over de Himalaya trekt, dat is op meer dan 8 km hoogte. Hij is daarmee de hoogst vliegende vogel. Heeft speciale aanpassingen voor het vliegen op grote hoogte (maar die heeft hij in Nederland niet echt nodig!).

PS het blijkt op waarneming.nl dat twee andere waarnemers ook deze ganzen waargenomen hebben op dezelfde plaats en dezelfde dag en op 31 maart. Wat ik ook vond op waarneming.nl is dat Anser indicus hybridiseert met andere ganzen, een evolutionair interessant gegeven!