21 October 2019

ObsIdentify software gekraakt! Vlinders identificeren zonder te weten wat een vlinder is...

In een vorig blog heb ik met ObsIdentify software (hierna met O aangeduid) in waarneming.nl wat verkennende experimenten uitgevoerd. O is een ideale, geduldige en onvermoeibare proefpersoon. Maar, hoe goed is het programma in het herkennen van soorten? Is het bestand tegen onscherpte, kleurafwijkingen, manipulatie? Hoe meer de afbeelding afweek van de natuur, hoe onzekerder O werd. Steeds bleef O binnen de soortgrenzen (Atalanta in dit geval) wanneer je de vlinder zelf modificeerde.
Nu heb ik een reeks experimenten gedaan waarbij O een verkeerde soort voorspelde op basis van zeer subtiele maar totaal irrelevante manipulaties in de achtergrond van de vlinder. Ik noem dat een hack. Dit alles binnen het kader van de ethische hacker want mijn bedoeling is meer inzicht en misschien zelfs het programma verbeteren.

Voor de volgende tests heb ik een Atalanta uit de Elseviers vlindergids genomen [1]. Een geïdealiseerde vlinder met alle karakteristieke kenmerken van zijn soort tegen een schone, witte achtergrond. Alles begon met deze afbeelding:

Atalanta  (Elseviers vlindergids, 1971) O: 61,3%
750 x 556 pixels
O herkent deze Atalanta met 61,3% zekerheid. De lage zekerheid komt waarschijnlijk door subtiele kleurafwijkingen. Bijvoorbeeld: het wit op de vleugel is niet wit genoeg. Maar deze afbeelding is wel een goed uitgangspunt om uit te proberen hoe je de zekerheid omhoog kunt krijgen. Bij de eerste test had ik het percentage in de afbeelding gezet en ter controle testte ik de vlinder nog een keer:
Atalanta met zekerheid 73,4%
Tot mijn verbazing steeg het zekerheidspercentage van 61,3% naar 73,4%! Dat kan toch niet waar zijn! Aan de vlinder zelf was niets gewijzigd. Is O echt zo onbetrouwbaar? Is dit een reproduceerbaar effect of een toevallige variatie?

Atalanta met zekerheid 95,2%
Als je het getal er 4x in zet (zie afbeelding) dan stijgt de zekerheid tot 95,2% ! Een gigantisch effect! Wat is hier aan de hand? Totaal irrelevante informatie verhoogt de zekerheid. O moet die getallen aanzien voor kleine vlekjes. Dus ik begon met zwarte, rode en gele stippen te experimenteren. En steeds was er merkbaar effect op het zekerheidspercentage. Hier met twee gele cirkels in de achtergrond:

Atalanta 60,5% (2 gele stippen size: 30)
Toen ik de 2 gele stippen stapsgewijs groter maakte van 30 naar 35 pixels, zag O plotseling een Kleine vos met een zekerheid 52,4%! Zie hieronder:
Kleine Vos 52,4% (2 gele stippen size: 35)
Ten overvloede: zo ziet een Kleine vos er uit:
Kleine vos (ObsIdentify: 100.0% zeker) ©wikipedia
Het omslagpunt ligt exact bij de overgang van 34 naar 35 pixels. Dus O gaat van een Atalanta naar een Kleine Vos door 1 pixel verschil! Een verschil dat met het blote oog niet te zien is. En bovendien pixels die zich buiten de vlinder zelf bevinden. Dat O gevoelig is voor zeer subtiele verschillen is prima, maar stippen in de achtergrond van de vlinder kan niet de bedoeling zijn. Maak je nog grotere zwarte stippen dan weet O voor 88% zeker dat een Atalanta een Kleine vos is! [2]. En voor de duidelijkheid: O weet met 100% zekerheid hoe een Kleine Vos er uitziet. 

Dit was wel het allerlaatste wat ik verwacht had. Als er ergens het onderscheid tussen vlinder en achtergrond duidelijk is, dan is het wel in deze afbeeldingen. Dit zou nooit mogen gebeuren. Wat zegt dit over de werking van de software? Hoe kan O überhaupt vlinders op naam brengen als hij dit soort bizarre fouten maakt? En tòch kan hij/zij het.


Computer says: Kleine Vos 99,6% [ 10 Nov 2019 ]

Ik heb nog andere manieren ontdekt om O op een dwaalspoor te brengen. Het is me gelukt om de zekerheid voor Kleine vos op te voeren tot 99,6% met louter toevoegingen in de achtergrond! (zie afbeelding). Geen mens twijfelt er aan dat dit nog steeds een Atalanta is. Computer says: Kleine Vos 99,6%.


Conclusie

Als je weet hoe je software subtiel moet manipuleren om een fout antwoord te genereren, noem ik dat een hack. Je hebt een zwakke plek in de software gevonden. Dat simpele stippen in de achtergrond voldoende zijn om de ene soort in de andere soort te transformeren, betekent dat de software geen flauw idee heeft wat het verschil is tussen vlinder en de achtergrond. Met andere woorden: hij weet domweg niet wat een vlinder is! Dat is best verbazingwekkend als je bedenkt dat een achtergrond van een vlinder altijd verschillend is. Een indicatie dat O moeite heeft met een verwarrende achtergrond is de vaak herhaalde aanbeveling: "Probeer de foto bij te snijden."
Ik heb nog vele andere aanvallen uitgevoerd, en er zijn nog vele andere denkbaar. In dit blog heb ik me beperkt tot de meest spectaculaire die ik tot nu toe gevonden heb. Ondanks dit alles werkt O in de dagelijkse praktijk prima. Maar: O is een black box: je stopt er foto's in, en er komen namen uit, maar wat er precies in het hoofd van O omgaat is voor ons een groot mysterie.

Een recente publicatie in Nature [3] constateert dat zelfs de beste machine learning AI programma's gevoelig zijn voor hacks en dat het zeer moeilijk is om AI programma's te beveiligen tegen iedere denkbare aanval. Nu ligt niemand –behalve misschien sommige biologen– wakker van het feit dat software een vlinder fout identificeert. Maar als de onderliggende software ook gebruikt wordt in beveiliging van smartphones met gezichts- iris-, stem- of vingerafdrukherkenning, of de toegang tot je bankrekening, dan is dit zeer verontrustend nieuws. Denk ook aan de recent door de politie ingevoerde automatische herkenning van bellende automobilisten. Of denk aan autopilot software in Tesla's die alle mogelijke objecten zoals tegenliggers, fietsers, voetgangers, overstekende wilde zwijnen razend snel met 100% zekerheid moet kunnen herkennen om botsingen te voorkomen. Letterlijk dodelijk zijn de aanvalsdrones die zelf het slachtoffer uitzoeken op basis van gezichtsherkenning. Als je op de hoogte bent van de zwakheden van 'intelligente software', dan zet ik mijn leven niet op het spel.


Update 10 Nov 2019: Atalanta toegevoegd: 99,6%


Postscript

27 Okt 2019
 
Het blijkt dat de auteur van ObsIdentify Laurens Hogeweg is. Volgens zijn Linkedin profiel is hij Senior Software Engineer at Naturalis Biodiversity Center, en is hij tevens verbonden aan de Radboud Universiteit Nijmegen. Recentelijk heeft hij gepubliceerd over ObsIdentify: Machine Learning Model for Identifying Dutch/Belgian Biodiversity (20 Aug 2019)


Noten

  1. In die gids staan samengestelde vlinders: de bovenkant van de vleugels links en de onderkant rechts. Om de vlinder compleet te maken heb ik de rechtervleugel vervangen door een gespiegelde kopie van de linkervleugel.
  2. Deze bug kan te maken hebben met de beginsituatie van minder dan 100% zekerheid (60%). Maak je het wit in de vleugels witter, dan is O veel zekerder en maakt het de fout niet meer. Maar in de natuur zijn de omstandigheden ook nooit ideaal! Lichtval is steeds anders.
  3. Douglas Heaven (2019) Why deep-learning AIs are so easy to fool, Nature, 9 Oct 2019 (gratis toegang)

Alle blogs over ObsIdentify

  1. 30 September 2019 Test van ObsIdentify algoritme voor automatische identificatie van dieren en planten deel 1
  2. 21 Oktober 2019 ObsIdentify software gekraakt! Vlinders identificeren zonder te weten wat een vlinder is... deel 2
  3. 19 November 2019 ObsIdentify (3) Who is afraid of red, yellow and blue? De Vlinder Turing test voor mens en AI deel 3
  4.  4 December 2019 ObsIdentify herkent Kuifeend, Kikker, Kiekendief en vele andere soorten in plaatjes van 1 pixel deel 4
  5. 23 december 2019 Hoe zeker is 100%? Soorten met 100% zekerheid herkennen in random pixels. deel 5
  6.  4 Feb 2020 Hacken voor dummies en gevorderden. Beeldherkenningssoftware ObsIdentify is makkelijk te misleiden. deel 6
  7. 18 maart 2020 ObsIdentify geeft ALTIJD foute antwoorden buiten zijn eigen domein. Ook met hoge zekerheden. deel 7

08 October 2019

The Resurrection of Darwin's Pangenesis theory?

©http://darwin-online.org.uk
Is Darwin's long forgotten and discredited theory of Pangenesis resurrected from the dead? A publication in Nature Reviews Molecular Cell Biology [1] suggests his theory is at least partly true and was the inspiration for a number of scientists after Darwin.

What is Pangenesis? Darwin published his Pangenesis theory in volume 2 of The Variation of Animals and Plants under Domestication (1868). According to the authors the Pangenesis theory proposed a mechanism for the flow of hereditary information between cells and between generations.
Strinkingly, this definition merges two completely different phenomena in one concept: cell-to-cell communication and the transmission of genetic information from parent to child. Next, the authors claim that "emerging evidence of cell-to-cell communication urges the reconsideration of this 150-year-old theory."

More precisely, the Pangenesis theory says (according to the authors) that in addition to cell division as a means of transferring information, every cell emits numerous gemmules. They travel through the body and unite with other somatic cells and germ cells. So, it appears that both parts of the theory cannot be separated. It is a complex theory. Darwin knew this.

Additionally, and importantly, gemmules can be modified by the environment. If those modified gemmules end up in germ cells, and are transmitted to the next generation, it is called 'Lamarckian inheritance'. The consensus in the biological community is that Lamarckian inheritance is not possible and should be rejected.

What is the new evidence according to the authors? They point to extracellular vesicles such as exosomes [2] which transport information in the form of RNA and proteins between cells, including germ cells. In particular small RNAs have been found in sperm. They are the carriers of acquired phenotypes such as diet-induced metabolic disorders and mental stress phenotypes. This is an extra-chromosomal type of inheritance. There is no integration in DNA. The authors propose that also circulating cell-free DNA and mobile RNAs could be viewed as instances of Darwin's pangenes. If these factors are indeed inherited, they seem to me a form of transient inheritance.

The transmission of exosomes is not the same as Transgenerational epigenetic inheritance because transgenerational epigenetic inheritance is the transmission of epigenetic markers of DNA or histones. Those markers are inherited together with chromosomal DNA and follow therefore a Mendelian pattern.
However, the authors also include epigenetic inheritance as evidence for Darwin's Pangenesis theory. This is confusing because these markers are not transmitted in exosomes. Exosomes carry small pieces of RNA and proteins and not whole genomes with epigenetic markings attached. Epigenetic markers cannot be transmitted as free floating individual molecules. They could not be viewed as modern incarnations of Darwin's gemmules. And gemmules are at the heart of Pangenesis. Therefore, I do not consider epigenetic markers an evidence in favour of Darwin's Pangenesis. In a more general sense, epigenetic markers could be  evidence for the rather vague idea of inheritance of acquired characteristics. But one should be careful to distinguish those different meanings.

I think it is a little far-fetched to interpret Darwin's gemmules in cellular or molecular terms as the authors do [5]. Darwin did sometimes use the word 'cells', but he certainly could not think in molecular terms. Furthermore, in my view his Pangenesis theory tries to unite too many different phenomena in one theory: ordinary heredity, the inheritance of acquired characteristics, recessiveness, causes of variation, and more.
I think it is confusing that the authors of the Nature article lump together chromosomal inheritance -which equals the complete genome of an organism- with modifications of that DNA, or a few small RNA molecules. The difference in the amount of information can easily be a million fold. Human sex cells contain three billion DNA base pairs. That is huge compared with what could be present for example in exosomes. Furthermore, chromosomal DNA is necessary to create a new organism (plant, animal) and inherited epigenetic modifications are mostly facultative additions.
The well-known role of histone methylation in animal development [3] has nothing to do with inherited epigenetic modifications, since those tissue-specific embellishments are necessarily newly created in the embryo. One cannot inherit tissue-specific instructions through one sperm and egg cell.
The authors downplay the fundamental difference of Darwin's theory of heredity with the current theory. Heredity means for Darwin the aggregation of the gemmules produced by all somatic cells. For Darwin gemmules are not an addition to the main mechanism, they are the main mechanism of heredity. We now know that this is completely wrong [4]. Furthermore, I think the authors do not present an overwhelming amount of new evidence to justify the resurrection of Darwin's Pangenesis theory.

Having said all that, I still think that the chapter about Pangenesis in The Variation of Animals and Plants under Domestication deserves a fresh study. It should be interesting to investigate how Darwin thought about the material basis of heredity without knowledge of Mendelian inheritance, chromosomes and DNA. I think it is interesting despite the fact that Darwin had a profound Lamarckian view of heredity. Darwin collected an enormous amount of data and his theory of Pangenesis was designed to explain them all. And as usual he discussed objections to his theory. I expect that reading Darwin will learn us a lot about his struggle with those objections, and how he tried to create a synthesis of the knowledge of his time, just as he did with his theory of evolution. Undeniably, it is one and the same person who created the theory of evolution and the Pangenesis theory.



Notes

  1. Yongsheng Liu, Qi Chen (2018) 150 years of Darwin’s theory of intercellular flow of hereditary information, Nature Reviews Molecular Cell Biology volume 19, pages 749–750 2018.
  2. Do not confuse 'exosomes' with 'exomes' because 'exome' refers to the part of the genome that codes for proteins in contrast to 'introns' which are eliminated from a gene before being translated in to a protein.
  3. Ashwini Jambhekar, Abhinav Dhall, Yang Shi (2019) Roles and regulation of histone methylation in animal development, Nature Reviews Molecular Cell Biology volume 20, pages 625–641 (2019)
  4. One of the main problems with gemmules (pangenes) as the mechanism of heredity is: if gemmules are continuously produced by all body cells and spread through the body, what mechanism guarantees that exactly the right amount and types of the gemmules, not too many, not too few of the same kind are collected in the germ cells (egg, sperm)? Imagine many copies of 20.000 free floating genes through the whole body! Total chaos! We now know that the function of chromosomes and cell division is to ensure that the daughter cells get the right amount of genes. I do not know whether Darwin was aware of that problem. [ 9 Oct 2019 ]
  5. Darwin knows about cells: "Virchow, the great supporter of the cellular theory" but the theory was not well established at the time. [ 9 Oct 2019 ]

Further Reading