08 February 2021

Verbeterde versie ObsIdentify (NIA) herkent meer soorten, maar maakt het ook minder fouten? Deepfake portretten getest

"Verbetering beeldherkenning.
Deze week gaat onze nieuwe versie van de beeldherkenning live. De herkenning van het aantal soorten wordt opgeschroefd naar 22.303 (was 16.148)! De resultaten zijn aanzienlijk beter maar de AI is ook voorzichtiger (vooral bij dag- en nachtvlinders)." [1]

Dit stond eind december 2020 op waarneming.nl.

Mijn vraag: als ObsIdentify (NIA) beeldherkenning beter is geworden in het herkennen van planten en dieren, is het dan ook beter in het onderscheiden van dieren en mensen? Ja, ik weet het: ObsIdentify is nooit getraind met afbeeldingen van mensen. Duidelijk. Maar als het beter is geworden in het onderscheiden van buizerd en ruigpootbuizerd, moet je dan niet verwachten dat het ook beter is geworden in de veel gemakkelijker opgave om mens/dier te onderscheiden? Uit pure nieuwsgierigheid naar de werking van beeldherkenning heb ik dit uitgeprobeerd.

Voor dit blog heb ik 514 deepfake portretten aan ObsIdentify aangeboden. De meerderheid gaf een percentage lager dan 40% en een aantal lag tussen de 40% en 90%. Verrassing: er waren portretten die 90% en hoger scoorden. Hier de winnaars:

ObsIdentify voorspelt Langpootmug (familie) onbekend - Tipulidae indet. met zekerheid 91.4%

ObsIdentify voorspelt Gewone heremietkreeft - Pagurus bernhardus met zekerheid 95.0%

ObsIdentify voorspelt Euraziatische Rode Eekhoorn - Sciurus vulgaris met zekerheid 96.1%

ObsIdentify voorspelt Roze Pelikaan - Pelecanus onocrotalus met zekerheid 97.6%

ObsIdentify voorspelt Roze Pelikaan - Pelecanus onocrotalus met zekerheid 99.9%

De winnaar:
ObsIdentify voorspelt Roze Pelikaan - Pelecanus onocrotalus met zekerheid 100.0%

In totaal scoorden 9 afbeeldingen hoger dan 90%. Eén afbeelding scoorde zelfs 100%. Let op: de foto's zijn op geen enkele wijze gemanipuleerd. Zo vers uit de computer. Alle plaatjes zijn 1024x1024 pixels. Ik heb ook geen andere afmetingen of uitsneden geprobeerd. Zo ziet dat er uit in waarneming.nl vóórdat je op de Accepteer button hebt geklikt:

100% Roze Pelikaan. (screenshot 6 feb 2021)

In feite zou ik op de Accepteer button kunnen drukken en vanwege de 100% zou het algoritme van waarneming.nl het plaatje automatisch goedkeuren zonder dat er een menselijke moderator aan te pas komt [2]. De onzekere voorspellingen zijn altijd vermakelijk. Bij de laatste foto: Ooievaar, Chinese knobbelgans en Lepelaar. Dus: vogels in de nabijheid van water? Voor mij een raadsel waarom er bij 100% ook nog onzekere voorspellingen zijn. 100%-zeker is niet 100% zeker? Dit alles werpt een nieuw licht op het concept 100% zekerheid.

Conclusie: Ondanks verbeteringen maakt ObsIdentify nog steeds hetzelfde type fouten met afbeeldingen buiten haar eigen domein. Zie vorige blogs. Het begint er dus op te lijken dat dit een permanente karakteristiek is van de software.

De Deepfake afbeeldingen zijn afkomstig van:

  https://www.thispersondoesnotexist.com/

Dit type software heet Generative Adversarial Network: het creëert beelden in plaats van ze te analyseren zoals ObsIdentify doet. Buitengewoon fascinerend omdat ze zo realistisch zijn. Zoals de naam van de website al suggereert: deze personen bestaan niet. ObsIdentify denkt daar anders over: het zijn duidelijk Roze Pelikaan, Euraziatische Rode Eekhoorn en Gewone heremietkreeft. Overigens zie je dat het programma dat gezichten genereert ook rare fouten maakt. Maar dat is een ander verhaal. De complete serie van 11 foto's en met de beoordeling van ObsIdentify is hier te vinden.

In een volgend blog ga ik plaatjes die ik eerder getest heb met de oude versie van ObsIdentify vergelijken met de nieuwe versie.

 

Noten

  1. Het bericht is na enkele dagen spoorloos verdwenen. Nergens op de website is het versie nummer van ObsIdentify te vinden. De versie moet dezelfde zijn als op de smartphone: ObsIdentify 1.4.2.
  2. Het toeval wil dat alle Roze Pelikaan waarnemingen in Nederland van 2020 het kenmerk "(nog) niet te beoordelen" hebben. Ik weet niet of dat er iets mee te maken heeft. Het lijkt mij dat dat geen invloed kan hebben op het functioneren van ObsIdentify op zich.

 

Data en plaatjes

 

Vorig blogs over ObsIdentify:


  1. 30 September 2019 Test van ObsIdentify algoritme voor automatische identificatie van dieren en planten deel 1
  2. 21 Oktober 2019 ObsIdentify software gekraakt! Vlinders identificeren zonder te weten wat een vlinder is... deel 2
  3. 19 November 2019 ObsIdentify (3) Who is afraid of red, yellow and blue? De Vlinder Turing test voor mens en AI deel 3
  4.  4 December 2019 ObsIdentify herkent Kuifeend, Kikker, Kiekendief en vele andere soorten in plaatjes van 1 pixel deel 4
  5. 23 december 2019 Hoe zeker is 100%? Soorten met 100% zekerheid herkennen in random pixels. deel 5
  6.  4 Feb 2020 Hacken voor dummies en gevorderden. Beeldherkenningssoftware ObsIdentify is makkelijk te misleiden. deel 6 
  7. 18 maart 2020  ObsIdentify geeft ALTIJD foute antwoorden buiten zijn eigen domein. Ook met hoge zekerheden. deel 7.
  8. 30 mei 2020 Obsidentify voorspelt Wespendief, Buizerd en Ruigpootbuizerd op basis van foto's van dezelfde vogel. deel 8. 
  9. 26 Jun 2020: Toch nog een wespendief! deel 9
  10. 22 juli 2020: Tesla beeldherkenning en ObsIdentify beeldherkenning: steeds beter, maar maken nog steeds klassieke fouten deel 10.
  11. 11 Jan 2021: ObsIdentify herkent Cetti's zanger op tegenlicht foto met 99% zekerheid deel 11
  12. Voor alle blogs over ObsIdentify klik op label ObsIdentify

07 February 2021

Sneeuw. De vogels komen naar je toe! Vink, koperwiek, putter, zwartkop, zanglijster, mus

 

vrouwtje vink. 7 februari 2021

Koperwiek. 7 februari 2021

Koperwiek, 7 februari 2021

mannetje vink. 8 feb 2021

Putters. 8 feb 2021

vrouw zwartkop. 8 feb 2021

Het moet toch niet gekker worden! De zwartkop is een trekvogel en overwintert in Zuid-Engeland, Spanje, Marokko en Algerije. Het is een zangvogel en insecten-eter. Hier zit ze bessen van de klimop te eten. Ik vond meerdere winterwaarnemingen in Nederland! Nieuw voor mij.

Zanglijster. 10 feb 2021

Zanglijster lijkt wel een beetje op de koperwiek, maar heeft geen rode flanken en geen duidelijke lichte oogstreep. Ook lijkt de zanglijster een beetje op een vrouwtje merel, maar de zanglijster heeft een veel lichtere borst.

vrouwtje huismus 11 feb 21

 

03 February 2021

New feature in NCBI virus database: View Mutations in SARS-CoV-2

 

 

 Corona Update 3 February 2021




 

There seems to be a competition between countries to report new SARS-COV-2 variants. The media try to make sense of it and try to answer questions about how dangerous these new variants are. For example, the Scientific American:  The Most Worrying Mutations in Five Emerging Coronavirus Variants [1] and The Scientist [5].

This is a very useful article. I will return to it. But there are more variants and many more mutations. What is the total number of different mutations that have been found worldwide up to now? Answer: NCBI virus database [2]. The NCBI started an overview of all mutations in SARS-CoV-2. This is free information and no account is required. This is a user-friendly website. 

View Mutations in SARS-CoV-2 SRA Data

Click on the link View Mutations:

Table with all mutations of SARS-CoV-2

After a few seconds a table with all mutations appears with columns. See appendix for the columns in the  list.

Explanation

A non-synonymous substitution is for example: D 614 G is : amino acid D is replaced by G in position 614 in the Spike (surface glycoprotein). The 614 position is relative to the start of the first amino acid (AA) of the protein. For the Spike protein the position is between 1 and 1273. That is the length of the protein. The Spike is a relatively small protein. 

The genomic position is a number between 1 and 29,903. That is the length of the standard reference SARS-CoV-2 genome.

A synonymous substitution for example: Q 613 QQ 'replaced' by Q. This is still a substitution because the substitution is at the nucleotide level: CAA > CAG. The nucleotide change is listed also in the table.

The Count gives an indication whether the mutation is rare. In Collected location the countries of origin of the virus sample are specified. 

Furthermore, a handy feature is that each column can be sorted (up/down) by clicking on the header. Try it!

There are not yet statistics provided by the NCBI website. I counted (30 Jan) the number of  mutations in Spike protein (surface glycoprotein):

  • 264 non-synonymous mutations
  • 345 synonymous mutations 
  • 609 mutations total

This is expected: there are more synonymous than non-synonymous mutations. This is quite a lot for a protein of 1273 Amino Acids: 20% Amino Acid changes and 47% of the Spike nucleotides have mutations. The million dollar question is what the effect is on the behaviour of the protein and the properties of the virus. A first step is:


From one-dimensional RNA to three-dimensional proteins

A spectacular and sophisticated feature is the interactive 3-D display of the protein which is shown when clicking on the link of the Protein Change. Try it!

Click on the link N501Y
 

Loading data ... please wait ... (ignore error message):

Interactive 3D model of Spike protein
mouse pointer at N501.

 


try full screen video! (16 sec)

By moving the mouse pointer over the protein, the names of individual Amino Acids with position are displayed. The software is keeping track of all 1273 Amino Acids in this very complicated 3D structure! Really great software! After a lot of trial and error I found the ASN501. 

ASN = Asparagin; 1-letter code: N. 
Tip: for the table of code names for amino acids see this page

Asparagin on position 501 (N501) is the location of the famous mutation N501Y. N is replaced by Y. The amino acid it is marked by a yellow color:

zoomed in. Yellow structure is Asparagin in position 501

Not surprisingly, the yellow position 501 is located on the outside of the molecule. It must attach to the human ACE2 receptor. It could not work if it were located at the inside of the molecule.

Try it. Play with it. Move the cursor over the structure. Manipulate the point of view with your mouse by holding the mouse button down and move. Watch the different angles of view. Try other mutations. (click on other mutations in the main table). Zoom in.  Mind you: this is the molecule that caused a pandemic!

Remember: the three-dimensional structure of a protein is the first step in discovering the effect of a mutation. 

Problems: Not all links to 3D proteins seem correct. H1000Q results in a protein THR257. The links are made manual?

Later I discovered that one can select certain locations in the one-dimensional RNA (in the right panel of the page) and the selected amino acid will appear yellow highlighted in the 3D model. I have to explore that.

 

The famous N501Y mutation is found in the variant in UK, South Africa and Brazil. Here is the list of the Scientific American article [1]:


  • Spain:        A222V (Spike)     -
  • UK:             -     -       N501Y   (Spike)
  • South Africa: E484K  K417N    N501Y [virus escape mutant]
  • Brazil:       E484K  K417N/ N501Y

 

Universe too small ! too short living !

The number of possible proteins of length 1273 is staggering. Do the calculation: for every position there are 20 possibilities because there are 20 Amino Acids. "So there are 20×20 = 400 distinct proteins of 2 Amino Acids, 20x20x20 = 8000 proteins of length 3 AA, 160,000 proteins of length 4 AA, 3,200,000 with just 5 AA." [4] etc. Total: 20^1273 AA sequences for the Spike alone. And that is only one protein! Obviously, evolution could not have tried out all those possibilities. The age of the universe is too short to try them all out! So, we can expect endless new virus variants coming as long as we don't interfere with the pandemic and the virus is allowed its natural course.


 Notes

  1. The Most Worrying Mutations in Five Emerging Coronavirus Variants, Scientific American,

 

Appendix

Information in the NCBI table with all mutations:

  • Protein: all proteins encoded by SARS-CoV-2
  • Amino Acid substitution (as far as I can see: no insertions/deletions...) 
  • Count: total number of cases in the database of the specific mutation
  • Genomic location: the position in bases or: nt
  • Codon change. For example: GCT > GCC  (T is used instead of U !)
  • Non-synonymous (does change AA) or synonymous (does not change AA), AA = amino acid.
  • Collection location: country of origin of the sample 

 

Sources