22 July 2020

Tesla beeldherkenning en ObsIdentify beeldherkenning: steeds beter, maar maken nog steeds klassieke fouten (10)

Tesla autopilot is gebaseerd op beeldherkenningssoftware. ObsIdentify is beeldherkenningssoftware die dieren en planten herkent. Beide worden ze continu verbeterd, en beide begrijpen nog steeds niets van de wereld. Ze maken daardoor bizarre blunders.

 
De baas van Tesla, Elon Musk, wordt met iedere update van het autopilot systeem [1] zelfverzekerder. Hij noemt het 'superhuman'. Het Tesla autopilot systeem herkent fietsers, voetgangers, personenauto's, vrachtwagens, pylons [2], stoplichten. Maar hoe beter het systeem  lijkt te werken, des te groter de verwachtingen dat het 'superhuman' is en geen fouten maakt. En het systeem zal fouten maken die een mens nooit maakt en zal vele onverwachte blunders maken omdat het niets van de wereld begrijpt en alleen maar razendsnelle berekeningen kan maken. Enthousiaste Tesla rijders hebben geen ervaring met de beperkingen van dat soort software. Ze zetten regelmatig YouTube filmpjes op het internet waarbij ze de autopilot software aan hebben staan tijdens het rijden op de openbare weg. Maar de werkelijkheid op de openbare weg is gecompliceerder en onvoorspelbaarder dan de makers van de software hebben voorzien. Een voorbeeld is een bocht te krap nemen waardoor de banden nog net tegen een beschadigde stoeprand met scherpe breukvlakken aanrijden! Gevolg: schade aan de band. Een mens weet dat je scherpe stoepranden beter kunt vermijden. Dit filmpje bevat vele vermakelijke en leerzame voorbeelden:
"autopilot is confused: what is it? a cone, a person? a bike? Is it a child close, or a adult far away? First decelerates and then run over her!"
Hij doet testen met poppen, niet met zijn dochtertje! Hij denkt dat de software ziet en denkt als een mens. Hij zal voor nog meer verrassingen komen te staan. Net als de ingenieurs die het systeem programmeren en trainen.

De uitdaging voor een AI systeem in een rijdende auto in de echte driedimensionale wereld met vele onafhankelijk bewegende objecten is vele male groter dan een systeem als ObsIdentify dat stilstaande beelden moet beoordelen. Het Tesla systeem moet real-time objecten herkennen. Dat wil zeggen: onderscheid maken tussen object en omgeving. Bewegende objecten als fietsers zijn makkelijker van hun omgeving te scheiden want zij bewegen zich door hun omgeving. ObsIdentify heeft altijd te maken met stilstaande objecten in hun omgeving. ObsIdentify doet voor zover mijn ervaring geen poging het object te scheiden van zijn omgeving. Dat is te merken aan de fouten die het maakt. Bijvoorbeeld deze foto van de Zeearend. Dit is een enorme roofvogel die in toenemende mate in Nederland broedt, vooral in de Oostvaardersplassen, Biesbosch en het Lauwersmeer.

Zeearend (origineel G.J. IJzerman) ObsIdentify=100%
800x600 pixels.
 
De Zeearend in deze foto wordt met 100% zekerheid herkend. Hij is als object prachtig geïsoleerd van zijn omgeving. Herkent O de zeearend echt? Laten we de achtergrond eens een andere kleur geven. We kiezen een roze tint (html code #FF27FF). Dat komt in de natuur niet voor, maar het blijft een zeearend, niet waar? Die kleur geeft een dramatische verslechtering van het zekerheidspercentage van 100% naar 36,5%.

 ObsIdentify: Zeearend 36,5% (#FF27FF)

O ziet nog steeds een Zeearend maar is erg onzeker.

  ObsIdentify: Laatvlieger 36,6% (#FF26FF)

Als we de kleur stapsgewijs veranderen ziet ObsIdentify opeens een vleermuis: de Laatvlieger. Het omslagpunt ligt bij #FF27FF (Zeearend) naar #FF26FF (Laatvlieger).
Dus: een voor de mens onzichtbaar kleurverschil in de achtergrond van dezelfde zeearend doet O switchen van Zeearend met zekerheid 36,5% naar Laatvlieger met zekerheid 36,6%. Dit is reproduceerbaar. Geen toevallige misser. NB: de Laatvlieger is een vleermuis! Ook al weet je niets van vogels of dieren in het algemeen, een mens zou niet eens opmerken dat het hier om twee verschillende foto's gaat. Laat staan dat de eerste een zeearend is en de tweede een vleermuis is. Zeker: de achtergrondkleur is volkomen idioot. Maar O reageert er wèl op. Het toont nog eens aan dat O geen onderscheid maakt tussen dier en achtergrond.

En het blijft niet bij 1 andere soort, bij een bepaalde oranje achtergrondkleur ziet Obs opeens een Continentale aalscholver. Een totaal andere soort! Het is niet eens een roofvogel.

ObsIdentify: Zeearend 25,7% (kleur: #FF5000)

ObsIdentify: Continentale Aalscholver 24,8% (kleur: #FF4900)

Ook hier ligt het omslagpunt Zeearend/Aalscholver reproduceerbaar bij de kleinst mogelijke stap die kleurencodesysteem van html toestaat. Het verbaast me nog steeds. Ik zou beter moeten weten. Een voor de mens onzichtbaar kleurverschil in de achtergrond is voor O aanleiding om er een totaal andere soort van te maken. Wel met lage zekerheid voor beide. Dat wel. En dat is typerend: deze kleur maakt O onzeker. Hij twijfelt sowieso of het een Zeearend is puur op basis van de achtergrond. Dat wil zeggen: wij weten dat het de achtergrond is. Dat deze fout niet wordt veroorzaakt door mijn ingreep in de foto blijkt uit het feit dat O met een witte achtergrond een zeearend ziet met 99,9% zekerheid.

Hoe kan dit? O is niet dom! O herkent de meeste op de zeearend lijkende roofvogels met grote zekerheid: Visarend, Dwergarend, Arendbuizerd, Buizerd, Wespendief, Keizerarend, Slangenarend. Maar O vergist zich niet zoals een mens die een Wespendief verwart met een Buizerd. O vergist zich bizar en onbegrijpelijk. Als je dit niet door hebt, zoals de Tesla-rijder van het YouTube filmpje, dan ben je behoorlijk naïef.

De hamvraag: zijn dit soort fouten gewoon vermijdbare bugs of is het een inherente eigenschap van een overigens succesvolle techniek?

Noten

  1. Zie voor ongelukken met Tesla 'autopilot' hier.
  2. In een andere testrit ziet de autopilot meerdere malen random cones (pylons) op de weg die er helemaal niet zijn! Hij reageert er kennelijk niet op. Er valt dus nog wat te verbeteren!


Vorige post over dit onderwerp

Dit is de 10e aflevering in de serie over beeldherkenner ObsIdentify. De vorige was:

12 July 2020

Waarom is het zo moeilijk om de oorsprong van SARS-CoV-2 te achterhalen?


We zitten nu een half jaar in de covid-19 pandemie met 12 miljoen gevallen en een half miljoen doden. We zouden nu toch zo langzamerhand wel moeten weten waar het virus vandaan komt! Waarom is het toch zo moeilijk om de oorsprong van SARS-CoV-2 te achterhalen? 
 
We hebben een enorme hoeveelheid genetische data. Die moeten toch het definitieve antwoord kunnen geven. Het RNA (omdat het een RNA virus is) is het enige wat je nodig hebt. En het RNA bepalen is al lang geen technisch hoogstandje meer. Zeker niet voor een relatief klein genoom. De meeste aandacht gaat nu naar vaccins en virusremmers, maar de oorsprong van het virus blijft me fascineren. En die fascinatie wordt versterkt doordat wetenschappers luidruchtig roepen dat het virus een natuurlijke oorsprong heeft [1]. Bovendien: hoe kun je gerichte preventieve maatregelen nemen als je niet precies weet waar het virus vandaan komt? Het is dus nog steeds belangrijk om te achterhalen hoe het virus ontstaan is.

Een van de redenen dat het zo moeilijk is blijkt uit een tabel in Nature [2]:

©Nature (layout aangepast)
RaTG13, ZXC21, ZC45 zijn vleermuis coronavirussen

In de tabel zien we coronavirussen in pangolins uit Maleisië en vleermuizen vergeleken met het 'menselijke' SARS-CoV-2 virus (die zelf niet in de tabel staat). S, E, M, N zijn de vier belangrijkste eiwitten van het virus. In de gele kolommen staan de percentages van gemeenschappelijke aminozuren, en in de witte kolommen links daarvan het percentage gemeenschappelijke bases (nucleotides). De laatste kolom geeft de 'full-length genome' (het complete genoom). Het complete genoom is groter omdat de genen voor de vier eiwitten maar een deel van het genoom uitmaken.
Wat mij onmiddellijk opvalt zijn de 100% scores voor eiwit E. Dat betekent dat het E eiwit van pangolin virussen 100% identiek is met het menselijke SARS-CoV-2 E eiwit. De base volgorde van het E eiwit is bijna identiek: 98 of 99% [3]. Het M eiwit scoort ook redelijk hoog, maar de andere eiwitten S en N verschillen meer. Dat maakt de vergelijking lastig.

Nog gecompliceerder wordt het als je het complete RNA genoom ('full-length genome') van de virussen vergelijkt met SARS-CoV-2: alleen WHCV scoort 90%, de andere virussen lager. Maar de overeenkomsten in het RNA genoom zijn doorslaggevend voor de vergelijking en het opstellen van een stamboom. Immers mutaties ontstaan op RNA niveau en dat zorgt dus voor de verschillen.
Normaal erft het hele genoom over en niet delen van het genoom. De conclusie moet zijn dat geen van de pangolin en vleermuis virussen op zich de directe voorouder kunnen zijn van het menselijke SARS-CoV-2. Maar sommige eiwitten vertonen grotere overeenkomsten dan het genoom als geheel. Dat is paradoxaal. Hoe kan dat?

De auteurs concluderen voorzichtig dat er een recombinatie plaatsgevonden moet hebben tussen een pangolin en een vleermuis coronavirus [4]. Dit zou kunnen plaatsvinden als een dier met beide virussen tegelijk besmet is. Maar hoe komen pangolins uit Maleisië op een levende dieren markt in Wuhan terecht? De auteurs wijzen op illegale handel van pangolins, die een beschermde en bedreigde diersoort zijn, naar China.

Het frustrerende is dat er geen dieren zijn gevonden die meerdere coronavirussen met zich meedragen. En dat moeten dan ook nog de juiste virussen zijn. Je wilt een dier (een zwerfkat of hond? een exotisch huisdier? een mens?) op heterdaad betrappen dat vleermuis en pangolin virussen in zich draagt. Dat zou een doorbraak in het onderzoek betekenen. Maar ik vrees dat dit een zeldzame gebeurtenis is. En dat zou verklaren waarom we de dader nog niet hebben.


Postscript 16 juli 2020

De WHO gaat wetenschappers naar China sturen om de oorsprong van de COVID-19 uitbraak te onderzoeken [5]. Ze willen uitzoeken welke wilde dieren als gastheer op kunnen treden voor het virus. Ze richten zich speciaal op de (illegale) handel in wilde dieren. Want die dieren komen in direct contact met mensen. Een nieuwe publicatie suggereert dat Pangolins secundair, dus door mensen of andere dieren besmet zijn geraakt tijdens transporten en dat ze dus een tussengastheer zijn. De zoektocht moet zich richten op alle dieren de verhandeld worden en moet ook kijken naar buurlanden als Laos, Thailand, en Cambodja.

 

Postscript 1 Aug 20


Viroloog Shi Zhengli van het Wuhan Institute of Virology heeft eindelijk tijd gevonden om vragen te beantwoorden van Science (pdf) [6]. Ze reageert verontwaardigt op de beschuldigingen dat SARS-CoV-2 uit haar lab ontsnapt zou zijn: "Trump owes us an apology!".
Mijn indruk is dat ze vragen omzeilt of ze levende dieren op de Wuhan markt heeft getest en wat het resultaat was. Censuur van Hubei Provincial Government? Ze sluit niet uit dat de spillover elders heeft plaats gevonden.
De vragensteller citeert "RaTG13 is a distant ancestor of SARS-CoV-2  that differs by 1100 nucleotides. Using molecular clocks, other  researchers have estimated that RaTG13 and SARS-CoV-2  shared  a  common  ancestor  at least 20 years ago", [dat is 55 nucleotiden per jaar] maar ze antwoord dat ze geen bioinformaticus is.
Ze negeert een vraag waarom er zo weinig publicaties met nieuwe data uit China komen (!). Dit zou een hint kunnen zijn van Chinese censuur.
Zij citeert een andere bron: "The level of genome sequence divergence between SARS-CoV-2  and RaTG13 is equivalent to an average of 50 years (and at least 20 years) of evolutionary change". Dat is nogal een grote marge: 20 - 50 jaar.
Citaat Edward  Holmes: "The genomes of RaTG13 carried by bats and SARS-CoV-2 differ in 1,177 nucleotide  positions. It would have taken very long time to accumulate sufficient numbers of  mutations  through  natural evolution." Dat is 77 meer dan de vorige schatting. Ook hier wordt geen rekening gehouden met recombinatie.
Op een laatste vraag over dierexperimenten zegt ze dat ze experimenten met SARS-CoV-2 en resus apen doet.
Mijn indruk is dat Shi Zhengli onderzoek en experimenten doet die toegestaan zijn door de Chinese autoriteiten en dat is geen onderzoek naar de werkelijke oorsprong van SARS-CoV-2. Tenzij die geheim zijn. Ze is zeer waarschijnlijk met handen en voeten gebonden en probeert wetenschappelijk onderzoek te doen onder moeilijke omstandigheden. Het feit dat een Chinese onderzoeker van een buitenlands staatshoofd -Trump- excuses eist, is nogal ongebruikelijk. Ik zie ook daar de hand van de autoriteiten in. En ze gaat natuurlijk niet haar baan op het spel zetten.
Als de oorsprong van SARS-CoV-2 in China ligt, zullen we het hoe, wat, en wanneer nooit te weten komen. Onderzoek in omringende landen zou wellicht kunnen helpen?



Noten

  1. The Lancet (18 Feb 2020): "We stand together to strongly condemn conspiracy theories suggesting that COVID-19 does not have a natural origin. ... they overwhelmingly conclude that this coronavirus originated in wildlife (had ik nog niet in eerdere blogs genoemd) en er circuleren geruchten dat het virus it een lab komt: Ook een Noors team virologen zegt nu dat coronavirus uit laboratorium komt. (6 juli 2020) maar dit staat op een complettheorie website en ze geven niet eens de publicatie waarop dit alles gebaseerd zou moeten zijn!
  2. Isolation of SARS-CoV-2-related coronavirus from Malayan pangolins, Nature 7 May 2020
  3. Een verschil tussen base volgorde en aminozuur volgorde van het eiwit is te verklaren uit heet feit dat meerdere base (tripletten) voor hetzelfde aminozuur coderen. Dat heet redundantie van de genetische code.
  4. "Overall, these data indicate that SARS-CoV-2 might have originated from the recombination of a virus similar to pangolin-CoV and a virus similar to RaTG13".
  5. Scientists call for pandemic investigations to focus on wildlife trade, Nature 10 july 2020
  6. Trump ‘owes us an apology.’ Chinese scientist at the center of COVID-19 origin theories speaks out, Science, 24 July 2020

Vorig blog over dit onderwerp

02 July 2020

Nieuwe data over de oorsprong van SARS-CoV-2

Nieuwe data over de oorsprong van SARS-CoV-2, het virus dat in 2019-2020 een pandemie veroorzaakte, maken de oorsprong van het virus ingewikkelder. Tot nu toe wezen de data op de Huanan Seafood Wholesale Market in Wuhan als de plek waar het virus van dier op mens oversprong. De meerderheid van de besmettingen waren te herleiden tot de nu beruchte dierenmarkt in Wuhan. 
De twee stammen van het SARS-CoV-2 virus
De twee stammen van SARS-CoV-2 ©Nature
Het lag dus voor de hand dat het virus ter plekke was overgesprongen van een dier naar de mens. Als kandidaat kwam de pangolin in beeld. Maar of het dier op het moment van de uitbraak op de markt aanwezig was, is niet meer te achterhalen. Opvallend was dat een aantal ziektegevallen gedurende het begin van de uitbraak niet te herleiden waren tot de Wuhan markt. Dit werd aangetoond door het RNA van het virus. Er zijn twee hoofdstammen van het virus te onderscheiden: de eerste die herleidbaar is tot de Wuhan markt en de tweede tot Shanghai. De twee stammen verschillen op 2 plaatsen in het RNA:

stam ORF8 aminozuur ORF1ab aminozuur
 I     T  Leucine     C  Serine
 II     C  Serine     T  Serine

ORF = Open Reading Frame; is het gedeelte van het virus RNA dat vertaald wordt in eiwit;
T en C zijn de bases in het RNA; aminozuur is bestanddeel van een eiwit.
Bij de mutatie in ORF8 wijzigt een aminozuur, bij ORF1ab blijft het aminozuur hetzelfde.

Op basis van deze gegevens concluderen de auteurs dat het virus niet op de Wuhan markt ontstaan kan zijn. In plaats daarvan moet het eerder en elders ontstaan zijn. De twee virusstammen moeten een gemeenschappelijke voorouder hebben, maar hebben zich onafhankelijk van elkaar verspreid. De eerste stam heeft zich verspreid op de Wuhan markt simpel omdat daar een grote concentratie aan mensen aanwezig was stellen de auteurs.

De auteurs zeggen niets over de nu nog hypothetische SARS-CoV-2 voorouder: waar en wanneer is die overgesprongen op de mens? Zijn er nog geen ziektegevallen bekend die aan de voorouder toegeschreven kunnen worden?

De mutaties die de twee stammen onderscheiden hebben geen merkbaar survival verschil. Gedurende de pandemie zijn de twee stammen verder ge-evolueerd, maar blijven herkenbaar. Er zijn geen verschillen in de ernst van de ziekte gevonden tussen de twee stammen.


Bronnen


Vorig blog over dit onderwerp