17 January 2011

Darwin als maatstaf populariteit wetenschappers

In Science een interessant artikel over de populariteit van wetenschappers met Darwin als maatstaf. Dat wil zeggen: Charles Darwin werd als eenheid genomen, de Darwin, en de populariteit van wetenschappers werd vergeleken met die van Darwin. De eenheid is Darwin (D) of de mD (milliDarwin of 1/1000ste Darwin).

populariteit Charles Darwin van 1800 - 2000

 

Aardig is te zien dat de populariteit van Darwin zelf langzaam toenam na de publicatie van de Origin of Species in 1859, maar explosief steeg rond zijn dood in 1882 en daarna flink schommelde op hoog niveau. NB: hij was in 1809 geboren, maar kennelijk kwam zijn naam al vóór zijn geboorte voor in de literatuur (naamgenoot?).
Verrassend genoeg bleek dat er maar één wetenschapper populairder dan Darwin zelf: Bertrand Russell met een score van 1500 mD. Russell komt dus 1,5x vaker voor dan Darwin. Daarna met enige tussenruimte Albert Einstein met een score van 878 mD (zie hier).

Het bijzondere is dat het meten van populariteit een geautomatiseerde techniek is en de resultaten daarom redelijk objectief genoemd kunnen worden. Hoe meer er over iemand of iets geschreven is hoe groter de D score. Het uitgangsmateriaal waren 15 miljoen door Google gedigitaliseerde boeken die tussen 1800 en 2000 verschenen waren. Daarvan werden er 5 miljoen geselecteerd met voldoende ocr (optical character recognition) kwaliteit. Dat is een hoeveelheid boeken die niemand ooit kan lezen.
Vervolgens is een lijst met namen van wetenschappers op semi-automatische manier geëxtraheerd uit wikipedia (die trouwens afgelopen zaterdag 15 januari 10 jaar bestond). Op de The Science Hall of Fame pagina kun je zelf onderzoek doen. Het is bijzonder leuk en verslavend. Je kunt tevens het verloop van populariteit van 1800 tot 2000 in een grafiekje laten zetten. In de top200 kwamen -op afstand- nog andere biologen voor die iets met evolutie te maken hadden: Julian Huxley, Stephen Jay Gould, Alfred Russel Wallace, Ernst Haeckel, Thomas Henry Huxley, Richard Dawkins, Desmond Morris, Francis Crick, Ernst Mayr, Sewall Wright en George Mivart.

Nog verder gaat de Ngram Viewer waar je een willekeurig woord kunt invoeren en er een grafiek van kunt laten maken. Je kunt meerdere termen invoeren. Bijvoorbeeld: Charles Darwin, Sigmund Freud, Bertrand Russell geeft een vergelijkende populariteit. Maar het hoeven geen personen te zijn. Het kunnen ook termen als creationism, Intelligent Design zijn:

creationismIntelligent Design.
Het blijkt dat creationism vanaf 1978 een snelle stijging meemaakt. Misschien omdat in 1978 de creationist Duane Gish een public school editie van Evolution? The Fossils Say No! heeft uitgebracht?
'Intelligent Design' vormt maar een klein hobbeltje vanaf plm 1991, het jaar waarin Phillip Johnson, de vader van de ID beweging, zijn Darwin on Trial publiceerde. Of je kunt evolution en creation vergelijken:

evolution.  creation.
In het Engels 'wint' creation het van evolution. Beide blijven de laatste 50 jaar stijgen. Nederlandse woorden accepteert het systeem ook: evolutie en schepping:
 evolutie schepping
In het Nederlandse taalgebied 'wint' evolutie het ruimschoots van schepping! En zo zijn er vele research mogelijkheden: God heeft al 150 jaar last van een dalende populariteit. Dat hadden de auteurs van het artikel ook al geconstateerd. Deze trend is al vóór Darwin's Origin begonnen, nl plm. 1842. Waarom precies op dat moment weet ik ook niet. Voer voor theologen. Er zijn eindeloos veel meer van dat soort leuke dingen te onderzoeken.

Beperkingen

Het systeem en de data kennen nog wat beperkingen. Francis Crick (67 mD) is aanwezig in de lijst van wetenschappers, maar James Watson ontbreekt! Watson is nog niet dood, waardoor hij geen sterfdatum heeft in wikipedia. Dat is misschien een vereiste van het systeem. Maar er blijken vele wetenschappers zonder sterfdatum in het bestand voor te komen.Vermoedelijk is James Watson eruit gefilterd omdat er teveel (wiki) mensen zijn met de naam James Watson. Daardoor kun je de ontdekker van DNA niet meer onderscheiden van andere James Watson's. Helaas: als je een algemene naam hebt, heb je pech! Dat is waarschijnlijk een inherent nadeel van de methode.

Met deze publicatie in Science is een geheel nieuw tijdperk van kwantitatief cultuurhistorisch onderzoek begonnen.

Bronnen



Update woensdag 19 jan:


De data van Ngramviewer zijn (nog) niet betrouwbaar.  Ik zocht op 'wikipedia', een woord dat niet vóór 2000 zou moeten kunnen bestaan. Maar er kwam een uitbundige grafiek met ontzettend veel treffers van 1800 - 2000. Wat bleek? Heruitgaves van oude boeken (forgottenbooks.org) kregen een nieuw voorwoord met een citaat uit wikipedia! Zo krijg je dus false positives. Oppassen geblazen!

    4 comments:

    1. Ha Gert,

      Bedankt voor dit leuke artikel.

      Jammer dat het alleen werkt bij boeken en niet gaat over alle literatuur. Dat zou een nog betrouwbaarder plaatje opleveren.

      ReplyDelete
    2. Alle literatuur? Je bedoelt kranten, tijdschriften? Is dit Jan Riemersma?

      ReplyDelete
    3. Gert, nee, de bovenstaande bijdrage is niet van mij.

      ReplyDelete
    4. Ha Gert,

      Ik bedoel de wetenschappelijke tijdschriften als Nature en Science.

      Ik ben niet Jan Riemersma!

      ReplyDelete

    Comments to posts >30 days old are being moderated.
    Safari causes problems, please use Firefox or Chrome for adding comments.