populariteit Charles Darwin van 1800 - 2000 |
Aardig is te zien dat de populariteit van Darwin zelf langzaam toenam na de publicatie van de Origin of Species in 1859, maar explosief steeg rond zijn dood in 1882 en daarna flink schommelde op hoog niveau. NB: hij was in 1809 geboren, maar kennelijk kwam zijn naam al vóór zijn geboorte voor in de literatuur (naamgenoot?).
Verrassend genoeg bleek dat er maar één wetenschapper populairder dan Darwin zelf: Bertrand Russell met een score van 1500 mD. Russell komt dus 1,5x vaker voor dan Darwin. Daarna met enige tussenruimte Albert Einstein met een score van 878 mD (zie hier).
Het bijzondere is dat het meten van populariteit een geautomatiseerde techniek is en de resultaten daarom redelijk objectief genoemd kunnen worden. Hoe meer er over iemand of iets geschreven is hoe groter de D score. Het uitgangsmateriaal waren 15 miljoen door Google gedigitaliseerde boeken die tussen 1800 en 2000 verschenen waren. Daarvan werden er 5 miljoen geselecteerd met voldoende ocr (optical character recognition) kwaliteit. Dat is een hoeveelheid boeken die niemand ooit kan lezen.
Vervolgens is een lijst met namen van wetenschappers op semi-automatische manier geëxtraheerd uit wikipedia (die trouwens afgelopen zaterdag 15 januari 10 jaar bestond). Op de The Science Hall of Fame pagina kun je zelf onderzoek doen. Het is bijzonder leuk en verslavend. Je kunt tevens het verloop van populariteit van 1800 tot 2000 in een grafiekje laten zetten. In de top200 kwamen -op afstand- nog andere biologen voor die iets met evolutie te maken hadden: Julian Huxley, Stephen Jay Gould, Alfred Russel Wallace, Ernst Haeckel, Thomas Henry Huxley, Richard Dawkins, Desmond Morris, Francis Crick, Ernst Mayr, Sewall Wright en George Mivart.
Nog verder gaat de Ngram Viewer waar je een willekeurig woord kunt invoeren en er een grafiek van kunt laten maken. Je kunt meerdere termen invoeren. Bijvoorbeeld: Charles Darwin, Sigmund Freud, Bertrand Russell geeft een vergelijkende populariteit. Maar het hoeven geen personen te zijn. Het kunnen ook termen als creationism, Intelligent Design zijn:
creationism. Intelligent Design. |
'Intelligent Design' vormt maar een klein hobbeltje vanaf plm 1991, het jaar waarin Phillip Johnson, de vader van de ID beweging, zijn Darwin on Trial publiceerde. Of je kunt evolution en creation vergelijken:
evolution. creation. |
evolutie schepping |
Beperkingen
Het systeem en de data kennen nog wat beperkingen. Francis Crick (67 mD) is aanwezig in de lijst van wetenschappers, maar James Watson ontbreekt! Watson is nog niet dood, waardoor hij geen sterfdatum heeft in wikipedia. Dat is misschien een vereiste van het systeem. Maar er blijken vele wetenschappers zonder sterfdatum in het bestand voor te komen.Vermoedelijk is James Watson eruit gefilterd omdat er teveel (wiki) mensen zijn met de naam James Watson. Daardoor kun je de ontdekker van DNA niet meer onderscheiden van andere James Watson's. Helaas: als je een algemene naam hebt, heb je pech! Dat is waarschijnlijk een inherent nadeel van de methode.
Met deze publicatie in Science is een geheel nieuw tijdperk van kwantitatief cultuurhistorisch onderzoek begonnen.
Bronnen
- The Science Hall of Fame (gratis interactieve lijst met wetenschappers)
- Jean-Baptiste Michel et al (2011) 'Quantitative Analysis of Culture Using Millions of Digitized Books', Science, 14 Jan 2011. (is het originele wetenschappelijke artikel met o.a. 4 mensen van Google)
- The Science Hall of Fame website met achtergronden, etc. (gratis)
- John Bohannon (2011) 'Google Books, Wikipedia, and the Future of Culturomics', Science 14 Jan 2011 (geeft toelichting)
Update woensdag 19 jan:
De data van Ngramviewer zijn (nog) niet betrouwbaar. Ik zocht op 'wikipedia', een woord dat niet vóór 2000 zou moeten kunnen bestaan. Maar er kwam een uitbundige grafiek met ontzettend veel treffers van 1800 - 2000. Wat bleek? Heruitgaves van oude boeken (forgottenbooks.org) kregen een nieuw voorwoord met een citaat uit wikipedia! Zo krijg je dus false positives. Oppassen geblazen!
Ha Gert,
ReplyDeleteBedankt voor dit leuke artikel.
Jammer dat het alleen werkt bij boeken en niet gaat over alle literatuur. Dat zou een nog betrouwbaarder plaatje opleveren.
Alle literatuur? Je bedoelt kranten, tijdschriften? Is dit Jan Riemersma?
ReplyDeleteGert, nee, de bovenstaande bijdrage is niet van mij.
ReplyDeleteHa Gert,
ReplyDeleteIk bedoel de wetenschappelijke tijdschriften als Nature en Science.
Ik ben niet Jan Riemersma!