24 april 2010

Gigantische aantallen

Ik verbaas mij af en toe over de claims die op internet worden gedaan over genealogie en beschikbare hoeveelheden gegevens. Mensen rollebollen over elkaar heen om maar de grootste aantallen te hebben. Het motto lijkt wel "Alleen de groten tellen mee." Neem bijvoorbeeld de site supersurnamesearch, die het volgende laat zien:


De miljarden (billions in het Amerikaans) vliegen je om de oren. Heel veel, dus zal het ook wel heel goed zijn. Eenzelfde insteek zie ik bij de HCC:


Daar gaat het over ancestry, dat 5 miljard namen heeft. Een andere site, met "maar" 250 miljoen namen wordt gepresenteerd als voorbeeld van schaarste...
De site van myheritage laat het volgende weten:


De gebruiker kan zijn voordeel doen met 530 miljoen genealogische profielen. Met de kans, dat in één profiel meer namen zitten. Geneanet doet het iets bescheidener, door melding te maken van:


Hier wordt weer een andere aanpak gevolg: het aantal personen in de database wordt tot op de persoon nauwkeurig aangegeven. En dat lijkt voor veel mensen een stuk betrouwbaarder dan een algemene bewering zoals "ruim 350 miljoen". De Latter Day Saints komen niet verder dan 150 miljoen, maar zij leggen de nadruk op het feit dat hun databases gratis toegankelijk zijn:


Inderdaad moet je bij sommige sites betalen voor gegevens en dan is een gratis optie voor veel mensen toch aantrekkelijker. Genlias (ook gratis) heeft bijna 55 miljoen namen, die voorkomen in ongeveer 13,5 miljoen akten:


En dan kan het natuurlijk ook nog gebeuren dat er grote aantallen ontstaan door een simpele vertaalfout. Bijvoorbeeld:


Want wat staat er in de originele tekst? Dat Google aan de slag gaat met het digitaliseren van 35.000 boeken en geen 35 miljoen.
Tot nu toe gaat het alleen om de kwantiteit, maar hoe zit het dan met de kwaliteit? Op internet staan heel veel gegevens en de algemene indruk van de meeste gebruikers is dat al die informatie "waar" is. Maar dat hoeft helemaal niet. Er zijn voorbeelden te over van stambomen die kant noch wal raken, maar omdat ze op het net staan, worden ze zonder meer geloofd en ook overgenomen. Dit rondzing-effect zorgt voor veel vervuiling, want het gebeurt niet een enkel keertje maar heel vaak.

Moraal van het verhaal: grote aantallen zeggen niet veel. Een bewering als "het aantal klinkers in de dorpsstraat van Purmerend in 1831 was groter dan het aantal goudstaven in Fort Knox in 1891" kan waar zijn, maar de betekenis is nul-komma-nul.
Moraal-2: Neem nooit voetstoots aan dat informatie op internet (of in boeken of tijdschriften) klopt, maar doe eigen onderzoek dat het bewijs oplevert.