Denne artikel er en gennemgang af den metode, Politiken har brugt til at skabe datasættet ’Danske babynavne fra 1900 til i dag’. Er du landet her direkte fra Google eller lignende, kan du med fordel starte her for at få forhistorien.
------------
I Danmark har vi via Danmarks Statistik (DST) offentligt tilgængeligt navnedata tilbage til 1985.
Det var her, DST i sin tid satte grænsen for, hvor langt man ville gå tilbage med det såkaldte Navnebarometer, som viser navnestatistik på nyfødte i Danmark.
På Politiken spekulerede vi over, hvordan vi kunne komme endnu længere tilbage – måske helt tilbage til århundredeskiftet – og den tanke viste sig mulig, da vi tog fat i Forskerservice på Statens Serum Institut, som er nogle af de få herhjemme, der har adgang til at foretage dataudtræk fra cpr-registeret.
Cpr-registeret blev oprettet i 1968. Her fik alle danskere altså for første gang et cpr-nummer, der som bekendt består af en dato, et årstal og fire yderligere cifre. Man har altså med cpr-nummeret mulighed for at knytte et navn til et fødselsår, og det kan man så gøre baglæns i tid helt tilbage til 1900.
Tag for eksempel min farmor, Gerda Jørgensen, der blev født 12. april 1916 og dermed i 1968 fik et cpr-nummer, der hed 12041916-xxxx.
Forskerservice kunne altså her sætte et kryds under navnet ’Gerda’ i 1916, og sådan fortsatte de med alle cpr-numrene, indtil de stod med et fuldt datasæt, hvor alle danskere var fordelt på fornavne ud over årene 1900 til 1968.
Man dør bredt fordelt på navne
Den fremgangsmåde har dog én åbenlys mangel: Man mister dem, der både er født og døde i perioden fra 1900 til 1968, da de af gode grunde ikke fik et cpr-nummer i 1968.
Den mangel bør ifølge navneforsker og lektor ved Institut for Navneforskning ved Københavns Universitet Michael Lerche Nielsen dog ikke betyde noget for tallene i procent i forhold til hinanden, som er det, man kigger efter, når det handler om navnestatistik og -popularitet.
»Der bør ikke være nogen sammenhæng mellem navnevalg og dødelighed. Folk må formodes at være døde bredt fordelt på navne, og her er vi jo oppe i nogle datamængder, der statistisk set burde give et retvisende billede, selv om vi har mistet nogle navnebærere undervejs«, siger Michael Lerche Nielsen.
Med andre ord, navnelisten for fødselsårgang 1900 vil kun indeholde de personer, der levede 68 år senere. Navnelisten for folk, der er født i 1940, vil kun gælde for dem, der levede 28 år senere osv.
Derfor skal de faktiske tal fra før 1968 altså tages med et vist forbehold, mens man roligt kan stole på de relative tal. Altså tallene i forhold til hinanden i procent, hvilket under alle omstændigheder altid er det, man kigger efter, når man skal sammenligne, fordi der bliver født et stærkt varierende antal babyer hvert år.
På grafen herunder kan du se ovenstående visualiseret - altså, hvordan antallet af individer i vores datasæt fra CPR er støt faldende fra 1968 til 1900 i forhold til Danmarks Statistiks officielle fødselstal.
Dog ikke med en markant forskel før cirka 1940. Her begynder data at afvige fra hinanden.
Som det fremgår af grafen, er der efter 1968 også en lille uoverensstemmelse mellem Danmarks Statistiks fødselstal og Politikens navnedata – især frem til midten af 1980’erne. Det bunder i, at vores data er baseret på cpr-registeret også efter 1968, hvorfor nye statsborgere indgår, selv om disse ikke nødvendigvis er født i Danmark.
En del af disse navne har vi dog sorteret fra igen i det datasæt, som er gjort søgbart grafisk fra 1900
I datasættet fra Forskerservice var der i alt registreret mere end 90.000 forskellige drenge- og pigenavne efter den første sortering, hvor rækker med navne som ’udøbt’, ’unavngiven’, ’0’, ’død’ osv. er sorteret fra. Her er vi også ude i alle navne, nogen nogensinde har heddet på 120 år lige fra ’Aarambh’ til ’Riku-Heikki’ til ’Zarathhaanth’ for at tage et par eksempler.
Så for at snævre det ind til noget, der er statistisk spiseligt og giver mening at se udviklingsgrafer for, satte vi en grænse ved, at mindst 5 personer skal have fået navnet siden 1900, hvilket er tilfældet for mere end 98,7 procent af de godt otte millioner navngivninger i perioden.
I skal dog ikke snydes fra at kunne gå på opdagelse i de sidste par procent af navnene også, så det komplette datasæt kan tilgås i denne artikel, hvor du også kan se alle de konstellationer, et navn har indgået i.
Detaljerne
Det er kun første fornavn, der tæller med i vores udtræk fra cpr-registeret, og navnene er ikke inddelt efter ordlyd. Det vil sige, at eksempelvis ’Lonnie’ tæller i én gruppe og ’Lonny’ tæller i en anden gruppe, selv om det med en vis ret er samme navn. Det samme gælder for navne med bindestreg. ’Marie-Louise’ vil tælle i én navnegruppe, mens ’Marie Louise’ (uden bindestreg) vil tælle i navnegruppen ’Marie’.
Har man taget navneforandring, er det stadig fødenavnet, der tæller. Bortset fra posterne før 1968. Her vil det være det navn, der blev registreret hos cpr i 1968, der gælder.
Udtrækket er baseret på personer bosat i en dansk kommune. Personer bosat i Grønland er ikke inkluderet. Af privatlivshensyn har det ikke været muligt at knytte geografi til navnedata gennem CPR.
Eftersom forældre har 6 måneder til at navngive deres barn og indberette det til cpr, er det først omkring midt juli hvert år, at Danmarks Statistik laver opgørelsen for foregående år.
I artiklen over de mest populære navne gennem det seneste århundrede, er der en divergens i forhold til Danmarks Statistiks data. DST lægger nemlig navne med samme ordlyd sammen i deres opgørelse, så eksempelvis ’Mathilde’ og ’Matilde’ eller ’Noa’ og ’Noah’ bliver lagt sammen. Det gør vi ikke i vores fremstilling. Her er det de reelle navne og stavemåder, der er opgjort.
Vi har ikke rettet for fejlregistreringer, da dette i sidste ende ofte vil være en subjektiv vurdering. Mens der f.eks. næppe var en dreng, der blev kaldt ’Marie-Louise’ i 1942 (som der er registreret), kan vi ikke vurdere, om navne, der umiddelbart ser lidt pudsige ud, i virkeligheden er et navn, der oprinder fra Kina eller lignende. Datasættet rummer derfor alle navne, der ikke helt tydeligt er fejl såsom ’0’, ’død’, ’udøbt’ osv.
Data fra 1900 til 2014 er baseret på CPR. Derfra har vi hvert år i juli fået navnedata af DST, som dog fra 2024 har indført en ny diskretionspolitik. Den betyder, at de ikke længere må vise eller videregive data på navne med under 3 forekomster, hvilket fra årgang 2023 begrænser Politikens mulighed for at opdatere enkelte af seriens grafikker, mens andre vil blive modificeret til den nye virkelighed.
Find alle artikler og interaktive værktøjer i ’Babyavne fra 1900 til i dag’-serien her eller herunder.