Samfunnsspeilet, 2012/5

Registre som grunnlag for statistikk - utfordringer og kvalitetssikring

Det representative registeret?

Publisert:

De administrative registrene i statsforvaltningen er som en skyggeverden av den virkelige verden. De måler en god del av det som skjer i samfunnet, men ikke alt. Statistisk sentralbyrå henter tall fra disse registrene for å lage statistikk. Men er disse registrene representative? Hva er de i så fall representative for? De er laget for å administrere juridiske plikter og rettigheter, og speiler den formelle virkeligheten.

Administrative registre følger oss fra vugge til grav. Noen dager etter at vi er født, havner vi i folkeregisteret, og i det registeret vil vi forbli for evig og alltid. Vår status kan imidlertid bli endret til død eller utvandret, men vil fortsatt stå i folkeregisteret.

Etter at vi er blitt registrert i folkeregisteret, vil vi bli registrert i trygderegisteret, slik at våre foreldre kan få utbetalt barnetrygd for oss. Boligen vi bor i, vil være registrert i boligregisteret. Etter hvert som vi vokser opp, vil vi havne i flere og flere registre. Når vi er ferdig med grunnskolen, vil vi havne i utdanningsregisteret. Når vi begynner å jobbe, vil dette bli registrert i arbeidstakerregisteret, og hvis vi er selvstendig næringsdrivende, vil det bli registrert i selvangivelsen. Bedriften vi jobber i, vil være registrert i bedriftsregisteret.

Bruken øker - også internasjonalt

Bruk av administrative registre for å lage statistikk øker i Statistisk sentralbyrå (SSB). Det er i hovedsak de skandinaviske statistikkbyråene som bruker registre til å lage statistikk, men også andre land begynner å ta i bruk registre. Folketellinger i Norge har nå blitt historie, koplinger av registrene kan produsere statistikken som folketellingene lagde før.

Det er mange spørsmål som vi stiller oss, og som vi ennå ikke har alle svarene på. Er statistikk basert på register representativ for det som skal måles? Er det like godt som en telling og utvalgsundersøkelse, eller kanskje bedre? Hvordan skal vi behandle feil og mangler i et register? Hvordan skal vi beskrive de statistiske egenskapene til et register?

Vi trenger et internasjonalt paradigmeskifte; statistiske metoder for registre må bli ansett som et eget fagfelt på lik linje med metoder for utvalgsundersøkelser (Wallgren og Wallgren 2004). Tidligere forsker ved SSB og senere direktør ved FNs kontor for statistikk, Svein Nordbotten, så på 1960-tallet mulighetene for bruk av registre i statistikkproduksjon og kalte dette det arkivstatistiske system (Nordbotten 2010). Forskere i Statistisk sentralbyrå har nå begynt å utvikle den statistiske teorien for registerstatistikk, over 50 år etter at folkeregisteret ble opprettet (Zhang 2012). Denne artikkelen handler om bruk av registre i statistikkproduksjon og hvilke utfordringer som da kan oppstå.

Hva skal telle som en observasjon?

Administrative registre er en utmerket kilde for å lage statistikk. Nesten all statistikk er i dag enten direkte eller indirekte knyttet til et eller flere registre. Statistikkloven av 1989 tillater SSB å utnytte administrative datasystemer i statsforvaltningen og i landsomfattende kommunale organisasjoner som grunnlag for offisiell statistikk. Ikke alle land har en tilsvarende lov som åpner for utnyttelse av administrative data og sikrer omfattende og detaljert statistikk.

Det kan imidlertid være forskjell på det Statistisk sentralbyrå ønsker å måle, og det som er målt i registeret. I noen tilfeller blir det administrative registeret bearbeidet, slik at det blir nærmere det vi ønsker å måle.

Et eksempel er arbeidsledige som har rett til trygd, de blir registrert hos NAV. Det er mulig å bruke tall fra dette registeret til å si noe om antall arbeidsledige. Men det er noen arbeidsledige som ikke har rett til trygd, de blir ikke registrert i NAV. I tillegg er det noen som er registrert med arbeidsledighetstrygd, som jobber litt, slik at de vil bli klassifisert som sysselsatt ifølge internasjonale definisjoner. Det er her mulig å bearbeide registeret fra NAV slik at det passer bedre med statistikkens definisjoner.

I andre tilfeller, slik som i befolkningsstatistikken, lar vi statistikken speile den formelle virkeligheten, selv om det ikke er helt i samsvar med internasjonale definisjoner. Internasjonalt er det bare personer som har til intensjon å oppholde seg ett år i landet som skal bli registrert som bosatt, i Norge er grensen minst ett halvt år.

«Hva som gjelder som en observasjon, er avhengig av vår teori om verden.» (Hacking 1983)


Innsamling av data

Statistisk sentralbyrå bruker hovedsakelig tre forskjellige metoder for å lage statistikk: tellinger, registre og utvalgsundersøkelser. Valg av metode vil påvirke hvordan data framkommer, og kvaliteten på data. Innsamlingsmåten kan i tillegg være forskjellig: papirskjema, telefonintervju, internettskjema og filoverføring. Dette vil også ha en betydning for kvaliteten. Utviklingen av produksjonssystemene for statistikk er stadig i endring. Det begynte med tellinger, og etter hvert ble utvalgsundersøkelser tatt i bruk, mens nå blir mye statistikk produsert ved hjelp av registre. Utviklingen av de statistiske teoriene for disse metodene har imidlertid alltid hengt etter bruken av metoden.

«We observe objects and events with instruments.» (Hacking 1983)


Folketellinger og andre tellinger

Folketellinger var lenge den viktigste kilden til opplysninger om befolkningen. Den første folketellingen i Norge ble gjennomført i 1769 ( Historisk statistikk 1994 ). Regelmessige folketellinger hadde vi først fra 1801. Mellom tidspunktene for tellinger ble folkemengden beregnet ut fra opplysninger om antall fødsler, dødsfall og flyttinger. Det er slik befolkningen i de fleste land ennå blir beregnet.

Basert på folketellingen i 1960 ble Det sentrale folkeregisteret opprettet i 1964. Etter dette har folketellingen ikke blitt gjennomført for å finne ut hvor mange som bor i Norge, men for å finne ut om bolig og arbeidsforhold for hele befolkningen. Til og med 1970 ble folketellingene gjennomført ved hjelp av tellere som gikk rundt og leverte ut skjemaer, og som siden samlet disse inn igjen. I 1980 og 1990 var det en postalundersøkelse, med spørreskjema og svarkonvolutt sendt i posten.

Folketellingen 1990 brukte opplysninger fra administrative registre i større grad enn før, og skjema ble sendt til et utvalg av personer. Folketellingen i 2001 var en blanding av postal- og internettundersøkelse. Den siste folketellingen i tradisjonell forstand ble holdt i 2001. I forbindelse med denne folketellingen ble variabler tilknyttet arbeid utarbeidet ved hjelp av kopling av mange registre. I tillegg ble boligregisteret (Matrikkelen) utvidet til å gjelde alle leiligheter og ikke bare eneboliger.

Utvalgsundersøkelser startet i Norge

Anders N. Kiær som var den første direktøren i Statistisk sentralbyrå (1876-1913), var også den første som i internasjonale fora framsatte ideen om utvalgsundersøkelser. I 1897 skrev han Den representative utvalgsundersøkelse . Hans ide var å trekke et utvalg som skulle være mest mulig likt virkeligheten, der virkeligheten er å forstå som bilde av Norge man fikk gjennom folketellinger.

Ideen om at et utvalg kunne si like mye som en telling om en populasjon, var fremmed. Metoden ble brukt fra midten av 1870-årene og vel tretti år framover, for så å dø ut. Metoden dukket opp igjen i internasjonale fora på 1920-tallet, og fra 1930-årene ble teori og metoder for utvalgsundersøkelser integrert i statistisk teori. (Lie og Roll-Hansen 2001). Det tok altså mellom 50 og 60 år fra metoden oppsto til det ble utviklet en vitenskapelig metode.

Metoden hadde en vanskelig forhistorie, preget av skepsis og en meget gradvis aksept. Nå er denne statistiske metoden en av de mest brukte metodene i samfunnsforskning, og teorien for den er veletablert. Nå er det mange statistikere som tror at representative utvalg kan gi mer nøyaktig informasjon om populasjonen enn folketelling (Hacking 1990).

Utvalgsfeil er usikkerheten vi har innført med å trekke et utvalg istedenfor å gjennomføre en fulltelling. Utvalgsfeilen sier imidlertid ikke noe om usikkerheten til selve tallet, da må målefeilen i tillegg bli beregnet. Tellinger og utvalgsundersøkelser er metodemessig nær beslektet - totaltellinger betraktes ofte som et spesialtilfelle der utvalget er hele populasjonen. Utvalgsundersøkelser bruker populasjonsregistrene, som folkeregisteret og bedriftsregisteret, til å trekke utvalg. Ved feil i populasjonsregistrene vil dette forplante seg videre til utvalgsundersøkelsene. Det er derfor svært viktig at populasjonsregistrene har en høy kvalitet.

Populasjon

En populasjon er en tid- og stedfestet samling av de enhetene som statistikken skal gi informasjon om.

Registre - utfordringer og skjevheter

Et register er en fullstendig liste (ideelt sett) over enhetene i en bestemt populasjon (se tekstboks) eller i en mengde, der hver enhet har en identifikasjonsnøkkel. Registre er opprettet av det offentlige for å administrere formelle rettigheter og plikter i en populasjon. Statistikk basert på register vil derfor speile den formelle virkeligheten og ikke den faktiske.

Når SSB publiserer tall på hvor mange mennesker som bor i Norge, gjelder det antall mennesker som juridisk bor i Norge. Det vil være mennesker som bor ulovlig i Norge, og disse vil ikke bli telt med. Turister og andre som skal være her seks måneder eller kortere, blir heller ikke regnet med. Det er ofte mange fordeler i å være medlem av et register i form av rettigheter og stønader. Det kan derfor være noen som ikke ønsker å melde seg ut av et register fordi de ønsker å beholde rettigheter og stønader, selv om det straffbart å ikke melde seg ut av et register. Forskjellen mellom fordelen med å melde seg inn i et register og ulempene med å melde seg ut kan føre til systematiske skjevheter i statistikk basert på registre.

Ulike typer registre

For å lage en statistisk teori for register er det viktig å utvikle begreper og klassifisering. Det finnes mange registre, og de har ofte svært forskjellig funksjon. For å forstå registrene bedre kan det derfor være nyttig å klassifisere dem ut fra hvilke egenskaper registrene har.

Administrativt register

Et administrativt register er et register opprettet av et forvaltningsorgan for bruk i organets virksomhet.

Statistisk register

Når administrative registre skal bli brukt til statistikk, blir dataene ofte bearbeidet. Registrene blir som regel kontrollert, gransket og eventuelt korrigert. Ofte lager SSB sin egen variant av slike register ved utrekk og/eller tillegg som grunnlag for statistikkproduksjonen. Det har blitt foreslått at vi kan bruke terminologien statistisk register for et bearbeidet administrativt register.

Basisregister og statistisk populasjonsregister

Basisregister er et register som definerer og identifiserer grunnleggende statistiske enheter i samfunnet. Det finnes i dag tre basisregistre:

  • Det sentrale folkeregisteret i Skattedirektoratet som omfatter personer og familier
  • Enhetsregisteret i Brønnøysund som omfatter foretak og bedrifter
  • Matrikkelen, registeret over grunneiendom, adresse og bygninger i Statens kartverk

Registrene blir oppdatert hvis det kommer nye enheter til eller faller fra. Det vil si hvis en ny bedrift blir startet, vil det bli lagt inn i bedriftsregisteret. Hver enhet er tilordnet et sett med variabler, og deres verdier blir oppdatert ved endringer. Hver bedrift er plassert i en næring etter hva den produserer, og hvis dette blir endret, skal det også bli endret i bedriftsregisteret. Datering av endringer er ofte viktig i disse registrene.

SSB har kopi av disse registrene og får jevnlige oppdateringer. I SSBs kopier kan det bli lagt til enten enheter eller variabler som er nyttig i statistikkproduksjon. De bearbeidede basisregistrene blir da kalt statistiske populasjonsregistre. De fleste utvalgsundersøkelsene bruker et av disse registrene til å trekke utvalg, og registrene er dermed basisen for mye av samfunnsforskningen.

Usikkerhet i registrerte tall

Alle tall publisert i Statistisk sentralbyrå har en usikkerhet, ingen tall er absolutt korrekte. Likevel har statistikken alltid hatt en ansett som det mest faktiske og objektive som finnes. Målsettingen for et statistisk sentralbyrå er å publisere tall som er så nær virkeligheten, eller vår teori om virkeligheten, som mulig.

«When we provide representation of the world, there is no final truth of the matter.» Danilo Domodosala (Hacking 1983)


Hvordan skal vi måle usikkerheten?

Vi ønsker at målefeil i registre skal være minst mulig. Målefeil kan deles inn i to grupper: tilfeldige og systematiske målefeil. Den tilfeldige målefeilen vil ha liten betydning hvis populasjonen er stor, for da vil feilene utligne hverandre. Det er verre med den systematiske feilen, den vil bli stående uansett hvor stor populasjon vi har.

Den systematiske feilen skaper skjevheter og er derfor det store problemet i fulltelling og registre. For eksempel hvis bedrifter er spurt om prisen på en tjeneste og oppgir svarene med moms, når det skulle vært oppgitt uten. Dette vil da medføre en systematisk skjevhet i statistikken som ikke kan rettes opp ved å øke utvalget. Prisen på tjenesten vil uansett bli større enn det den er i virkeligheten

Hvor mange ble egentlig født i 1999? Det offisielle antall fødte i 1999 er 58 352, det vil si levendefødte med en mor som er registrert bosatt. Det som er imidlertid helt sikkert, er at det ikke ble født nøyaktig 58 352 barn i 1999. Det korrekte tallet ligger kanskje i et intervall +/-30 av det offisielle tallet. Det vil være noen barn som er født i Norge der bare far er registrert bosatt, eller der verken far eller mor er registrert bosatt. Disse vil ikke bli telt med i de offisielle tallene. Forskjellen mellom levendefødt og dødfødt må også defineres, og da blir en internasjonal definisjon benyttet. Det er også tidsforskjeller mellom når en fødsel skjer, og når fødselsmeldinger blir registrert i folkeregisteret.

Det er viktig at statistikken er aktuell, og derfor må det settes en grense for hvor lenge det skal ventes før statistikken blir laget. Det er vanlig å vente en til to måneder på meldinger om fødsler før statistikken blir laget, men selv da vil ikke alle meldinger ha kommet inn til folkeregisteret. For eksempel er det blant de 58 352 fødte i 1999, 17 som ble født som gjelder årene før 1998. Tilsvarende vil det være noen som er født i 1999, men som først blir telt med i 2000 eller senere.

Mengden og lengden på forsinkelser vil variere fra register til register. Kvaliteten til et register kan bli beskrevet gjennom forskjellen mellom når en hendelse skjedde, og når den ble registrert.

«Every observation statement is loaded with theory - there is no observing prior to theorizing.» (Hacking 1983)

Hva som gjelder som det offisielle tallet for antall levendefødte, blir definert i Statistisk sentralbyrå. Tallet ville vært et annet hvis definisjonen hadde blitt endret. Det vil være umulig å telle konsistent uten gode definisjoner på hva som skal telles.

En variabel med flere verdier

Noe som skiller registerstatistikk fra utvalgsundersøkelser, er at en variabel kan ha flere sett med verdier. Dette kan skje for eksempel når to registre blir koplet sammen, og begge har samme variabel. Ofte vil verdien på variabelen fra det registeret som har antatt best kvalitet, bli valgt. For eksempel kan en person være registrert med lønns- og trekkoppgave samtidig som han er registrert som arbeidsledig. Det vil si at personen mottar lønn fra en jobb og er samtidig arbeidsledig. Vi har to observasjoner som motsier hverandre.

Opplysningene fra registrene kan være korrekte, eller en eller begge registrene kan være feil. Da må disse to kildene vurderes, og det må bli tatt et valg om hvilken verdi som skal velges. Denne situasjonen med flere verdier for en variabel kan også bli brukt til å estimere tilfeldige og systematiske målefeil i registeret. Målefeilen vil da bli beregnet i forhold til verdien i det andre registeret, og ikke i forhold til sannheten. Det er selvfølgelig mulig å anta at et register representerer sannheten, men det vil bare være en antagelse.

Folkeregisteret kvalitetssikres ...

Det som er mest viktig, er at basisregistrene har høy kvalitet, fordi det påvirker både statistikk som blir laget direkte og indirekte fra registeret. Skattedirektoratet jobber aktivt med å kvalitetssikre folkeregisteret, og ser blant annet på returer av utsendte selvangivelser, skattekort og valgkort. I 2011 var det omtrent 11 000 personer som direktoratet fikk to utsendelser i retur fra, mens i 2010 var det omtrent 16 000. Noen av returene skyldes at postadressen ikke lenger fungerer, og da vil adressen bli slettet. En annen grunn er at personen ikke bor på adressen, og i noen av disse tilfellene vil skatteetaten gjøre vedtak om å registrere utvandring.

… og moderniseres i Skattedirektoratet

Skattedirektoratet jobber også med modernisering av folkeregisteret (Skatteetaten 2011). Strømmen av personer som vandrer inn og ut av landet, er større enn tidligere, både de som skal være her mindre enn seks måneder, og for lengre opphold. Antall utenlandske statsborgere som er skatte- eller avgiftspliktige i Norge, har økt. De tildeles et midlertidig nummer (D-nummer), og det er behov for å oppdatere oversikten over denne populasjonen.

Det har vært til dels varierende rutiner og kvalitet på ID-kontrollene, både ved innrullering i registret og løpende oppdateringer. Det er også blitt vanlig med ID-dokumenter med lav sikkerhet, noe som kan føre til ID-tyveri. I tillegg har fødselsnummersystemet som blir brukt nå, begrenset levetid, da det bare står to siffer for fødselsårstallet. Det er derfor nødvendig med en modernisering av folkeregisteret, med nytt ID-nummer, bedre kontroller av identitet, nytt regelverk, nytt system for distribusjon, en teknisk oppgradering av IT-systemet og eventuelt nye variabler i registeret. Det er, ikke minst, viktig for å Statistisk sentralbyrås arbeid at folkeregisteret er modernisert, oppdatert og av høy kvalitet.

Referanser

Hacking, I. (1983): Representing and intervening. Introductory topics in the philosophy of natural science.

Hacking, I. (1990): The taming of change. Cambridge University Press.

Historisk statistikk (1994): Statistisk sentralbyrå .

Lie og Roll-Hansen (2001): Faktisk talt. Statistikkens historie i Norge. Universitetsforlaget.

Nordbotten, S. (2010): The statistical archive system 1960-2010: A summary. Notat til Nordisk Statistikermøde i København 11.-14. august 2010.

Skatteetaten (2011): Modernisering av Folkeregisteret. Rapport fra strategigruppen. Versjon nummer 1.0, 4. november 2011.

Wallgren og Wallgren (2004): Registerstatistikk - administaritiva data för statistiska syften. Resarch - Methods - Development, 2004:2, Statistiska centralbyrån, Statistics Sweden.

Zhang, Li-Chun (2012): Topics of statistical theory for register-based statistics and data integration, Statistica Neerlandica (2012) Vol. 66, nr. 1, pp. 41-63.

Kontakt