Folke- og boligtellingen 2001

Feilkilder og usikkerhet ved resultatene fra boligtellingen

Tallene vil være usikre av flere årsaker. Vi regner med fem hovedgrupper av feilkilder: frafallsfeil, målefeil, bearbeidingsfeil, registerfeil og modellfeil. Vi omtaler her disse ulike feiltypene og beskriver hvilken innflytelse de har på den totale usikkerheten i tallene.

Innsamlings- og bearbeidingsfeil

Vi må regne med at noen svarer feil på spørsmålene i boligskjemaet. Det kan skyldes at oppgavegiver misforstår spørsmålet eller at det er vanskelig å svare presist. Et typisk eksempel på det første problemet er spørsmål 15 "Hvor mange andre oppholdsrom på 6 kvadratmeter eller mer har boligen din?" Siden begrepet oppholdsrom ikke er forklart, kan noen regne med rom som ikke var ment å tas med (f.eks. kjøkken) eller omvendt ikke ta med rom som skulle vært med (f.eks. kjellerstuer) . Det kan også være vanskelig å bestemme hva som skal regnes som ett eller to rom (f.eks. kjøkken og spisestue)

Et eksempel på at det er vanskelig å svare helt korrekt, har vi i spørsmål 18b om hvor stor boligen er (bruksarealet). Vi må regne med at mange oppgavegivere ikke kjenner det eksakte antall kvadratmeter. I spørsmål 18a skal en kun krysse av hvilket intervall bruksarealet ligger i. Det er derfor grunn til å regne med at kvaliteten blir bedre på svarene her siden en med stor sannsynlighet treffer rett intervall selv om en ikke kjenner det eksakte bruksarealet. Generelt må vi forvente at kvaliteten på svarene er bedre på spørsmål som krever lite arbeid å fylle ut enn på spørsmål som krever mer arbeid, særlig dersom det trengs en nøye vurdering før en svarer.

Vi må også regne med bearbeidingsfeil knyttet til optisk lesning av skjemaene. Typiske feil som kan oppstå er at en tolker tallet 7 som 1 og omvendt. Et annet problem oppstår der avkrysninger eller tall er svake eller plassert utenfor boksen det skal skrives i. Det kan da skje at svaret i den optiske lesningen tolkes som uoppgitt. Noen feiltolkninger rettes opp i revisjonen, men ikke alle. Dette fører til at antall målefeil øker. Manglende tolkning fører til en større andel frafall på spørsmålet. Begge typer bearbeidingsfeil fører til økt usikkerhet i de tallene som vi publiserer.

Vi har et omfattende opplegg for å finne feil og rette opp feil i data (se også avsnitt 3.6). Den faktiske målefeilen i de data som vi bruker for å produsere statistikken, er da avviket mellom den sanne (men ukjente verdien) og den faktiske verdien som finnes i datagrunnlaget.. Denne faktiske verdien er da et resultat av hva oppgavegiver har svart, hvordan svaret er blitt tolket og hva vi i gjennom våre kontroll- og revisjonsrutiner har rettet opp av feil. For å måle størrelsen på målefeilene må vi kjenne de sanne verdiene. Vi har et opplegg for å hente inn slike (tilnærmet) sanne verdier i flere utvalgsundersøkelser. Vi kan ikke her presentere tabeller eller figurer som sier noe om nivået på målefeilene, men viser til publisering av egne notater om målefeil som kommer seinere i 2002 og 2003. Vi kan imidlertid si noe generelt om betydningen av målefeil ved å skille mellom systematiske feil (den gjennomsnittlige målefeilen) og tilfeldige feil (den individuelle målefeilen). I små områder (kommuner og bydeler) vil den tilfeldige målefeilen ofte bety mest, dvs. at forskjeller mellom kommuner kan skyldes tilfeldige avvik. For store områder, som fylker og hele landet, vil den systematiske feilen bety mest, dvs. at antallet med en bestemt egenskap jevnt over blir liggende for høyt eller for lavt i forhold til den sanne verdien.

Utvalgsfeil

Utvalgsfeil er ikke aktuelt i FoB2001 siden vi har en totaltelling. Utvalgsfeil spiller imidlertid en rolle når vi skal forklare avvik mellom de tallene vi publiserer nå (endelige tall) og de foreløpige tallene som vi publiserte i april 2002. Foreløpige tall var basert på et utvalg av de innkomne skjemaene og hadde dermed utvalgsfeil. Avvik mellom de foreløpige tallene og de endelige tallene skyldes i tillegg til utvalgsfeil, frafallsfeil og bearbeidingsfeil/målefeil. Vi skal under neste punkt se nærmere på frafallsfeil og hva disse kan bety for kvaliteten til de endelige tallene. Mange av avvikene mellom de endelige og foreløpige tallene skyldes rett og slett utvalgsfeil og avvikene er også i mange tilfeller klart innenfor et forventet avvik. I en del tilfeller er avviket større enn frafallsfeilen skulle tilsi. Dette kan skyldes at utvalget på dette punktet var mer avvikende fra hele populasjonen enn utvalgsusikkerheten tilsier. I andre tilfeller er årsaken at frafallet er behandlet forskjellig i de foreløpige tallene og de endelige tallene, se neste avsnitt.

Ikke-utvalgsfeil

Under dette punktet skal vi behandle registerfeil, frafallsfeil og modellfeil. Frafallet betyr langt mer for kvaliteten på de tallene som publiseres enn de to andre feilkildene. Frafallfeil kan også indirekte skyldes feil i registre. Ved utsendelsen er brukt adresser fra Folkeregisteret. Det viser seg at nærmere 40 000 utsendte skjemaer ikke har kommet fram til kontaktpersonen. Dette må i stor grad skyldes at kontaktpersonene ikke har vært mulig å få tak i på den adressen de har ifølge Folkeregisteret. Det kan være flere årsaker til dette, f.eks. at personen ikke oppholder seg på sin faste adresse eller har flyttet uten at flyttemelding er sendt.

Modellfeil han heller ikke sees uavhengig av frafallsfeil. Opplegget for å imputere opplysninger for frafallet bygger på modeller for sammenhengen mellom verdiene for enheter i frafallet og de tilsvarende verdier for enheter som vi har mottatt skjema for.

Vi skal derfor legge mest vekt på å beskrive usikkerheten som skyldes at vi må imputere verdier når vi mangler opplysninger. Frafallet kan deles i to typer. For det første er det 138 500 utsendte boligskjemaer (dvs. husholdninger) vi ikke har noen opplysninger om. De to dominerende gruppene blant disse er 93 300 skjemaer som vi ikke har fått noen tilbakemelding fra selv etter annen purring og 30 100 skjemaer der kontaktperson er flyttet eller adressen er ukjent. Den tredje største gruppen er kontaktpersoner som bor på institusjon (4 000 skjemaer). De resterende er f.eks. tilfeller der kontaktpersonen/familien ble fritatt eller at kontaktpersonen var student i utlandet. Noen skjemaer er også så dårlig utfylt at vi ikke kan bruke disse. Når vi mangler skjemaet eller hele skjemaet er ubrukelig, kaller vi frafallet for enhetsfrafall.

Den andre typen frafall skyldes at det ikke er svart på enkelte av spørsmålene eller at vi ikke kan tolke svarene. Denne typen frafall kaller vi partielt frafall. Omfanget av denne type frafall varierer fra spørsmål til spørsmål. Forskjellene har trolig sammenheng med hvor vanskelig oppgavegiveren synes det er å gi et svar. I noen tilfeller kan det også forklareres ved at oppgavegiver synes at dette er en følsom opplysning som eventuelt kan brukes til å beregne skatter eller avgifter. Et nærliggende eksempel på det siste er bruksarealet til boligen. I tabell 1 har vi gitt det partielle frafallet for de enkelte spørsmålene i boligtellingen.

Tabell 1 Det partielle frafallet (prosent) for spørsmålene på boligskjemaet1

 

Type mottak

Spørsmål

I alt

Manuell2

Internett

Optisk3

Spørsmål om adressen

       

1. Bodde du på den oppførte adressen?

4,7

3,9

0,1

5,2

2. Skriv opp den adressen du bodde på 3. november 2001

0,1

0,2

0,1

0,1

4. Hva slags hus eller leilighet bor du i?

1,6

4,3

1,0

1,7

5. Har du mottatt adressemerke?

16,2

17,9

2,6

17,6

6. Har du mottatt et slikt undernummer, vennligst oppgi nummeret

44,0

44,0

11,6

47,4

Spørsmål om bygningen

       

7. Når ble bygningen eller huset du bor i bygd?

2,6

7,0

1,0

2,7

8. Kan du også oppgi et mer nøyaktig byggeår?

5,7

9,2

1,1

6,1

9.1. Har bygningen eller huset kjeller?

15,5

17,8

7,0

16,4

9.2. Har bygningen eller huset underetasje?

41,2

35,3

13,6

44,2

10. Hvor mange etasjer har bygningen eller huset du bor i?

1,9

6,6

0,9

2,0

11. Er det heis i bygningen?

3,7

8,7

0,9

3,9

Spørsmål om boligen

 

 

 

 

12. Hva slag eier eller leieforhold har du eller dere til huset eller leiligheten du bor i?

3,0

7,0

1,0

3,2

13. Har boligen eget kjøkken eller tekjøkken?

2,0

6,8

1,1

2,0

14. Hvor mange soverom på minst 6 kvadratmeter eller mer har boligen din?

2,2

7,2

1,0

2,3

15. Hvor mange andre oppholdsrom på 6 kvadratmeter eller mer har boligen din?

3,6

8,7

1,0

3,9

16. Er det noen av rommene som du regnet med i spørsmål 15 som bare brukes til næringsvirksomhet?

0,1

0,1

0,2

1,4

17. Hvor mange rom med badekar eller dusj er det i boligen din?

1,4

6,6

0,9

1,4

18a Hvor stor er boligen din (det skulle krysses av for et intervall)?

2,9

10,4

1,0

3,1

18b Kan du også gi et mer nøyaktig tall innenfor det intervallet du krysset av i spørsmål 18a?

12,7

16,8

1,2

13,8

Flere detaljer om boligen

       

19. Kan en rullestolbruker komme inn i boligen ved egen hjelp?

2,6

9,3

0,9

2,7

20.1 Kan en rullestolbruker ved egen hjelp benytte baderom?

6,8

11,2

1,8

7,3

20.2 Kan en rullestolbruker ved egen hjelp benytte toalett?

7,6

12,0

1,7

8,2

20.3 Kan en rullestolbruker ved egen hjelp benytte minst ett soverom?

8,2

12,6

1,7

8,8

20.4 Kan en rullestolbruker ved egen hjelp benytte kjøkken?

6,4

11,1

1,4

6,9

20.5 Kan en rullestolbruker ved egen hjelp benytte stue?

6,0

11,0

1,3

6,4

21. Hva slag ovner eller systemer for oppvarming har boligen?

1,5

6,3

1,0

1,5

22.1 Har boligen sentralfyr?

7,3

12,7

1,8

7,8

22.2 Har boligen fjernvarmeanlegg?

17,4

21,1

3,9

18,7

23. Hvilke energikilder brukes til å varme opp boligen?

1,9

6,7

1,2

1,9

24. Hvor mange vannklosett er det i boligen?

1,5

6,8

1,0

1,5

25. Hva slag type kloakkanlegg er boligen din knyttet til?

1,6

7,8

0,9

1,7

26. Er det utført omfattende utbedring eller oppussing etter at boligen var ferdig for innflytting?

2,5

8,4

0,9

2,6

27.1 Har du tilgang til egen hage?

11,4

16,0

2,9

12,2

27.2 Har du tilgang til felles hage med naboer?

47,4

37,5

12,4

51,2

27.3 Har du tilgang til egen balkong, veranda eller terrasse?

20,0

19,7

4,9

21,6

27.4 Har boligen egen garasje eller carport?

10,0

14,2

3,1

10,7

27.5 Har boligen egen parkeringsplass?

21,0

20,6

5,0

22,7

Husholdningen

       

28.1 Kontaktpersonen (alle skjema)

16,0

12,9

2,4

17,5

28.2 Person i tillegg (alle 2 person familier)

3,5

3,7

0,8

3,8

28.3 Person i tillegg (alle 3 person familier)

2,6

3,3

1,1

2,7

Prosentene over det partielle frafallet må tolkes forsiktig. Manglende svar på et spørsmål kan både skyldes at oppgavegiver faktisk ikke har ønsket eller kunnet svare, men også at manglende avkrysning ut fra sammenhengen skal egentlig være "nei". Et eksempel er spørsmål 9 der en første skal krysse av for om det bygningen eller boligen har kjeller og deretter for underetasje. Mens 16 prosent ikke har krysset av på spørsmålet om kjeller er det hele 40 prosent som ikke har krysset av for underetasje. Det skyldes nok at oppgavegiver har ment at avkrysningen for kjeller også er et svar på spørsmålet om underetasje. Opplegget for imputering går da også ut på å sette inn kryss for "nei" dersom ingen avkrysning er gjort og det heller ikke finnes kilder som tyder på "ja". For de som har svart på pairskjema ser vi den samme tendensen i alle spørsmål der det er flere delspørsmål: Frafallet øker for hvert svaralternativ nedover i skjemaet.

Videre ser vi også at frafallet øker når vi ber om et mer presist svar. Dette ser vi både i spørsmålet om byggeår og arealet til boligen. Det blir lavt frafall når det kun skal krysses av for et intervall (spørsmålene 7 og 18a) og langt større frafall når vi i tillegg ber om et årstall (spørsmål 8) eller antall kvadratmeter (spørsmål 18b).

Den siste tendensen vi også ser veldig klart, er at det partielle frafallet er langt høyere på papirskjema enn på Internett. Det skyldes at vi på Internettskjemaet kunne legge inn påminnelse til oppgavegiver om at det ikke var svart på spørsmålet. Vi ser spesielt at for de som har svart på Internett er det partielle frafallet omtrent det samme om en skal krysse av for et intervall eller svare med et årstall eller antall kvadratmeter.

Tabell 1 sier kun noe om kvalitetsproblemer i tallene på grunn av stort frafall. Det kan selvsagt være betydelige kvalitetsproblemer selv om frafallet er lite. Et eksempel kan være spørsmålet om omfattende utbedring eller oppussing. Her vil det være problemer med å tolke hva om fattende egentlig skal bety. Altså er målefeil antakelig et langt større problem enn frafall i dette tilfellet.

Tabell 1 viser også frafallet for spørsmålet om personene i husholdningen(spørsmål 28) som jo er viktig for å etablere korrekt faktisk husholdning. Vi ser en svært markert forskjell mellom frafallet for kontaktpersonen og for person 2 og 3 som var preprintet. Det skulle krysses av for om personen(e) bodde i boligen, i en annen bolig eller på annet sted. Årsaken til en relativt høy andel manglende kryss for kontaktpersonen skyldes nok at han/hun har glemt eller unnlatt å svare siden det allerede er svart på dette i spørsmål 1.

Opplegget for å imputere boligopplysninger for de husholdningene vi ikke har mottatt skjema fra, bygger på at vi for hver husholdning i frafallet trekker tilfeldig i samme grunnkrets en bolig med samme adressegruppe4 og der husholdningen som bor i boligen har samme parkode (husholdningen omfatter minst ett par (ja/nei)) og samme antall barn (ingen, 1, 2 eller minst 3). Boligopplysningene for den uttrukne boligen blir så husholdningens beregnede boligopplysinger. I tillegg har vi også tatt hensyn til om familien det skal imputeres boligopplysninger for er en familie med ikke-vestlige innvandrere eller ikke. I tabell 2 har vi gitt forholdet mellom antallet boligopplysninger som må imputeres og mottatte svar for de 32 gruppene som vi definerer ved adressegrupper, parkode og antall barn.

Tabell 2 Forholdet mellom frafall og mottatte skjema med hensyn på adressegruppe, parkode og antall barn

 

Antall barn

Adressegruppe

Par

0 barn

1 barn

2 barn

3+ barn

Unik adresse med stedfortreder

Ja

1,2

3,5

3,9

5,6

Unik adresse med stedfortreder

Nei

9,8

9,5

10,4

16,5

Unik adresse uten stedfortreder

Ja

1,1

3,0

3,4

4,4

Unik adresse uten stedfortreder

Nei

10,2

11,4

12,4

15,3

Ikke unik adresse m. stedfortreder

Ja

2,0

6,6

7,8

11,9

Ikke unik adresse m. stedfortreder

Nei

14,0

14,4

16,7

25,3

Ikke unik adresse u. stedfortreder

Ja

1,9

5,0

5,0

5,3

Ikke unik adresse u. stedfortreder

Nei

17,0

16,2

18,5

22,6

Tallene er antallet skjema vi mangler per hundre mottatte skjema. Vi ser da at frafallet er langt høyere når det ikke er et par i husholdningen og frafallet er klar høyere for ikke-unike adresser enn unike adresser. Dessuten er forskjellen større mellom par og ikke par når det ikke er barn i husholdningen.

Tabell 3 Frafallet etter adressegruppe, parkode og antall barn

 

Antall barn

Adressegruppe

Par

0 barn

1 barn

2 barn

3+ barn

Unik adresse med stedfortreder

Ja

0,5

0,6

0,8

0,4

Unik adresse med stedfortreder

Nei

5,8

0,8

0,5

0,2

Unik adresse uten stedfortreder

Ja

2,6

2,0

2,7

1,8

Unik adresse uten stedfortreder

Nei

20,1

1,9

1,0

0,4

Ikke unik adresse m. stedfortreder

Ja

1,4

1,3

1,1

0,7

Ikke unik adresse m. stedfortreder

Nei

27,7

2,1

0,8

0,3

Ikke unik adresse u. stedfortreder

Ja

1,1

0,9

1,0

0,6

Ikke unik adresse u. stedfortreder

Nei

17,0

1,3

0,5

0,2

Den relative fordelingen av frafallet på de samme gruppene er vist i tabell 3. Over 70 prosent av skjemaene vi mangler ble sendt ut til enpersonfamilier. Vi kan oppsummere med å fastslå at frafallet ikke medfører feil på tallene for ektepar, registrerte partnere eller samboere med felles barn. Vi må imidlertid regne med at vi har fått for mange aleneboende og mor/far med barn siden en del av disse antakelig skulle vært slått sammen i større husholdninger til samboere uten felles barn. Det betyr også at dette tallet på samboere har blitt for lite. Størrelsen på disse feilene er antakelig ikke store og betyr lite ikke noe for tolkningen av tallene og sammenlikningen med annen statistikk.

Til slutt noen vurderinger av behandlingen av frafallet i foreløpige tall mot opplegget ved endelige tall. I foreløpige tall imputerte vi ikke for enhetsfrafallet. Metoden her var å korrigere ved beregningen av vekter. Spesielt rettet vi opp for antallet familier av forskjellig type og antallet personer i de enkelte aldersgruppene for kvinner og menn. Det er grunnen til at det blir for få enpersonhusholdninger i de foreløpige tallene. Metoden førte til at fordelingen av husholdningsstørrelse og par i frafallet var omtrent som blant de som svarte, mens enpersonhusholdninger egentlig er langt mer dominerende i frafallet. I de endelige tallene har vi gått i motsatt retning og satt husholdning lik familie og kanskje "mistet" noen par og store husholdninger. Uansett er resultatet at avviket for enpersonhusholdninger og par er større enn utvalgsusikkerheten skulle tilsi. Dette skyldes en skjevhet i de foreløpige tallene som er forårsaket av frafallet og metoden for å lage vekter.

1 Disse prosentene er beregnet på grunnlag alle husholdninger vi har etablert på grunnlag av mottatte boligskjemaer. Det betyr at frafallet på skjemaene kan være noe større siden en i en del tilfeller har hatt flere skjemaer og dessuten har en også kunnet rette opp for manglende svar i en del tilfeller på skjemaene på grunnlag av logisk sammenheng.

2 Skjemaet er ikke i sin helhet lest optisk, men kan være mottatt over telefon eller ikke mulig å lese optisk. Kan også være en kombinasjon av lest optisk, men manglet bolignummer som er mottatt seinere.

3 Papirskjema som er lest optisk.

4 Fire adressegrupper: Unik adresse med stedfortreder(typisk eksempel er rekkehus), Unik adresse uten stedfortreder(typisk eksempel er enebolig), Ikke unik adresse med stedfortreder(typisk eksempel er blokkleilighet) og Ikke unik adresse uten stedfortreder(typisk eksempel er tomannsbolig). Stedfortreder betyr at det finnes en lik leilighet i samme bygning eller adresse.