Notater 2019/40

Metodedokumentasjon om imputering av byggeår til fritidsbygg

I denne studien bruker vi flyfoto for å identifisere byggeåret til et utvalg av fritidsbygg med tanke på å lage en imputeringsmetode for byggeår.

Prosjektet startet i 2018 for å utvikle en metode for vurdering av nye fritidsbygg uten byggeår. Statistisk sentralbyrå publiserer statistikk over nye fritidsbygg, spesielt bygg bygd de siste 5 årene. Hvert år registreres det nye fritidsbygg, hvor noen av dem er registrert uten byggeår.

I denne studien bruker vi flyfoto for å identifisere byggeåret til et utvalg av fritidsbygg med tanke på å lage en imputeringsmetode for byggeår. Ved hjelp av flyfotoene ble det notert ned hvilket år bygningsomrissene til fritidsbyggene i utvalget ble først sett med bygg, eller hvilket år bygningsomrissene ble sist sett uten bygg. Fra vår manuelle sjekk av utvalget viser det seg at flertallet, ca. 90 prosent, er etterregistrert. Ved bruk av flyfoto utviklet vi en imputeringsmetode som kan tas i bruk for estimering av hvor mange og hvilke fritidsbygg som skal inkluderes i fremtidige statistikkpubliseringer.

Imputeringsopplegget har to faser: 1) å imputere en binomisk verdi som forteller om fritidsbyggene er bygget før eller innen de siste 5 årene, og 2) å imputere byggeåret til fritidsbyggene fra de siste 5 årene.

Fase 1: Det er testet hovedsakelig tre forskjellige imputeringsmetoder: hotdeck-imputering, kalibrert imputeringsmodell med en terskelverdi og random forest-imputering. Disse testene er brukt til å bestemme om fritidsbyggene er bygd før eller innen de 5 siste årene. For alle imputeringsmetodene delte vi utvalget i test- og treningsdatasett. Resultatene til de predikerte verdiene ble sammenlignet med de observerte verdiene fra flyfotosjekket. Vi fokuserte på: 1) nøyaktighet, og 2) fordelingen på fritidsbygg bygd før eller innen de 5 siste årene, altså hvor mange som er imputert til det motsatte. Terskel-verdien, Imp, fungerte best med 93,84 prosent i nøyaktighet og 0,16 i forhold.

Fase 2: Fritidsbygg som er antatt å være bygd innen de siste 5 årene får imputert et byggeår. På grunn av en veldig liten datamengde var det ikke mulig å teste forskjellige imputeringsmetoder med meningsfulle resultater. Derfor bruker vi en enkel hotdeck-metode med en begrensingsandel som er lik det imputerte resultatet til det siste året.

Denne studien har vist en nyttig bruk av flyfoto i kvalitetsarbeid i SSB. Det åpner opp for andre analyseoppgaver og kvalitetssjekk. Vi anbefaler å jobbe videre med denne datakilden for å finne flere bruksmuligheter

Om publikasjonen

Tittel

Metodedokumentasjon om imputering av byggeår til fritidsbygg

Ansvarlig

Lisa Li og Susie Jentoft

Serie og -nummer

Notater 2019/40

Utgiver

Statistisk sentralbyrå

Emne

Metoder og dokumentasjon

ISBN (elektronisk)

978-82-587-1015-5

ISSN

2535-7271

Antall sider

17

Om Notater

I serien Notater publiseres dokumentasjon, metodebeskrivelser, modellbeskrivelser og standarder.

Kontakt