Det finnes ulike kilder for statistisk informasjon og flere metoder for å samle inn data. I løpet av den tiden SSB har produsert statistikk, har kildene og metodene endret seg.
Utvalgsundersøkelser
Mens statistikk ved opprettelsen av SSB fram til forrige århundreskifte i stor grad var basert på tellinger og enkelte administrative opplysninger, ble etter hvert utvalgsundersøkelser en viktig kilde til statistisk informasjon. SSBs første direktør Anders Nicolai Kiær lanserte på det internasjonale statistikkinstituttets (International Statistical Institute – ISI) konferanse i Bern i 1895 «den representative metode», altså hvordan en ved å skaffe opplysninger for et utvalg av en gruppe kunne lage god statistikk for hele gruppen. Disse tankene møtte stor motstand, og selv om metoden ble brukt blant annet i Norge, tok den først av internasjonalt etter andre verdenskrig. Da ble den også tatt i bruk utenfor statistikkbyråene, med meningsmålinger og markedsundersøkelser («gallup»).
Etablering av registre
Den økende bruken av administrative registre, som det etter hvert har vært mulig å koble ved hjelp av felles identifikasjon for personer, bedrifter og eiendommer, har likevel vært vel så viktig for utviklingen av norsk offisiell statistikk de siste 50 årene. Ideene bak dette har vært samlet under betegnelsen «det arkivstatistiske system», særlig fremmet av Svein Nordbotten.
Internasjonalt har de skandinaviske landene vært ledende med hensyn til å utnytte registre til offisiell statistikk. Viktige begivenheter som har muliggjort dette i Norge, er etablering av et folkeregister med felles personidentifikasjon i 1964, et register over eiendommer, adresser og bygninger lansert i SSB i 1984, senere tatt over av Statens kartverk som videreutviklet dette registeret i 2003 (nå matrikkelen), samt et register for juridiske enheter (inkludert bedrifter og foretak) i Brønnøysund i 1995.
Disse og andre registre er blitt utnyttet i en rekke statistikker, men folke- og boligtellingene kan nevnes spesielt. Disse har vært utført som tellinger i hovedsak hvert tiende år. Tellingen i 1970 var en skjematelling, men opplysningene ble brukt til å kontrollere Folkeregisteret. I 1980 ble Folkeregisteret og et utdanningsarkiv brukt, men det var ellers en skjematelling. I 1990 ble også et arbeidsmarkedsregister brukt, mens opplysninger som ikke var i registrene, ble samlet ved hjelp av skjema fra et utvalg av befolkningen. Tellingen av personer ble basert på registre i 2000, men boligopplysninger ble innhentet ved bruk av skjema. Tellingen i 2011 og senere er utelukkende basert på registeropplysninger.
Folketellingene og ressursinnsatsen knyttet til disse har også hatt stor betydning for modernisering av IT-infrastrukturen i SSB.
Se også samlesiden for folketellinger på SSBs sider for historisk statistikk.
Utviklingen av teknologi generelt
En rekke punkter på tidslinja dekker eller henger også sammen med teknologiutviklingen, fra hullkortmaskinen i 1894, den første datamaskinen i 1958 og PC-er fra 1983, etableringen av ssb.no i 1995 med statistikkbanken fra 2002, til a-ordningen i 2015 og microdata.no i 2018. Et moderniseringsprogram som er nevnt, er teknologiskiftet som ble fullført i 1999.
En omfattende oversikt over databehandlingens historie i SSB i perioden 1959–1990 er gitt i publikasjonen Fra hullkort til PC (PDF) av Erik Aurbakken.
Teknologien har bidratt til en kontinuerlig utvikling av interne arbeidsrutiner. I dag arbeides det med en ny dataplattform (Dapla) som er fellesbegrepet for tjenester og verktøy som muliggjør SSBs utvikling og produksjon av statistikk i skyen. Arbeidet med Dapla startet i 2017, men denne dataplattformen ble formelt etablert i 2019. Den vil gjøre det enklere å finne, bearbeide, koble, forvalte og dele data, og er en forutsetning for at SSB skal kunne fortsette å være en framtidsrettet produsent av offisiell statistikk. Arbeidet berører hele organisasjonen og vil pågå i flere år framover.
Dapla har blitt en viktig pådriver for endringer i hvordan vi jobber med statistikk. Et grunnleggende prinsipp har vært at statistikkseksjonene selv skal kode sin statistikkproduksjon i Python, mens IT bygger og forvalter plattformen og rammeverket produksjonen skal kjøre på. Dette markerer et brudd med tidligere rollefordeling mellom fag og IT, og gir høyere grad av automatisering, fleksibilitet og eierskap til løsningene.
Blant de viktigste tekniske arkitekturvalgene er etableringen av en felles lagringsmodell. Data i sine respektive tilstander – kildedata, bearbeidede data og endelige statistikker – skal lagres og dokumenteres på en enhetlig måte på tvers av hele statistikkporteføljen. Dette gir betydelige gevinster for kvalitet, reproduserbarhet og muligheter for gjenbruk og deling – både internt og med eksterne samarbeidspartnere.
Parallelt med den teknologiske utviklingen har også tilgangen på nye datakilder økt kraftig. Digitale spor, sensordata, transaksjonsdata, åpne data og nye former for administrative data representerer store muligheter for statistikkformål – men fordrer også at organisasjonen evner å håndtere større datavolum, høyere variasjon og nye former for usikkerhet.
SSB har de siste årene vært i dialog med ulike eiere av private data. Et eksempel har vært innhenting av kjøpskvitteringsdata og debetkortdata til bruk i forbruksundersøkelsen. Her pågår det en dialog med Datatilsynet om mulige personvernutfordringer. Andre anvendelser av nye data omfatter bruk av skannerdata for konsumprisindeksen (KPI), og elektrisitetsstatistikk basert på data fra et elektrisitetsdatasenter med informasjon fra alle målepunkter, inkludert «smarte målere».
De nye datakildene må utnyttes på en effektiv og forsvarlig måte. Derfor har det vært nødvendig å etablere en mer fleksibel og skalerbar plattform samtidig som vi utvikler nye metoder og kompetanse innen databehandling, dokumentasjon og kvalitetssikring.
Framveksten av skyplattformer har gjort det mulig å håndtere store datamengder mer effektivt og legge til rette for bedre samspill mellom verktøy, prosesser og brukere. Bruk av kodebasert produksjon er blitt vanlig i mange organisasjoner, men SSB var antakelig blant de første nasjonale statistikkbyråene som tok dette i bruk som en integrert del av sin offisielle statistikkproduksjon.