Metode for bedring av informasjon om arbeidstid i a-ordningen

Publisert:

Endret:

Statistisk sentralbyrå (SSB) har tatt i bruk en metode som gir bedre informasjon om arbeidstid i a-ordningen. Metoden gir særlig forbedring i arbeidstidsopplysninger, som gjør det enklere av å avgjøre hvem som arbeider heltid og deltid.

Siden 2015 har a-ordningen vært hovedkilden til informasjon om arbeidsforhold og lønn. Den største forbedringen sammenlignet med kildene a-ordningen erstattet var at man fikk data om stillingsprosent, som gir mulighet til å skille mer presist mellom heltid og deltid. Tidligere ble arbeidstid bare rapportert som antall timer per uke, men timetallet som svarer til heltid varierer mellom arbeidsforhold. En annen viktig forbedring var at a-ordningen har data om arbeidstid for alle arbeidsforhold, mens vi ikke hadde opplysning om arbeidsforhold for små og kortvarige arbeidsforhold i registrene før 2015.

Kvalitet i a-ordningen

Kvaliteten i a-ordningen regnes som god og bedre enn tidligere kilder. A-ordningen gir generelt et bedre datagrunnlag fordi den dekker flere arbeidsforhold og gir mer korrekte data på individnivå enn det som var hovedkilden til og med 2014 (Nav Arbeidstaker og arbeidsgiverregister). Det er flere grunner til at kvaliteten har blitt bedre. Med a-ordningen har vi et sammenhengende regelverk som fremtvinger mer korrekt rapportering. Informasjon om arbeidsforhold og lønn kommer nå fra den samme kilden (a-ordningen), og ikke ulike kilder som tidligere. Sammenheng i rapporteringen mellom arbeidsforhold og lønn gir også bedre mulighet for kontroll og oppfølging.

Det er likevel en del utfordringer med å få god kvalitet på data om arbeidstid fra a-ordningen.

Utfordringene går dels i at det ikke rapporteres stillingsprosent for mange timelønte og dels i at det for noen timelønte rapporteres standardverdier på enten 0 eller 100. Sistnevnte gjør at det er vanskelig å skille en reell stillingsprosent på 100 fra en feilaktig verdi på 100.

På bakgrunn av dette har SSB utviklet en metode som gir bedre datagrunnlag for arbeidstid til statistikkproduksjon. Metoden består av flere steg. Først avgjøres det om det er en fornuftig sammenheng mellom innrapportert stillingsprosent og lønn. Der det er god sammenheng, som vi har for om lag 85 prosent av alle arbeidsforhold, benyttes den innrapporterte stillingsprosenten.

Der det ikke er en fornuftig sammenheng, beregnes det en ny stillingsprosent ved hjelp av antall betalte timer eller lønn. I noen tilfeller skyldes den dårlige sammenhengen at det er rapportert null i stillingsprosent, mens i andre tilfeller skyldes det at stillingsprosenten er rapportert feil. Erfaringen etter fem år med a-ordningen tilsier at der det er avvik er rapporteringen av lønn som regel korrekt.

I noen tilfeller får vi ikke beregnet en stillingsprosent fordi det f.eks. ikke har blitt innrapportert lønn i referansemåneden. Dette kan gjelde personer som mottar ytelser som erstatter lønn og likevel skal regnes som sysselsatte. Stillingsprosent til disse arbeidsforholdene beregnes ved bruk av en såkalt nærmeste nabo-metode.

Om metoden

I a-ordningen rapporteres følgende arbeidstidsopplysninger: avtalt stillingsprosent, antall timer som utgjør fulltid per uke og betalte timer for timelønte. For fastlønte må stillingsprosent rapporteres, men for timelønte hvor arbeidsgiver «ikke kjenner» stillingsprosenten, er det en åpning for å rapportere null. Dette er ment for helt spesielle grupper som f.eks. tilkallingsvikarer. Det er imidlertid en stor andel timelønte som rapporteres med null i stillingsprosent.

Der det er en dårlig sammenheng mellom den innrapporterte stillingsprosenten og lønn, beregnes det en stillingsprosent basert på enten betalte timer og antall timer som utgjør fulltid per uke eller basert på lønn. For arbeidsforhold der det ikke er rapportert lønn, men som allikevel skal inngå i sysselsettingsstatistikken, benyttes det en nærmeste nabo-metode for å beregne en stillingsprosent i tilfeller der denne mangler. Hvilken metode som benyttes, avhenger av hva slags informasjon som er rapportert inn.

Metoden består av tre steg: 1) identifisere gjennom ulike ekstremkontroller hvilke arbeidsforhold som skal i) beholde innrapportert stillingsprosent, eller ii) få stillingsprosenten utledet fra betalte timer eller iii) få predikert en stillingsprosent, 2) predikere stillingsprosent for arbeidsforholdene som vi plukker ut i steg 1 ved å bruke maskinlæringsalgoritmen XGBoost og 3) imputere stillingsprosent for alle arbeidsforhold som mangler stillingsprosent, og som ikke får beregnet en stillingsprosent i steg 1 eller 2, ved bruk av en nærmeste nabo-metode.

Det er kun aktive arbeidsforhold hvor det er rapportert en positiv fast- og/eller timelønn som inngår i steg 1 og 2.

1. Ekstremkontroller

I steg 1 bestemmes det altså hvilke arbeidsforhold som skal få en predikert stillingsprosent eller en stillingsprosent utledet fra betalte timer. Ekstremkontrollene gjennomføres både for å finne ut hvilke arbeidsforhold som skal få predikert en verdi, og for å unngå at feil/mangler i dataene påvirker predikeringen negativt. Følgende prebehandling av dataene gjennomføres:

  1. Hvis en person har flere arbeidsforhold i samme virksomhet summeres disse til ett arbeidsforhold. Dersom det er rapportert 100 i stillingsprosent i alle arbeidsforholdene (i samme virksomhet), antar vi at stillingsprosenten bare er gjentatt, og stillingsprosenten settes til 100.

  2. Først settes stillingsprosenten for alle fast- og kombinasjonslønnete arbeidsforhold med innrapportert verdi lik 0 eller uoppgitt til 100. Alle timelønnete arbeidsforhold med innrapportert verdi lik 0 eller uoppgitt får stillingsprosenten utledet fra betalte timer og antall timer som utgjør fulltid per uke. Metoden vil deretter avgjøre hvorvidt stillingsprosenten for hvert enkelt arbeidsforhold skal anses som en riktig verdi eller ikke sett i forhold til bl.a. lønn. Hvis en stillingsprosent for et arbeidsforhold ikke godkjennes i ekstremkontrollene som beskrives nedenfor, blir denne enten utledet fra betalte timer eller predikert ved hjelp av maskinlæringsalgoritmen XGBoost.

  3. Øvre grense for stillingsprosent for en person i en virksomhet settes til 120 prosent. Alle innrapporterte stillingsprosenter og alle stillingsprosenter utledet fra betalte timer som overstiger denne grensen blir derfor nedjustert.

  4. Timelønnede arbeidsforhold som mangler både innrapportert stillingsprosent og betalt stillingsprosent settes til «ikke godkjent» og får predikert en stillingsprosent ved hjelp av XGBoost.

  5. Glatting av lønn: Lønn rapportert for en periode kan inneholde korreksjoner for tidligere rapporteringer eller lønn fra andre perioder, f.eks. etterbetalinger i forbindelse med lønnsoppgjør. Lønn sjekkes derfor mot forrige periode (måned t-1) og neste periode (måned t+1). For å korrigere for lønn i inneværende måned (måned t) som gjelder andre perioder eller korreksjon for tidligere perioder, glattes lønnen ved å benytte lønnsdata for den etterfølgende måneden.

  6. Arbeidsforhold med en ikke-representativ høy lønn/lønnssats fjernes fra datasettet slik at de ikke påvirkermaskinlæringsalgoritmen vi skal bruke til predikering. Disse lønningene kan likevel inngå i statistikken om de passerer senere ekstremkontroller. Følgende regnes som ekstreme og ekskluderes fra modellen: a) lønnssats for timelønte på mer enn 1 000 kr og/eller b) lønn over 162 500 kr per måned.

Etter denne prebehandlingen av dataene gjennomføres det tre typer ekstremkontroller: 1) sammenheng mellom innrapportert stillingsprosent og stillingsprosent utledet fra betalte timer (kun timelønnete arbeidsforhold) og 2) lønn per heltidsekvivalent (alle arbeidsforhold) og høy/lav timesats (kun timelønnete arbeidsforhold), og 3) sammenheng mellom lønn og lønn per heltidsekvivalent.

I første ekstremkontroll ser vi om det er en fornuftig sammenheng mellom innrapportert stillingsprosent og stillingsprosent utledet fra betalte timer for timelønnete arbeidsforhold. Det brukes en såkalt ratiomodell, en iterativ regresjonsmodell, som betyr at modellen tilpasses over flere runder. I tilfeller med dårlig sammenheng erstattes innrapportert stillingsprosent med stillingsprosent utledet fra betalte timer og antall timer som utgjør fulltid per uke. Alle arbeidsforhold fra denne kontrollen går videre til neste ekstremkontroll.

I andre ekstremkontroll sjekkes det om lønnssatsen er på et akseptabelt nivå eller så ekstrem at vi velger å predikere stillingsprosenten. Lønn per heltidsekvivalent må være større eller lik 18 000 kr (12 000 kr for personer under 18 år), men for lærlinger settes nedre grense til 6 000 kr, uavhengig av alder. Hvis timelønte med innrapportert stillingsprosent blir definert som ekstreme i dette steget sjekkes det om samme er tilfelle også med betalt stillingsprosent. Hvis man da oppfyller kravene over blir man ikke lenger merket som ekstrem i dette steget.

I tillegg må timesatsen for timelønnete arbeidsforhold ligge mellom 100 og 1 000 kroner. Hvis disse kravene ikke tilfredsstilles, merkes arbeidsforholdet som ekstremt.

Alle arbeidsforhold identifisert som ekstreme i denne kontrollen blir predikert ved hjelp av maskinlæringsalgoritmen XGBoost. Øvrige arbeidsforhold blir med videre til neste kontroll.

I tredje ekstremkontroll ser vi på sammenhengen mellom avtalt månedslønn per heltidsekvivalent og øvrig informasjon knyttet til personen og virksomhet som anses å kunne påvirke stillingsprosenten. Vi ser på logaritmen til lønn per heltidsekvivalent og logaritmen til lønn samt en rekke andre kjennetegn knyttet til arbeidsforhold, person og virksomhet ved å tilpasse en iterativ lineær regresjonsmodell. I modellen benyttes 7 kategoriske forklaringsvariabler (kjønn, utdanning, 2-siffret yrke, lærlingstatus, avlønningsgruppe, antall lønnstakere i virksomheten og virksomhetens hovednæring). I tillegg inkluderer vi 3 kontinuerlige forklaringsvariable (alder, alder kvadrert, og logaritmen av avtalt månedslønn). Arbeidsforhold som identifiseres som uteliggere (ekstreme) i dette steget får senere predikert en stillingsprosent.

Arbeidsforhold som blir vurdert som ekstreme i andre eller tredje ekstremkontroll, samt arbeidsforhold omtalt i punkt 1d) over, får predikert en stillingsprosent ved hjelp av maskinlæringsalgoritmen XGBoost.

2. Maskinlæringsalgoritmen XGBoost

For å predikere stillingsprosenten for arbeidsforhold som ikke godkjennes i ekstremkontroll 2 og 3, bruker vi XGBoost («eXtreme Gradient Boosting»). Dette er en maskinlæringsalgoritme som bygger på beslutningstrær, med to fremtredende egenskaper: modellytelse og hurtighet. Arbeidsforholdene som passerer gjennom ekstremkontrollene uten å bli identifisert som ekstreme, deles først tilfeldig opp i to ulike grupper – ett treningsdatasett (80% av de godkjente arbeidsforholdene) og ett testdatasett (20% av de godkjente arbeidsforholdene). Med utgangspunkt i trengingsdatasettet tilpasses en lineær regresjonsmodell med logaritmen til lønn per heltidsekvivalent som utfallsvariabel og logaritmen til lønn som forklaringsvariabel sammen med avlønningstype (fast eller time), 2-siffret yrke, lærlingstatus, kjønn, alder, alder kvadrert, utdanning, næring og antall ansatte i virksomheten. Den prediktive evnen til XGBoost-modellen evalueres deretter med utgangspunkt i testdatasettet. Til slutt predikeres stillingsprosenten til alle arbeidsforholdene som identifiseres som ekstreme i steg 2 eller 3 ovenfor.

3. Nærmeste nabo metode

Fordi vi krever at arbeidsforholdene som inngår i steg 1 og 2 over må ha en positiv fast- og/eller timelønn, er det fremdeles noen som mangler stillingsprosent. Disse får imputert en stillingsprosent fra en metode som kalles for nærmeste nabo metode («nearest neighbour hot-deck-imputation»). Metoden gir komplette mikrodata, realistiske verdier på mikronivå og realistiske variasjoner i verdiene. Metoden går ut på at vi fyller inn en manglende verdi ved å bruke en faktisk verdi fra en annen observasjon som ligner mest mulig på observasjonen som mangler verdi.

Ekstremverdier

Hvis en person har flere arbeidsforhold i samme virksomhet summerer vi disse til ett arbeidsforhold. I noen tilfeller blir stillingsprosenten da urimelig høy. En person kan derfor, som omtalt over, ikke ha stillingsprosent på over 120 i en og samme virksomhet.

En person kan også jobbe i flere virksomheter. Når vi summerer stillingsprosenten, vil vi i noen tilfeller få urimelig høye verdier. Dersom summen av stillingsprosenter for en person blir høyere enn 160 blir stillingsprosenten i hvert arbeidsforhold nedjustert i hht. lønnen. Hvis ingen av arbeidsforholdene har lønn og man er klassifisert som sysselsatt, blir et av arbeidsforholdene ikke nedjustert. Dette vil blant annet bidra til å redusere effekten av feilrapportering som dobbeltrapportering i forbindelse med virksomhetsoverdragelse og feilaktig videreføring av arbeidsforhold fra forrige måned.

Det er avtalt stillingsprosent, som er det man har avtalt å arbeide ifølge arbeidskontrakten, som skal rapporteres til a-ordningen. Man skal ikke ta hensyn til merarbeid, overtid eller ulike typer fravær eller om timene er betalt eller ikke. Når vi beregner en stillingsprosent basert på betalte timer og lønn, beveger vi oss imidlertid noe vekk fra avtalt arbeidstid og nærmere betalt arbeidstid. For en timelønnet vil dette bety at få rapporterte betalte timer en måned på grunn av ferie eller sykdom, vil kunne gi utslag i en lav beregnet stillingsprosent. Denne måten å beregne stillingsprosent på der rapporteringen er mangelfull fører til at stillingsprosenten blir lavere og mer volatil enn for fastlønnete siden ferie og ulike typer fravær ikke vil være inkludert i betalte timer.

Tabell 1 viser lønnstakere etter stillingsprosent i hovedjobben for 4. kvartal 2015 til 4. kvartal 2019. Nesten 72 prosent jobber heltid i 4. kvartal 2019. Heltid er definert som stillingsprosent lik 100 eller mer. Heltidsandelen er svakt økende fra 2015 til 2019. Dette kan skyldes at rapporteringen har blitt noe bedre i perioden. Det er relativt sett gradvis blitt færre arbeidsforhold som får beregnet en stillingsprosent, noe som vil kunne gi en økning i heltidsandelen. Men reelle endringer i økonomien kan også ha bidratt til at andelen som jobber heltid har økt. Arbeidskraftundersøkelsen (AKU), som er en annen datakilde som gir informasjon om arbeidstid, viser også en økning i heltidsandelen. 

Tabell 1. Lønnstakere 15-74 år, etter avtalt stillingsprosent. 4. kvartal 2015 - 4. kvartal 2019. Prosent
  2015 2016 2017 2018  2019
I alt 100,0 100,0 100,0 100,0 100,0
0-19 prosent 6,3 6,2 6,2 5,8 5,7
20-39  prosent 5,7 5,3 5,2 5,1 5,1
40-59 prosent 7,4 6,9 6,6 6,4 6,2
60-79 prosent 6,2 5,7 5,4 5,4 5,1
80-99 prosent 8,3 6,9 6,3 6,2 6,0
100 prosent eller mer 66,1 69,0 70,3 71,1 71,8

Flere tabeller med stillingsprosent og avtalt arbeidstid er tilgjengelig i statistikkbanken.

De fleste rapporterer korrekt

Metoden medfører at vel 15 prosent av alle arbeidsforholdene får beregnet en stillingsprosent i 4. kvartal 2019. Det betyr at innrapportert stillingsprosent blir brukt for om lag 85 prosent av alle arbeidsforhold fordi det er en god sammenheng mellom den innrapporterte stillingsprosenten og lønn.

Om lag 7 av 10 arbeidsforhold som fikk beregnet en stillingsprosent var timelønte, resten var i hovedsak fastlønte. Det var litt flere kvinner enn menn som fikk beregnet en stillingsprosent i 4. kvartal 2019.

Enklere å bestemme hva som er heltid

I NAVs arbeidstakerregister (Aa-registeret), som var hovedkilden til den registerbaserte sysselsettingsstatistikken til og med 2014, var det kun avtalt arbeidstid som skulle rapporteres. Det var ingen informasjon om hva som tilsvarte heltid. Normal fulltid i Norge er 37,5 time per uke, men store grupper har et lavere timeantall for fulltid, f.eks. skift- og turnusarbeidere. Vi kunne dermed ikke vite om en oppgitt arbeidstid på f.eks. 33 timer var deltid eller heltid.

I a-ordningen har vi bedre informasjon om arbeidstid ved at avtalt arbeidstid er erstattet med avtalt stillingsprosent, antall timer som utgjør fulltid per uke og betalte timer for timelønte. Avtalt arbeidstid og heltid/deltid utledes fra disse variablene. Heltid er definert som stillingsprosent større eller lik 100, mens deltid er definert som stillingsprosent mindre enn 100.

Også informasjon om arbeidstid i AKU

I tillegg til a-ordningen finnes det også informasjon om arbeidstid i Arbeidskraftundersøkelsen (AKU). Dette er en intervjuundersøkelse hvor vi spør et utvalg av befolkningen i Norge mellom 15–74 år om deres forhold til arbeidsmarkedet. De sysselsatte blir spurt om deres avtalte arbeidstid per uke (for de som ikke har en avtale, f.eks. selvstendige, spør vi om gjennomsnittlig arbeidstid). De som oppgir et timetall mellom 32 og 36 timer, blir videre spurt om dette er heltid. For personer som jobber skift eller turnus, er heltid vanligvis mindre enn 37,5 timer. I AKU-tabellene definerer vi heltid som alle med 37,5 timer samt de som oppgir å ha heltid selv om timetallet er mellom 32 og 36 timer.

I tillegg til avtalt arbeidstid har AKU også informasjon om faktisk (utført) arbeidstid. Dette omfatter timer som blir arbeidet, inklusive overtid eller ekstraarbeid og eksklusive fravær pga. ferie, sykdom, permisjon, arbeidskonflikt mv. I beregningen av gjennomsnittlig faktisk arbeidstid pr. uke holdes de som var midlertidig fraværende fra arbeid utenfor.

I tabell 2 nedenfor har vi sammenlignet avtalt arbeidstid i AKU og a-ordningen. AKU er basert på avtalte timer og er inndelt i kort deltid (1-19 timer), lang deltid (20-36 timer) og heltid (37 timer og mer). I a-ordningen har vi beregnet samme inndeling ved å bruke stillingsprosent. Arbeidstiden gjelder for hovedarbeidsforholdet.

Vi ser av tabellen at heltidsandelen er noe høyere i AKU enn i a-ordningen. Det kan være flere årsaker til forskjellen. For det første er AKU er utvalgsundersøkelse, og det vil dermed være utvalgsusikkerhet knyttet til tallene. For det andre er stillingsprosenten for om lag 15 prosent av arbeidsforholdene i a-ordningen beregnet, og er dermed lavere enn avtalt fordi ferie og ulike typer fravær ikke inngår. På denne måten kan arbeidsforhold til personer som svarer at de jobber fulltid i AKU, bli registrert som deltid i a-ordningen.

Tabell 2. Avtalt arbeidstid1 i Arbeidskraftundersøkelsen (AKU) og a-ordningen for lønnstakere. 4. kvartal 2019. Prosent
  AKU A-ordningen
I alt 100,0 100,0
     
Kort deltid 12,0 15,6
Lang deltid 13,0 12,2
Heltid 75,0 72,2
1 Basert på avtalt arbeidstid i AKU og stillingsprosent i a-ordningen. AKU er gjennomsnitt av alle månedene i kvartalet, mens a-ordningen er per november.

Tabeller med avtalt og faktisk arbeidstid i AKU er tilgjengelig i statistikkbanken.

Revisjon av metoden

Etter fjorårets publisering har metoden som beregner arbeidstid blitt forbedret. Det er selekteringen av hvilke observasjoner som vi stoler på (og som dermed ikke skal beregnes) eller ikke stoler på (og som dermed skal beregnes) som er forbedret. Dette har medført at vi nå beregner stillingsprosent for om lag 15 prosent av alle arbeidsforholdene, mot tidligere vel 20 prosent. I tillegg er metoden som nedjusterer stillingsprosent der denne er svært høy endret. Se nærmere omtale i faktaboksen «Om ny metode».

Endringen i metoden gir samlet sett færre personer med stillingsprosent under 90 og flere med stillingsprosent over 90. I tillegg får vi en økning i andelen som jobber heltid. I 4. kvartal 2018 økte heltidsandelen fra 67,6 til 71,1 prosent, en økning på vel 5 prosent. I samme kvartal for 2016 og 2017 økte heltidsandelen med snaut 6 prosent.

Justeringen i metoden gir forskjellig utslag i ulike næringer. I næringer som offentlig administrasjon og helse- og sosialtjenester er utslagene små og heltidsandelen endres lite, mens utslagene er større i næringer som overnatting- og serveringsvirksomhet og forretningsmessig tjenenesteyting (som bl.a. omfatter utleie av arbeidskraft).

Arbeidstid i register før 2015

SSB har publisert tabeller basert på avtalt arbeidstid fra NAVs arbeidstakerregister tilbake til 1990. For sysselsatte (lønnstakere og selvstendig næringsdrivende) i den registerbaserte sysselsettingsstatistikken for perioden 2000–2014, se tabell https://www.ssb.no/statbank/table/09167/ og for kun arbeidstakere for perioden 1990 – 2001, se tabell https://www.ssb.no/statbank/table/01610/. Førstnevnte statistikk overtok for arbeidstakerstatistikken i år 2000 og har en mer omfattende populasjon ved at den også omfatter selvstendig næringsdrivende og arbeidsforhold som ikke var meldepliktig til arbeidstakerregisteret. Tallene er derfor ikke sammenlignbare. Det finnes tall for begge statistikker for 2000 og 2001, slik at man kan se størrelsen på bruddet.

Faktaside

Kontakt