Gå til sidens indhold

Statistisk behandling

Kontaktinfo

Forskning, Teknologi og Kultur
Christian Edelvold Berg
23 84 29 49

ceb@dst.dk

Hent som PDF

Forskning og udvikling i den offentlige sektor

Statistikken er spørgeskemabaseret og indsamles årligt blandt 730 offentlige og private ikke profitorienterede enheder, der er tilsammen antages at udføre al signifikant forskning og udvikling i den offentlige sektor. De indberettede data underlægges en meget omfattende validering fokuseret på en række højprioritetsvariable, herunder især udgifterne til forskning og udvikling. Validering foretages på såvel makro- som mikroniveau.

Kilder

Statistikken er spørgeskemabaseret og indsamles blandt ca. 700 offentlige og private ikke-profitorienterede enheder, der tilsammen antages at udføre al signifikant forskning og udvikling i den offentlige sektor. Statistikken indsamles på to spørgeskemaer: ét til universitetshospitaler, og ét til øvrige indberettere (hovedsageligt universiteter).

Indsamlingshyppighed

Årligt.

Indsamlingsmetode

Et spørgeskema som kan besvares via http://www.Virk.dk eller anden elektronisk form. Hvis et papirskema ønskes kan det rekvireres. Spørgeskema for offentlige institutioner ekskl. hospitaler kan ses på https://www.dst.dk/da/Indberet/oplysningssider/forskning_offentlig og for hospitaler på https://www.dst.dk/da/Indberet/oplysningssider/forskning-og-udvikling-ved-hospitaler

Datavalidering

Der er defineret en række højprioritetsvariable, som har særligt stor fokus i fejlsøgningen og -opretningen. Det er de variable i undersøgelsen, der har størst betydning for det samlede, overordnede billede af FoU-aktiviteten. Disse variable er:

  • Løn til FoU
  • Øvrige driftsomkostninger til FoU
  • FoU-udgifter i alt
  • Antal årsværk til FoU (og dermed nedbrydninger på personalekategori)
  • Gennemsnitlig løn pr. FoU-årsværk. Variablen er afledt som løn til FoU divideret med antal årsværk til FoU.

Disse variable er alle karakteriseret ved at være numeriske og ved at fejl eller misforståelser i indberetningen kan få store konsekvenser for det samlede billede. Disse variable gennemløber derfor en omfattende fejlsøgning.

De øvrige variable fejlsøges også. De steder; hvor der er tale om procentfordelinger er pro-rate opregninger eller tidligere års indberetninger et godt estimat.

I mikrofejlsøgningen undersøges den enkelte indberetning på flere måder:

  • På variabelniveau
  • Imellem kryds af variable
  • Over flere år
  • Ved sammenligning med andre datakilder

På variabelniveauet undersøges det for samtlige variable, om indholdet af denne er i overensstemmelse med det definerede.

Undersøgelsen på variabelniveau følges af krydsfejlsøgning, hvor materialet undersøges for fejl imellem kombinationer af variable, fortsat inden for den enkelte indberetning.

Hvor der foreligger indsamlede data fra samme enhed over flere år, undersøges konsistensen af disse.

Der kan grundlæggende skelnes imellem to typer af fejl. Logiske fejl, hvor svar på flere spørgsmål er indbyrdes modstridende, og potentielle fejl, hvor der sandsynligvis, men ikke nødvendigvis, er tale om fejl.

I makrofejlsøgningen tages udgangspunkt i at sammenholde den enkelte besvarelse med de samlede besvarelser. Til makrofejlsøgningen anvendes i vid udstrækning Banff-procedurer, som er udviklet af Statistics Canada .

Der anvendes forskellige former for* imputering*:

  • Imputering af manglende værdier
  • Prorate imputering
  • Imputering af manglende besvarelser

Imputering af manglende værdier anvendes over for flere variable, primært overfor de procentvise fordelinger af FoU aktiviteten på fag, formål og strategiområde (7,8 og 9 og 8,7 og 9 i hhv. skema for forskning og udvikling i offentlige institutioner og Forskning og udvikling ved hospitaler). Generelt imputeres med værdier indhentet tidligere år fra samme enhed. I tilfælde, hvor sikre løndata ikke kan skaffes, imputeres løn opregnet ud fra antal årsværk.

Eks.:

  • Der er ikke anført fordeling af FoU-aktivitet på formål, men denne kan hentes fra samme enhed fra året før tællingsåret.
  • Der er anført FoU-personale og årsværk i alt, men ikke lønoplysninger.

Prorate imputering anvendes primært overfor de procentvise fordelinger, som er angivet ovenfor, i de tilfælde hvor procenter er angivet, men ikke summer til 100 (eller summer til under 100 i forskningsaktivitet fordelt på strategiområde). Herudover bruges prorate imputering til at nedskrive eksterne kilders dækning af FoU i tællingsåret, hvis disse overskrider de faktiske udgifter til FoU i tællingsåret.

Eks.:

  • Der er anført fordeling af FoU-aktivitet på formål, men denne summer ikke til 100.

Imputering af manglende besvarelser, er hvor hele skemaet udfyldes maskinelt hvis det, trods gentagne skriftlige og telefoniske henvendelser, ikke har været muligt at opnå en besvarelse. Dette er ikke særligt omfattende givet den høje besvarelsesprocent.

Danmarks Statistik har på de fleste universiteter og større universitetshospitaler aftaler med lokale kontaktpersoner, der sørger for at skaffe supplerende oplysninger i det omfang, det er nødvendigt for den enkelte institution. Derudover foreligger der ofte aftaler om, at kontaktpersonerne forestår indsamlingen af data fra enheder i deres institution, hvilket sikrer effektiv kontakt til de enkelte statistiske enheder som ellers i disse tilfælde kunne være problematisk. Proceduren giver også mulighed for strømlining af indberetningsprocessen for institutioner, der skal rapportere for mange statistiske enheder og sikrer at den institutionelle erfaring med indberetning til statistikken i størst muligt omfang fastholdes Populationen findes med udgangspunkt i populationen fra det foregående tællingsår. Nye enheder identificeres (og enheder der er ophørt eller ikke længere er forskningsaktive udelukkes) primært ved at fællesindberettere spørges om udviklingen i de pågældende institutioner. Kvaliteten af populationen udenfor fællesindberetterne søges sikret dels gennem løbende kontakt med indberetterne, dels gennem løbende overvågning af mulige nye enheder. Det bør dog bemærkes at populationens dækning alt andet lige må betragtes som sikrest indenfor universiteter og universitetshospitaler som dækkes af fællesindberetterne.

Databehandling

Målsætningen med dataindsamlingen er at tilvejebringe data, der kan danne grundlag for at producere statistiske oplysninger om den offentlige sektors forskning og udviklingsindsats i tællingsåret. Data skal være:

  • Retvisende og dække forskning i den danske offentlige sektor og private ikke-profitorienterede virksomheder (PNP’er) som helhed.
  • Egnede til at danne statistik på mere detaljeret niveau.
  • Mindst muligt belastende for indberetterne.

Statistikken gennemføres som en totaltælling, dvs. alle enheder med forskning og udvikling i den offentlige sektor samt PNP’erne skal besvare spørgeskemaet. I henhold til lov om Danmarks Statistik (§ 6 og 8) er indberetterne forpligtet til at afgive de ønskede oplysninger.

Danmarks Statistiks målsætning er, at indberetninger sker digitalt. Ved at stille brugervenlige indberetningsløsninger via http://www.Virk.dk til rådighed tilstræbes det, at indberetterne selv vælger at indberette digitalt. Ved siden af http://www.Virk.dk har Danmarks Statistik aftaler med en række fællesindberettere om, at disse leverer data for de enheder, der hører under dem direkte i anden elektronisk form. Dataindsamlingen igangsættes over for indberetterne med udsendelse af et brev, som oplyser om undersøgelsen, tidsfrist for besvarelse, lovpligtighed og muligheden for at indberettet via http://www.Virk.dk. Dataindsamling fra fællesindberettere foregår generelt efter særaftale for at imødegå den enkelte institutions behov.

Formålet med den videre databehandling er at undersøge det indsamlede materiale, og foretage opretning af fejl og mangler, således at det samlede materiale danner basis for et retvisende billede af forsknings- og udviklingsaktiviteten - også over tid.

En udfordring i databehandlingen er de mange variable – i alt er der med underspørgsmål ca. 600 enkeltvariable i undersøgelsen. Med besvarelser fra over 700 enheder, er der således over 420.000 felter, og dermed også et betydeligt antal potentielle fejl eller misforståelser i de indberettede oplysninger.

Det betyder:

  • At både fejlsøgning og -opretning af det indsamlede materiale så vidt det er muligt foretages maskinelt. Da mange af spørgsmålene er indbyrdes relaterede, skal fejlopretningen foregå planlagt og systematisk, da en rettelse af ét spørgsmål ellers kan føre til, at der opstår nye fejl.
  • At der skal foretages en prioritering i fejlsøgningen ud fra den betragtning, at ikke alle variable eller spørgsmål har lige stor betydning for det samlede billede.

Databehandlingen foregår i statistikprogrammet SAS.

Flere af undersøgelsens spørgsmål omhandler forskellige dimensioner af samme emne. Det giver nogle fordele, idet der er grundlag for intern verificering i selve skemaet, og det er samtidig en kilde til at identificere krydsfejl, som er fejl, hvor indholdet af to eller flere variable er indbyrdes modstridende.

Korrektion

Der foretages ikke yderligere korrektioner end de som er nævnt under Datavalidering og databehandling.