Privatlivs- & Cookiepolitik

Vi bruger cookies for at give dig som bruger den bedst mulige oplevelse på dst.dk. Ved at fortsætte på siden accepterer du vores brug af cookies.

OK

Læs mere om vores Privatlivs- & Cookiepolitik her

Om TIMES

1 Hvad er Times?
Times er et system til dokumentation af de data, der indgår i vores statistikker. Times består af en fælles database med tilhørende værktøjer til beskrivelse af datasæt, record, variable og variabelklasser.

Alle statistiksystemer i Danmarks Statistik er allerede dokumenteret i et eller andet omfang, men typisk er dokumentationen kun tilgængelig for en begrænset personkreds med direkte tilknytning til de resp. opgaver, og som følge heraf er dokumentationen målrettet personer der forventes at have et forhåndskendskab til området. En variabel kan f.eks. findes beskrevet blot ved en henvisning til en lovparagraf eller et felt i et indberetningsskema, som kun de umiddelbart implicerede personer kender og har adgang til.

1.2 Dokumentationens fire dele

Datasæt
Traditionelt opfattes et datasæt som en samling data, der befinder sig på en disk på hovedanlægget. I Times-sammenhæng skal ordet imidlertid tages helt bogstaveligt som en vilkårlig samling af data uanset lagringssted- eller form. Datasæt kan derfor også være f.eks. regneark, CSV-filer, eller database-tabeller. Et datasæt er en samling enheder(fx. personer), og i Times skal primært beskrives, hvordan datasættet er afgrænset. Denne beskrivelse er ikke triviel i en offentlig dokumentation, som også skal kunne forstås af personer uden direkte tilknytning til området. Antag et datasæt beskrevet som "Danmarks befolkning". De fleste har nok en intuitiv fornemmelse af hvad " Danmarks befolkning" omfatter, men det er alligevel ikke klart om datasættet også omfatter fx herboende udlændige, danske diplomater i udlandet, danske sømænd på danske h.h.v. udenlandske skibe og udstationerede danske soldater.

Record
Data er i datasæt samlet i records og i Times er det i et regneark er en række og i en CSV-fil en linie. Recorden er en beskrivelse af den enkelte enhed(fx en person) som datasættet består af. Hvor et datasæt kun indeholder een recordtype er beskrivelsen af denne almindeligvis ret ligetil. Mens der kan være tvivl om hvad "Danmarks befolkning" omfatter, er der næppe tvivl om hvad en person. I datasæt med flere recordtyper er det derimod væsentligt at beskrive de enkelte typer.

Variabel
En record er opbygget af en eller flere variable, der tilsammen beskriver enheden. I Times beskriver en variabel en egenskab ved den pågældende enhed, men ikke hvordan denne egenskab beskrives. En variabel i et befolkningsdatasæt kan fx være "Alder", der angiver personens alder. I variabelbeskrivelsen vil der så stå til hvilken dato alderen er opgjort (typisk 1/1), men ikke om alderen er opgjort på 1-års- eller fx 5års-aldersklasser. Variablen alder er et simpelt tilfælde, der ikke kræver megen beskrivelse i modsætning til fx "Arbejdsstedskommune". Det er ikke indlysende hvad arbejdsstedkommunen er for handelsrejsende, ambassadører, sømænd og arbejdsløse.

Variabelklasse
En variabelklasse angiver en måde at beskrive en egenskab på, altså et værdisæt til en variabel. Variablen "Arbejdsstedskommune" ovenfor kan f.eks. beskrives ved den af Indenrigsministeriet udarbejdede liste over kommunekoder med tilhørende kommunenavne, men den kunne principielt også beskrives blot ved kommune­navnet. En spørgeskemaundersøgelse kan indeholde feltet "Bopælskommune", og mens respondenterne må formodes at kende navnet på kommunen, de bor i , er det nok de færreste, der også kender kommunekoden. Både i varestatistikken og i udenrigshandlen findes der varekoder, og selv om de ligner hinanden meget, er de er ikke ens. Her er det i sagens natur temmelig vigtigt i variabelklassen at beskrive det benyttede værdisæt, og specielt måske på hvilken måde værdisættet adskiller sig fra andre lignende værdisæt.

Vi er vant til at opfatte kommunekoderne som et værdisæt, hvorimod man normalt ikke taler om at fx "Indkomst" har tilknyttet værdisættet bestående af alle heltal. I Times er derimod enhver måde at angive en værdi på en variabelklasse, det være sig koder(som kommunekoderne), talværdier(som Indkomst), særlige kodningsregler (som CPR-numrenes modulus11-regel) eller bestemte intervaller af talværdier(som datoer og klokkeslet). Hvad en variabel kan bruges til afhænger i høj grad af den tilknyttede variabelklasse. Det giver ikke mening at beregne gennemsnittet af et antal kommunekoder, og en tabel fordelt efter indkomst (altså ikke indkomstintervaller) vil blive overordentlig stor, mens en tabel fordelt efter CPR-numre er direkte ulovlig.

I Danmarks Statistik har vi traditionelt defineret værdisættet for hver variabel som en del af variablens databeskrivelse. For tre variable som 'Bopælskommune', 'Arbejdsstedskommune' og 'Uddannelses­kommune' skal listen over kommuner således gentages tre gange. Kommer der ændringer i kommunekoderne eller stavemåden skal man rette alle de steder kodelisten står. I stedet kan (og bør) man oprette en variabelklasse fx 'Kommuner_Dk', og til­knytte alle tre variable til denne klasse. Rettelser til værdisættet skal da kun foretages eet sted.

Denne type dokumentation understøtter ikke udveksling af data mellem kontorerne, for dels er det ikke umiddelbart muligt for udenforstående at finde ud af, hvilke data der findes i huset, dels passer den tilhørende dokumentation måske ikke ind i det system, som benyttes af modtagerne. (det kan f.eks. være Word-dokumenter i det ene kontor, og et Oracle-baseret system i det andet kontor).

Ansvarlig for siden

Web og Statistikbank