Databehandling

Big Data er et at tidens store buzzwords og det ikke uden grund: Vi overvældes af data fra alle kanter, fra interne fag- og ERP-systemer over kundesystemer, data fra sociale medier til på det seneste og i stigende grad sensorer i diverse apparater rundt omkring - det, der i dag kaldes Internet of Things eller bare IoT.

Og vi har i stigende grad mulighed for at integrere med data fra store offentlige grundregistre som CVR, matrikelkort m.m., jf. grunddataprogrammet i den fællesoffentlige digitaliseringsstrategi.

Nogle har hævdet, at af alle de data, vi råder over i dag, er over halvdelen skabt inden for det sidste år. Det er den aktuelle udfordring - hvordan det sidste så end er blevet opgjort.

 

Med den eksponentielt stigende mængde af data bliver det tilsvarende endnu vigtigere at identificere, udvælge, tilrettelægge og organisere data, så de kan udnyttes mest effektivt af den enkelte organisation.

Det er et tidskrævende og trælsomt arbejde, som ofte overses af leverandører, der gerne vil sælge (dyrt) software til at behandle de store datamængder. Disse leverandører antager som regel, at data bare ligger der, klar til at blive analyseret og tygget igennem. Men det gør de ikke "bare".

Hvilke data er tilgængelige? Hvilke data er relevante? Hvordan hænger data sammen - og kan de i det hele taget bringes til at hænge sammen? Hvordan og hvor ofte kan jeg få data leveret? Osv. osv. Spørgsmål, som alle indebærer analyser, undersøgelser, møder - ja, sågar hele projekter.

 

Maaløe Consulting har arbejdet med de fleste af de dataforberedelsesaktiviteter, der er en nødvendig forudsætning for at kunne bruge data til noget fornuftigt. Det drejer sig om:

  • Screening af mulige datakilder og udvælgelse af data.
  • Fastlæggelse og udfærdigelse af grænseflader for dataudveksling, f.eks. via standardiserede web-services.
  • Indgåelse af aftaler om dataleverancer, herunder format og hyppighed.
  • Datamodellering i forhold til relationsdatabaser, så data lagres optimalt i forhold til den ønskede udnyttelse. Det er et element i de fleste it-projekter, og jeg har bl.a. været konsulent på den første datamodellering af to af de helt centrale registre inden for Fødevareministeriets områder, nemlig GLR (det Generelle LandbrugsRegister) og CHR (det Centrale HusdyrbrugsRegister).
  • Datasamkøring med samling af data fra forskellige kilder, f.eks. de offentlige grundregistre som eIndkomstregistret, CVR og CPR. Det er bl.a. sket i store projekter for Beskæftigelsesministeriet.
  • Datarensning er ofte nødvendig, især når data hentes fra forskellige kilder. Det er ikke alle kilder, der er lige grundige med at rydde op og sørge for, at data er opdaterede. Ofte ligger der forældede eller irrelevante data og "forurener". De skal identificeres og fjernes, hvad enten det så sker ved kilden, ved dataindlæsningen eller i udtræksprogrammer.

Overordnet set kan dette betegnes som en fastlæggelse af dataarkitekturen for en organisation eller et sagsområde.

Hvis behov og ambitionsniveau er tilstrækkelig højt, kan det give anledning til master data management (MDM), hvor alle en organisations kritiske data løbende defineres og beskrives centralt, som et fælles referencepunkt.

 

Når data ligger, hvor de skal, og sådan som de skal, kan dataudnyttelsen sættes i fastere rammer.

Er der tale om faste statistiske analyser, som gennemføres regelmæssigt, f.eks. månedligt? Skal data løbende stilles til rådighed for brugere, der selv viderebehandler data f.eks. i regneark som Excel? Er der tale om store datamængder, hvor brug af avancerede matematiske modeller inden for data mining-genren giver mening? Skal der benyttes særlige Business Intelligence-værktøjer?

Alt dette og mere til åbner emnet databehandling op til. Spændende emner, som der ligger og har ligget mange spændende projekter i, også for Maaløe Consulting heldigvis.