Helt fra tidenes morgen, iallfall i et IT-perspektiv, har selskaper brukt datavarehusteknologi.
– Dette er verdifull teknologi, men kostbare systemer å drifte og utvide, forklarer Steins.
Se for deg at du har samlet data i 15 til 20 år og fortsatt holder på. Da har du uten tvil havnet i situasjoner med knapphet på lagringsplass. Blant alternativene er å kjøpe ny, kostbar maskinvare og lisenser, arkivere data på rimeligere lagringsmedier eller til og med slette data.
NYE KILDER
En annen hodepine for dataingeniørene er ønsker fra andre avdelinger om å blande inn data fra vanlige kilder som nettbutikker, nettsteder og kanskje til og med offentlige kilder som Facebook og LinkedIn.
– Inn i ingeniørenes elskede og striglete datavarehus ønsker kolleger å lagre alle mulige ustrukturerte data, som til og med kan ha feil eller virus. Dette er verken fristende eller særlig smart å gjøre, sier han.
Løsningen er ikke å droppe datavarehusstrategien, men å utvide den med big data-systemer (stordata).
EN INFRASTRUKTUR I TILLEGG
– Datasjøer erstatter ingenting, men er et nytt tilleggselement til virksomhetens datainfrastruktur, som løser nye oppgaver. Datavarehus er fortsatt svært viktige for virksomhetene, men ikke like fleksible som datasjøene, sier Stein.
Han er innforstått med at dette er gammelt nytt for enhver dataingeniør, men ikke nødvendigvis tilfellet for ledere og beslutningstakere flest – de som alltid vil kutte datavarehuskostnadene fra budsjettet.
I datasjøer kan du lagre informasjon fra en mengde ulike kilder, inkludert ERP, regneark, CSV, XML, DOC, PDF og til og med e-post.
– Det ville tatt uker og måneder å strukturere denne type informasjon i datavarehus i og med at teknologien er bygget på strengt strukturerte filsystemer. Jobben innebærer dessuten omfattende og komplisert restrukturering av databaseoppsett. I stordatasystemer kan du enkelt kopiere dataene inn i datasjøene og prosessere dem senere.
STORDATA-HENGEMYRER
– Dette kan virke som en drøm. Og det er det, fortsetter Steins.
– Men det kan også utvikle seg til ditt verste mareritt. Struktur og dokumentasjon er nøkkelen, også når det gjelder datainnsjøer. Du må ganske enkelt vite hva som er i sjøen. I motsatt fall får du ikke en vakker sjø, men noe mer i retning av en datahengemyr.
I datainnsjø-terminologi blir rådata betegnet som landingssonen og startpunktet for analyse. Med utgangspunkt i landingssonen vil dataingeniørene forberede dataene for analyse ved å kjøre dem gjennom en renselses- og anrikningsfase (der de til og med sletter en del ting).
– Det går faktisk ikke an å gi noen generell oppskrift på hvordan du bør håndtere dataene eller forklare hva sluttresultatet vil bli. Dette er helt avhengig av hva slags datakilder du har, hva du ønsker å oppnå, hvilken type virksomhet du driver, og lignende problemstillinger, forklarer Steins.
– Men det som er sikkert, er at du kan bruke dataene til statistikk- eller analyseformål, mate dem tilbake i produksjonssystemet ditt eller til og med laste dem opp i datavarehus.
Å utvide et datavarehus tar vanligvis mye tid med blant annet implementering av ny hardware og manuell splitting av data. Datasjøer er ektefødte barn av den distribuerte verdenen der du kjapt kan skalere data- og prosesseringssystemer – faktisk med tusenvis av maskiner – i den offentlige skyen.
ETT DATAPUNKT
– Datasjø er et hypet begrep med uklart innhold for mange. Vi foretrekker begrepet «dataanalyseplattform», som er et videre begrep og også omfatter datavarehus og andre systemer. Plattformen er med andre ord ett felles datapunkt for alle de ulike datakildene i virksomheten, sier Ingo Steins, Deputy Director for Operations i The Unbelievable Machine Company (*UM), som er en del av Basefarm-gruppen.
