En data lake (datasjø på norsk) er et sentrallager der virksomheten kan lagre alle data i opprinnelig format, inkludert strukturerte, semistrukturerte og ustrukturerte data.
Data lakes har plass til enorme mengder informasjon og kan brukes til fleksible analyser som støtter smart beslutningstaking. Data fra forskjellige kilder kan anvendes til en rekke ulike applikasjoner og analyser, inkludert sanntidsanalyse og maskinlæring. Målet er å oppnå optimale resultater og respondere på nye forretningsmuligheter på en så smidig måte som mulig.
En av de største fordelene med data lakes er fleksibiliteten som for eksempel gir deg mulighet til å videreutvikle virksomheten gjennom smidige analyser som kan måle ytelse, slik at du kan forbedre produktiviteten basert på velfunderte vurderinger. Dette oppnås ved å utnytte konsekvente big data og algoritmer for dyp læring som gir beslutningsanalyser i sanntid.
Data lakes kan opprettes lokalt i virksomheten, men de egner seg godt for oppretting i skyen. Skyen har den ytelsen og skalerbarheten som data lakes krever, i tillegg til skalafordeler og tilgang til en rekke analysemotorer. Virksomheten får også fordelen av forbedret brukervennlighet.
Hvorfor opprette en data lake?
Tradisjonelle skjemabaserte datavarehus er ikke optimalisert for det mangfoldet og omfanget som big data innebærer. Data lakes kan på sin side lagre data fra en rekke ulike kilder i opprinnelig format, inkludert multimedia, sosiale medier og XML. Data lakes har uendelige utvidelsesmuligheter, er utviklet for raske datainntak og støtter tingenes internett (IoT), noe som gjør dem til en perfekt partner for big data.
42%
av virksomhetene tar i bruk data lakes for å forbedre driftseffektiviteten (Kilde: Aberdeen Research – Angling for insight into today’s data lake 2017.)
Opprett en data lake i skyen
Ifølge undersøkelser utført av Aberdeen Research er det to hovedgrunner til at virksomheter ønsker å ta i bruk data lakes: De ønsker å dra nytte av mer avanserte analyseverktøy og -teknikker, og de ønsker å utnytte dataene på en mer effektiv måte. Dette inkluderer daglige oppgaver som tilgang til og gjenfinning av data.
70%
av modne organisasjoner vil innen 2021 ha større strøm av data fra data lakes til datavarehus enn omvendt. (Kilde: Gartner – Nick Heudecker, senioranalytiker hos Gartner (ComputerWorld-blogg) 2018.)
Du får flere fordeler ved å flytte din data lake til eller opprette den i skyen, blant annet fleksibel bruksbasert betaling, behovsbasert infrastruktur, hyppige funksjonsoppdateringer, forbedret sikkerhet og geografisk dekning. Det å opprette en data lake med riktig arkitektur og styring i skyen er imidlertid ikke fullt så enkelt som det høres ut. Du kan for eksempel ikke flytte dataene dine til en skybasert data lake i én omgang. Det må gjøres over tid, og du bør starte med de delene av virksomheten som er best egnet.
Sikre din data lake
Det er viktig at dataene i din data lake sikres. Dette krever et helhetlig perspektiv på dataene, hvordan du har tenkt å bruke dem, kravene til styring, autorisert tilgang og planlagte applikasjoner.
Data lakes kommer ikke med de samme styrings- og samsvarspolicyene som du får med tradisjonell databasestyring. Dette er noe du må få på plass selv. Du kan for eksempel merke dataene for å angi tilgang. Basefarm kan med ekspertisen til sikkerhetsteamet hjelpe deg med sikkerhetsspørsmål knyttet til data lakes.
Viktigheten av en datakatalog
En datakatalog kombinert med styring er helt avgjørende for at du skal kunne forstå dataene i din data lake og sikre at de er pålitelige. Datakatalogen er utformet for å fungere som én enkelt kilde til innsikt i innholdet i data laken, og den gjør det enklere for deg å forstå kildene samt datatransformasjonene. I tillegg gjør datakatalogen det enklere for dataanalytikerne å verifisere at de bruker de riktige dataene, og at dataene er i samsvar med organisasjonens retningslinjer og forordninger som for eksempel personvernforordningen.
Våre konsulenter kan hjelpe deg med å skissere en data lake som dekker dine spesifikke forretningsbehov og gir deg en sikker, fleksibel og kostnadseffektiv måte å lagre, behandle og analysere dataene dine på.