Data is het nieuwe goud wordt er wel eens geroepen. Vraag maar aan Google. Of lees de discussie over de data die autofabrikanten verzamelen met hun nieuwe auto’s die contant online zijn en bergen data verzamelen. Nuttig voor verzekeraars, makers van navigatiesystemen en garagebedrijven, maar wie mag er nu wel of niet bij? Hoe is dat beveiligd? Interessante vragen!
Data is binair goud
Wij als CoDesk zijn ook altijd bezig met data: ‘meten = weten’. Dat hoort ook wel bij het soort werk wat wij als CoDesk doen. Het is ook wel een beetje een ‘nerd’ dingetje om alles te willen uitdrukken in vastomlijnde eenheden.
We zijn dus best goed in het geautomatiseerd samenbrengen van data uit diverse bronnen en op diverse manieren.
Voor veel van onze klanten is hun core business veel minder bepaald door keiharde grenzen of ‘performance indicatoren. Wat klanten vaak wel aanvoelen is dat ze toch op berg data zitten waar voordeel uit te halen is. Maar meer in de zin van: wat laat ik liggen? Waar kan ik mijn processen efficiënter maken?
Goudkoorts
Zoals je op TV ook wel ziet: goud zoeken vraagt veel tijd en vooral veel apparatuur en kennis.
Het goud voor onze klanten zit ergens verscholen zit in databases van hun applicaties. Vaak weten ze vaak ook nog wel waar. Ze missen alleen de mogelijkheden om er makkelijk bij te komen. Of de optie om alles uit de verschillende systemen slim en goed bij elkaar te brengen.
En zoals met een echte goudkoorts, zijn er diverse partijen die zoeken naar de beste manier om het goud te delven. En mensen die daar weer variaties op verzinnen.
Alles op 1 hoop
Voor een aantal klanten hebben we nu diverse verzamelplaatsen van data draaien onder de noemer data warehouse, data repository, cube, container en nog meer mooie termen.
Het idee is altijd hetzelfde: vanuit verschillende bronnen die data bij elkaar brengen waar je echt wat mee kan en daar dan een rapportagetool tegen aan zetten.
De aanvliegroute is verschillend. De ene klant neemt een BI-specialist in dienst, de andere huurt een BI (Business Intelligence) of Data Science consultant in en weer een andere schakelt zelfs een externe organisatie in om hun gecombineerde data daar te verzamelen en te ontsluiten.
Goud geld
Welke route ze ook kiezen, er moet altijd wat gebeuren op technisch vlak. Wij worden dus regelmatig (en steeds vaker eigenlijk) betrokken bij projecten van klanten om hun data te ontsluiten. Niet voor bouwen van rapportages of het functioneel beschrijven van de informatiebehoefte, want dat kunnen klanten en applicatiebeheerders doorgaans prima zelf. Zodra de tools er eenmaal zijn dan tenminste…
Praktijk is dat klanten en/of hun adviseur een poging hebben gedaan om een projectplan te maken, dan bij ons komen om de bedachte randvoorwaarden te implementeren en dat wij dan lastige vragen gaan stellen. Want een functionele wens heeft vaak wat lastigere technische detaillering nodig.
Wij willen helemaal niet lastig te doen, maar je wil ook niet kijken naar ongeluk in slow motion. En dat is wel wat er zonder een compleet plan gebeurt. ‘The devil is in the details’ en die bepalen uiteindelijk de kosten en/of de doorlooptijd.
Dan valt het project in budgettaire duigen of wordt te laat opgeleverd, worden er bedrijfskritische processen geraakt of ligt er data op straat. Dat soort dingen kost geld, veel geld!
Op basis van onze ervaring (en de ‘vervelende’ vragen die we dan stellen) hebben we checklist gemaakt van wat je moet weten voor je aan de slag gaat met ontginnen van je data.
Wat wil je laten zien?
De eerste vraag is: wat wil je laten zien of weten? Welke informatie en KPI’s? Moeten het rapportages in detail zijn? Of juist een dashboard met kengetallen? Ga je het printen? Laten zien op een monitor aan de muur?
Dus de vraag is: wat is de functionele wens?
Waar staat jouw data?
Een beetje datacollectie kent meerdere bronnen (applicaties). En zoals steeds vaker staat er data zowel ‘on premise’ (je eigen server in het pand) of in de cloud. Maar wat staat waar precies?
En als je dan weet waar, is het datamodel beschreven? Het maakt het bouwen van een rapportages een stuk makkelijker als je weet welke data waar staat en hoe dat koppelt met data in andere tabellen.
Hoe kom je bij die data?
Als je waar de data staat, dan is de volgende vraag: hoe kan je die data benaderen. Kun je de data direct benaderen omdat je bij de database(server) kan? Dan komen direct de vragen als: is er een ODBC-koppeling mogelijk? Of kan het alleen op basis van een API?
Wanneer haal je data op?
Als je dan bij de data kan, dan is de vraag wanneer je die data op gaat halen. Want soms kan je door het ophalen van data uit de database de records ‘locken’. Of je hindert de performance van database zodanig dat je een productieproces in de weg zit. Het draaien van een verloning of facturatie run zijn van die beruchte momenten.
Hoe actueel moet het zijn?
In relatie tot de vorige vraag: hoe oud mag de data zijn? Realtime info zie je doorgaans in een applicatie zijn, de trends en correlaties bekijk je eerder in retrospectief. Dus hoef je ook niet steeds de nieuwste data op te halen. Dat geeft je wat ruimte om data op te halen buiten de tijden waarop je de productie in de weg zit.
Wat haal je op? Wat knoop je aan elkaar?
Het heeft ook geen zin om alles op te halen. Systeemtabellen heb je niet nodig. En veel kolommen in tabellen zijn bedoeld voor toepassingen die jij niet gebruikt in jouw bedrijf. Dus zonde om dat nog een keer dubbel op te slaan.
Overleg onder het genot van een kopje goud melange iets voor jou?
Neem contact met ons op!
Bel 088-1881999 of mail sales@codesk.nl
En als je data ophaalt en elders inleest, dan is dat ook een ideaal moment om data beter leesbaar te maken. Daar moet je vaak zelf aan denken want we weten dan externe specialisten vaak geen directe feeling hebben voor jouw ( functionele) behoefte aan informatie. Die gaan de link tussen verschillende tabellen niet snel zelf maken, waarbij die link is nog lastiger als je gegevens uit meerdere bronnen haalt.
Het is zaak om dat duidelijk te formuleren en te delen met de mensen die met de data aan slag gaan.
Waar ga je het neerzetten?
Het is heel triviaal misschien, maar waar ga je het neerzetten? Dat lijkt een simpele vraag maar je zal iets van een database moeten hebben en een applicatie (een ‘front-end’) om toegang en beheer mogelijk te maken. Dat raakt ondewerpen als capaciteit, toegang, beveiliging en kosten.
Welke licenties heb je daar voor nodig?
Voor de database waar je alles onderbrengt heb je mogelijk licenties nodig. Dat geldt ook voor de tools waar je data mee bewerkt. De keuze is reuze, van open source tot betaalde opties, maar wat past bij jouw organisatie?
Hoe controleer je de integriteit?
Integriteit is zeg maar de kwaliteit van de data. Geeft jouw rapportage ook de cijfers weer zoals ze in het bronsysteem staan?
En heb je eenmaal alles aan de praat, dan is het wel zaak om te controleren of alles het ook blijft doen. Worden alle import van datasets netjes gedraaid? Zijn er geen datasets beschadigd? Hoe controleer je dat ? Elke dag alles met de hand nalopen is ook zo wat. Dus je moet iets van controles en monitoring bedenken.
Hoe ga je het beveiligen?
De gegevens die je uiteindelijk hebt samengebracht zijn is de set waar je echt wat mee, kan wat echt waarde heeft. Dus de kroonjuwelen zeg maar. Dat vinden andere mensen dus ook vast interessant. Beveiliging van gecombineerde gegevens is dan nog belangrijker dan per bron al het geval is.
Hoe en aan wie stel je het beschikbaar?
Net als bij bouwen van een huis, je maakt eerst het ontwerp en daarna ga je pas bouwen. Dus je moet nadenken over de deuren, ramen en en (vooral) het hang- en sluitwerk.
Vertaald naar een database moet je nadenken over groepen, rollen en rechten.
Onze tip: denk in rollen en en geef per rol toegang tot een vaste set rapportages. Dat is vaak voldoende en maakt toegangsbeheer al een stuk overzichtelijker.
De gulden middenweg
We realiseren ons terdege dat dit best ‘lastige vragen zijn. Eenmaal beantwoord is het tijd voor de volgende stap: het daadwerkelijk regelen van de oplossing.
Nou zijn leveranciers van applicaties vooral goed in applicaties bouwen en Business Intelligence / Data Science specialisten goed in data verwerken tot inzichten. Daartussen zit is een complexe infrastructuur met alle bijbehorende instellingen van de specifieke inrichting per applicatie (=bron van data). Dat is niet de expertise van de leveranciers van applicaties en de BI c.q. Data Science specialist. Die verwachten dat de data ‘gewoon’ beschikbaar is en de benodigde tools al geïnstalleerd staan. Kortom: daar mist een stuk.
Database, tools, beveiliging en nog veel meer
Het missende stuk techniek is wat een managed service provider moet leveren door tussen klant (of doorgaans de applicatieleverancier) en de rapportage-specialist te gaan staan. Die regelt dan bijvoorbeeld de benodigde routes, installatie van de tools , beveiliging, automatisering van ophalen en verwerken van data en vaak nog een stuk monitoring. De gulden middenweg zeg maar.
En wat ook redelijk standaard is: eenmaal onderweg ontwikkelen zich nog wat aanvullende wensen: als een klant eenmaal ziet dat A mogelijk is, kan B dan ook??
Niet alle service providers hebben hun infrastructuur zo gemaakt dat ze daar snel op mee kunnen schakelen. En dan gaat teller al snel lopen voor ‘meerwerk’.
Koeien met gouden hoorns
Wat we willen zeggen is dat inzicht in eigen data zeker goud waard kan zeggen, maar dat de weg er naar toe te vaak wat simplistisch wordt voorgesteld. Er worden koeien met gouden hoorns beloofd, maar als je zelf het goud moet betalen is het zonde van het geld.
Heb je plannen of wensen om meer met je data te doen? De bovenstaande tips helpen je mogelijk op weg. Omgekeerd kunnen we ons ook voorstellen dat dit iets is waar je jezelf achter je oor krabt en afvraagt hoe je hier de eerste stap zet.
We denken daarom graag met je mee. Tijdens het drinken van een (virtueel) kopje koffie kunnen we op weg helpen. En vaak al vele uren extra werk besparen.
Checklist data
Voor het gemak nog even de herhaling van de dingen waar je moet denken:
- Functioneel plan
- Waar staat de data
- Wie heeft er kennis van het datamodel
- Wie kan er toegang regelen
- Wat wil je wanneer verwerken
- Waar ga je het (veilig) laten
- Hoe en en aan wie publiceer je de resultaten
- Wie gaat het bewaken / Monitoring
- Wanneer is iets ‘meerwerk’?