Data industry: trend of fad?

Buiten een wegwerp lesje op school heb ik het meeste wat ik ken van SQL geleerd on the job aangezien ik de enigste op het project was. Was vnl SSIS + SQL, dan SSAS en vervolgens Power BI daar. Als ik het zo zie had wel de chance dat alles netjes in een DB was uiteraard, ik moest het niet gaan vissen uit een applicatie of zo. Sindsien wel een vak ervan gehad op den unief, maar dit was er weliswaar voor.

Laatste project had ik gedaan heb was dan weer voornamelijk databricks/pyspark/MLflow + azure data lake + synapse + power bi. ELT gedaan in zowel databricks en synapse om te vergelijken, ja het is wat wennen om nieuwe tools te leren gebruiken maar dat kan je toch met wat moeite rond?
Het kan zijn dat ik het verkeerd versta, maar als je daar effectief zonder begeleiding binnen het bedrijf zat zondere enige voorkennis, moet je ook wel beseffen dat dit hoogstwaarschijnlijk niet representatief is :p

Om het crû te zeggen: zelfs met interne begeleiding laten wij stagairs maar aapjeswerk doen dat iedereen kan doen, en dan nog moet dit meestal gecorrigeerd worden.
In dat project/die projecten zal je zeker de basis geleerd hebben; tuurlijk. Maar besef dat dit week 1 is on the job, dan begint het pas ;)

Ik pik dit er even uit. Uiteindelijk hangt het allemaal van het bedrijf af, toch?
Als je de rest van de post lees, zie je dat dat exact is wat ik zeg ;)
Maar, naar mijn ervaring, is het niet de meerderheid van de bedrijven die een groot & goed gestructureerd IT departement hebben met meerdere afdelingen en veel personeel. Er gaan nogal veel taken (soms taken die binnen het pakket horen maar veelal ook randtaken) in de schoenen van 1 persoon vallen.

En dat is niet enkel mijn ervaring, dat is ook iets wat ik al van meerdere consultants binnen de branche gehoord heb. Bijvoorbeeld taak aanvaarden voor rapportering maar wel alles van 0 moeten doen (klantenbevraging, analyse, datastromen opzetten, datamodel beheren, rapportering, ...).
 
Ik pik dit er even uit. Uiteindelijk hangt het allemaal van het bedrijf af, toch? Ik heb de indruk dat je deze groep van jobs voornamelijk benaderd vanuit een IThoek, wat ik best begrijp. Alleen lijkt het mij wel - toch zeker in grotere bedrijven - dat ze die specifieke taken overlaten aan data engineers - dus mensen met een sterke IT achtergrond. Data analisten/powerbi experts zetten ze dan voornamelijk in voor algemene analyses, af en toe iets exploratief onderzoeken, opbouw van de rapportering (dus als bridge tussen business en IT), etc.

Jij hebt ervaring in de branche, ik niet, dus ik kan zeker verkeerd zijn, maar zie ik het toch binnen ons bedrijf plaatsvinden.

Of heb ik je punt misschien niet begrepen en praat ik hier gewoon naast de kwestie? :unsure:
Zo zie ik het ook voornamelijk, vandaar ook mijn opmerkingen. Pas op, het klopt wel dat je in de branche veel verschillende profielen vinden. Heb al met analisten gewerkt die achtergrond hadden in de fysica, statistiek, IT,… Vandaar dat het voor mij niet om de hard skills gaat zoals SQL kennen of een tool zoals PowerBI maar eerder een type goed in analytisch en probleemoplossend denken met kennis van datawarehousing/datamodelling technieken.
 
Hangt ook voor een deel van je attitude af. Ik weet zelf dat ik niet super ben in het bouwen van rapporten. Ik kan het wel, maar de creativiteit en inzicht in kleuren etc ontbreekt mij. Ik zeg dit ook gewoon, en in praktijk is er dan effectief wel meestal een "rapporteringsexpert". Bedrijven beseffen ook wel dat als ze mij inhuren, dit vooral voor de data modelleringskennis is. In praktijk 1 klant gehad (met kleine bi-afdeling) waar ze verwachtten dat iedereen alles kon. Daar kwam het er dan op neer dat de technische basis bij de meesten ontbrak, en de ETL dus op niks trok.
 
Als je de rest van de post lees, zie je dat dat exact is wat ik zeg ;)
Maar, naar mijn ervaring, is het niet de meerderheid van de bedrijven die een groot & goed gestructureerd IT departement hebben met meerdere afdelingen en veel personeel. Er gaan nogal veel taken (soms taken die binnen het pakket horen maar veelal ook randtaken) in de schoenen van 1 persoon vallen.

En dat is niet enkel mijn ervaring, dat is ook iets wat ik al van meerdere consultants binnen de branche gehoord heb. Bijvoorbeeld taak aanvaarden voor rapportering maar wel alles van 0 moeten doen (klantenbevraging, analyse, datastromen opzetten, datamodel beheren, rapportering, ...).

Oké ja, ik had dus effectief een stuk van je post verkeerd geïnterpreteerd. Nu lees ik inderdaad dat je hetzelfde zegt in andere woorden :p

Zo zie ik het ook voornamelijk, vandaar ook mijn opmerkingen. Pas op, het klopt wel dat je in de branche veel verschillende profielen vinden. Heb al met analisten gewerkt die achtergrond hadden in de fysica, statistiek, IT,… Vandaar dat het voor mij niet om de hard skills gaat zoals SQL kennen of een tool zoals PowerBI maar eerder een type goed in analytisch en probleemoplossend denken met kennis van datawarehousing/datamodelling technieken.

En welke technieken zijn dat zoal? Op dat gebied ben ik echt absoluut een nitwit.

Ik denk dat velen -waaronder mezelf- weinig aan het IT-gedeelte denken dat gepaard komt (of kan komen) met dergelijke jobs. In die zin is het dus zeker interessant om ook hier een idee van te krijgen. Kwestie van te weten wat interessant kan zijn om aan te leren als Msc Fysica, Statistiek, Hir,... :)
 
Het kan zijn dat ik het verkeerd versta, maar als je daar effectief zonder begeleiding binnen het bedrijf zat zondere enige voorkennis,
Het een groot bedrijf dat net begon met BI etc, ze hadden dus een paar consultants op meerdere projecten gezet. Ik mocht gans apart een use case uitwerken, alle code enz kwam dus van mij, maar ik had wel mensen waar ik vragen aan kon stellen in geval van nood. Ik had dus een maand of 4 om alle toolings te leren en het project af te leveren. Specifieke kennis over modelleren haalde ik vnl uit boeken van Kimball die ik las in de eerste paar weken toen mijn barslechte queries een uur duurden. Hiernaast sprak ik ook gewoon elke 2 weken af met mensen van business + het data governance team om beter te begrijpen wat ze echt wel wouden van het project + zicht te krijgen op de datakwaliteitsissues.

Kijk, ik zeg natuurlijk niet dat alles perfect was. Wanneer ik vertrokken ben hebben ze waarschijnlijk wel een deel in de vuilbak moeten smijten, maar dat is toch vaak gewoon zo bij juniors? Mijn punt was voornamelijk dat je toch wel kan startten als iemand met een economische achtergrond én kennis SQL. Vervolgens groei je toch on the job?

Maar goed, BI / dimensional modelling zal denk ik maar een beperkt deel van mijn takenpakket zijn in de toekomst. Toffe materie, zelf al heb ik waarschijnlijk maar het tipje van de ijsberg gezien.
 
Laatst bewerkt:
Het een groot bedrijf dat net begon met BI etc, ze hadden dus een paar consultants op meerdere projecten gezet. Ik mocht gans apart een use case uitwerken, alle code enz kwam dus van mij, maar ik had wel mensen waar ik vragen aan kon stellen in geval van nood. Ik had dus een maand of 4 om alle toolings te leren en het project af te leveren. Specifieke kennis over modelleren haalde ik vnl uit boeken van Kimball die ik las in de eerste paar weken toen mijn barslechte queries een uur duurden. Hiernaast sprak ik ook gewoon elke 2 weken af met mensen van business + het data governance team om beter te begrijpen wat ze echt wel wouden van het project + zicht te krijgen op de datakwaliteitsissues.

Kijk, ik zeg natuurlijk niet dat alles perfect was. Wanneer ik vertrokken ben hebben ze waarschijnlijk wel een deel in de vuilbak moeten smijten, maar dat is toch vaak gewoon zo bij juniors? Mijn punt was voornamelijk dat je toch wel kan startten als iemand met een economische achtergrond én kennis SQL. Vervolgens groei je toch on the job?
Wel een groot contrast met wat je hiervoor als raad gaf:
Als data analyst of BI'er kom je ruimschoots toe met SQL + Power BI. Beiden kun je écht wel on the job leren.

En het was vooral daarover dat ik en anderen vielen. Hier zeg je eigenlijk dat je geen extra kennis nodig hebt en alles on the job kunt leren, wat in vele functies binnen de sector zeker niet waar is.

Want ja, sommige dingen kan je on the job leren, zeker als junior consultant als je meegestuurd wordt met een senior. In een groot bedrijf met voldoende ondersteuning van anderen is dit ook nog mogelijk. Maar, zoals ik al meermaals gezegd heb, zal dit niet altijd het geval zijn / wat ze voor die functie zoeken. Dus je veralgemeende uitspraak is maar van toepassing op een beperkt deel van de jobs/sector (wat ik ook al van in het begin zei).
 
En welke technieken zijn dat zoal? Op dat gebied ben ik echt absoluut een nitwit.

Ik denk dat velen -waaronder mezelf- weinig aan het IT-gedeelte denken dat gepaard komt (of kan komen) met dergelijke jobs. In die zin is het dus zeker interessant om ook hier een idee van te krijgen. Kwestie van te weten wat interessant kan zijn om aan te leren als Msc Fysica, Statistiek, Hir,... :)
In de meeste bedrijven is de business analyse gestuurd uit een vraag. Genre "de Jos wilt een rapportje over xyz". U datamodel wil je echter flexibel, herbruikbaar en integreerbaar met andere requirements maken. Hiervoor kies je dan een modelleringstechniek, meestal is dat een keuze tussen 3nf, ster schema of data vault. Het ene leunt meer aan bij het business proces, het andere meer bij de rapportering.

En van die 3 modelleringstechnieken, moet je dus wel wat snappen als je een goeie oplossing wil bouwen.


Maar, een minstens even belangrijk punt is dat je naar een datamodel van een bron moet kunnen kijken, en onmiddellijk moet kunnen snappen hoe dat in elkaar zit. En dat is zeker niet altijd even evident...
 
Maar, een minstens even belangrijk punt is dat je naar een datamodel van een bron moet kunnen kijken, en onmiddellijk moet kunnen snappen hoe dat in elkaar zit. En dat is zeker niet altijd even evident...
Best wel een understatement :p
Zeker als de applicaties ontwikkeld zijn zonder rapportering in gedachte, of closed source 3rd party applicaties.

Het ergste dat ik ooit meegemaakt heb, was een bepaalde waarde uit een applicatie die ze mee wouden opnemen in de rapportering. Die werd echter nergens opgeslagen in de databank maar in de toepassing berekend... Veel geluk om dat te gaan reverse engineeren indien je geen toegang hebt tot de broncode. In dat geval was het een toepassing die ontwikkeld was door een reeds failliet bedrijf :D Gelukkig stond de business rule om deze te berekenen nog ergens in de analyse/documentatie, maar dan bleek dat dit toch anders geïmplementeerd was want er waren afwijkingen :wallbash:
 
PB me gerust eens als je je klaar voelt voor een volgende stap. Ik ben actief op zoek naar (zowel junior als senior) Data Engineers met de juiste Open Source mind-set en kennis van Python, kennis van Kafka/Scala is een mooie plus. Antwerps bedrijf.

@Koone , mocht je steeds actief op zoek zijn mag je mij altijd een PM sturen met wat meer details.

Ik zit zelf in de situatie dat ik een dubbel diploma heb (bio-ir/statistiek, dat laatste nog niet zo lang, dus ook nog geen ervaring) en graag aan de slag wil in DS. ML/DL springt er natuurlijk uit, maar gewoon "klassiek" modelleren zou ik al met plezier doen. Ik werk al heel mijn carrière in de farma, maar de transitie loopt daar, zachtst gezegd, moeizaam. De klassieke (en ruim beschikbare) statistiek jobs die daar van toepassing zijn zitten ook in de biostatistiek en ik heb weinig zin om mij in de volgende fase van mijn carrière nog voortdurend het hoofd te moeten breken over compliance (daar heb ik al net iets té veel ervaring mee).

Ik vind het eerlijk gezegd moeilijk om nog door de bomen het bos te zien en heb eigenlijk weinig idee welke sectoren juist op zoek zijn naar welke profielen. DS is natuurlijk enorm breed en ik denk dat ik gewoon niet op de juiste plaatsen aan het kijken ben.
 
En welke technieken zijn dat zoal? Op dat gebied ben ik echt absoluut een nitwit.

Ik denk dat velen -waaronder mezelf- weinig aan het IT-gedeelte denken dat gepaard komt (of kan komen) met dergelijke jobs. In die zin is het dus zeker interessant om ook hier een idee van te krijgen. Kwestie van te weten wat interessant kan zijn om aan te leren als Msc Fysica, Statistiek, Hir,... :)

Zoals al aangehaald gaat het dan over 3NF, star/snowflake of data vault datamodellen maken. De sterkte’s en zwakten van elk model, rekening houdend met de omgeving waar je in werkt en het doel er van.

De 2 grote in de BI zijn Kimball en Inmon. Dat zijn 2 kleppers van boeken en als je die doorneemt zal je veel opsteken. In de praktijk wordt er meer met Kimball gewerkt. Data vault is nog een uitbreiding hierop.
Zullen ook wel boeken over zijn, heb er zelf een cursus van een week voor gevolgd.

Als analyst ooit in een sollicitatiegesprek gewoon een examen Kimball gehad. Een half uur vragen over wat er in die boek staat. Genre “er is dat en ik wil dat, hoe modelleer je dat om dat op te lossen”. Los van het feit dat dat wel een belachelijke manier van solliciteren is, is het toch iets heel belangrijk voor analisten.

Als je je daar in interesseert kan je zeker eens bij je werkgever vragen voor een weekje opleiding. Die datavault die ik gevolgd heb was een week opleiding waarvan 3 dagen standaard datamodelleren en 2 dagen datavault, was heel interessant.
 
Ik vind het eerlijk gezegd moeilijk om nog door de bomen het bos te zien en heb eigenlijk weinig idee welke sectoren juist op zoek zijn naar welke profielen. DS is natuurlijk enorm breed en ik denk dat ik gewoon niet op de juiste plaatsen aan het kijken ben.

Redelijk wat data science posities binnen consultancies, zowel 'kleinere' (<50 man) die erin specialiseren en de grotere spelers. Had zowel een offer om te starten als Jr onderzoeker bij de KUL, kleine consultancy of een grote als data scientist, heb het laatste gekozen omdat ik hoop dat ik daar het meeste leer in het begin, we zullen zien wat dat geeft.

Van vrienden bij bvb. bij big 4, accenture, cognizant, etc. gestart zijn krijg ik veelal de indruk dat ze aangenomen worden als 'data man' en dan niet per se op machine learning of iets dergelijk gezet worden. Het kan wel, maar als ik zie bij m'n vrienden zitten er een resem saaiere projecten tussen.

Binnen farma zijn er ook mogelijkheden, had een paar maand geleden een tijdje met J&J aan tafel gezeten voor een Jr positie maar ik was onder de indruk dat er enorm veel SAS legacy zou zijn en ze niet de infrastructuur hadden om ermee te starten, geen fit dus.

Heb een paar maand geleden een talk bijgewoond van wat kbc doet met ML/DL dus banken en de financiële sector zijn waarschijnlijk ook een optie voor u.

Ik merk wel dat die vacatures bijzonder snel worden ingevuld, van de graduates dan toch vandaar dat ik zo 'vroeg' ben beginnen solliciteren. Als ik eens rond me zie zijn er veel medestudenten die ook willen starten als data scientist / machine learning engineer. Als ik wat rond zie bij plaatsen die me (ook) interesseerden zie ik dat er nu al een heleboel Jr data scientist (met start september) weg zijn, dus die zijn wellicht ingevuld...
 
Zoals al aangehaald gaat het dan over 3NF, star/snowflake of data vault datamodellen maken. De sterkte’s en zwakten van elk model, rekening houdend met de omgeving waar je in werkt en het doel er van.

De 2 grote in de BI zijn Kimball en Inmon. Dat zijn 2 kleppers van boeken en als je die doorneemt zal je veel opsteken. In de praktijk wordt er meer met Kimball gewerkt. Data vault is nog een uitbreiding hierop.
Zullen ook wel boeken over zijn, heb er zelf een cursus van een week voor gevolgd.

Als analyst ooit in een sollicitatiegesprek gewoon een examen Kimball gehad. Een half uur vragen over wat er in die boek staat. Genre “er is dat en ik wil dat, hoe modelleer je dat om dat op te lossen”. Los van het feit dat dat wel een belachelijke manier van solliciteren is, is het toch iets heel belangrijk voor analisten.

Als je je daar in interesseert kan je zeker eens bij je werkgever vragen voor een weekje opleiding. Die datavault die ik gevolgd heb was een week opleiding waarvan 3 dagen standaard datamodelleren en 2 dagen datavault, was heel interessant.
In praktijk gok ik dat 85% van de bedrijven Kimball gebruiken, een 10% Inmon (of een soortgelijke 3NF vorm) en nog een 5% Data Vault (aka Linstedt). En binnen Vlaanderen is er maar 1 bedrijf dat zich wat serieus bezig houdt met Data Vault consultancy (een Cronos-bedrijf, ga hier geen namen noemen maar niet moeilijk te vinden). Dus als je niet aan dat bedrijf wil vast hangen, is het niet altijd even makkelijk... Want je moet dan als "kleine zelfstandige" dienen als hét alternatief, terwijl ik op zich helemaal niks tegen de cronos-tooling heb ofzo.

Maar sowieso is data modellering wel key als je iets of wat wil doorgroeien in een rol. Welke ETL-tools je allemaal kent, doet imo zelden ter zake (ik heb nog nooit een opleiding van een ETL-tool gehad, voor ik effectief op een project zat). Er zijn 2 dingen belangrijk: data modellering, en de vaardigheid om in "data flows te denken". Ik weet niet hoe ik dat laatste anders kan beschrijven, maar ik, en mijn collega's, kunnen eigenlijk allemaal bij het zien van een requirement, onmiddelijk uitwerken wat voor data flows er nodig zijn en waar de pitfalls zitten.
 
Redelijk wat data science posities binnen consultancies, zowel 'kleinere' (<50 man) die erin specialiseren en de grotere spelers. Had zowel een offer om te starten als Jr onderzoeker bij de KUL, kleine consultancy of een grote als data scientist, heb het laatste gekozen omdat ik hoop dat ik daar het meeste leer in het begin, we zullen zien wat dat geeft.

Van vrienden bij bvb. bij big 4, accenture, cognizant, etc. gestart zijn krijg ik veelal de indruk dat ze aangenomen worden als 'data man' en dan niet per se op machine learning of iets dergelijk gezet worden. Het kan wel, maar als ik zie bij m'n vrienden zitten er een resem saaiere projecten tussen.

Binnen farma zijn er ook mogelijkheden, had een paar maand geleden een tijdje met J&J aan tafel gezeten voor een Jr positie maar ik was onder de indruk dat er enorm veel SAS legacy zou zijn en ze niet de infrastructuur hadden om ermee te starten, geen fit dus.

Heb een paar maand geleden een talk bijgewoond van wat kbc doet met ML/DL dus banken en de financiële sector zijn waarschijnlijk ook een optie voor u.

Ik merk wel dat die vacatures bijzonder snel worden ingevuld, van de graduates dan toch vandaar dat ik zo 'vroeg' ben beginnen solliciteren. Als ik eens rond me zie zijn er veel medestudenten die ook willen starten als data scientist / machine learning engineer. Als ik wat rond zie bij plaatsen die me (ook) interesseerden zie ik dat er nu al een heleboel Jr data scientist (met start september) weg zijn, dus die zijn wellicht ingevuld...
Een oprechte logica vraag om uw verwachtingen mogelijks wat realistischer te maken:
Als je zowel uit eigen ervaring via sollicitaties als van vrienden hoort dat de beschikbare interne projecten "saai" en geen fit voor u zijn, waar denk je dan magisch verkocht te worden als consultant? ;)

En nog een belangrijke over die KBC talk, die evengoed van toepassing is over opleidingen/showcases/... die je online vindt: het is een beetje zoals instagram, het zal er rooskleuriger uitzien dan de realiteit.
De meeste van de dingen die je online vindt, zijn PR. Allemaal schone showcases in ideale situaties. Idem met talks/presentaties. Een project dat met haken en ogen aan elkaar hangt maar werkt, gaat zelden tot nooit publiekelijk voorgesteld worden :) En zo zijn er veel, heel veel...
Dat merk je perfect bij zo'n talks; als er nadien een technische vraag komt of gevraagd wordt hoe een gekend probleem aangepakt wordt, wordt er meestal niet of ontwijkend geantwoord :D
En eigenlijk geldt dit ook voor opleidingen. Ik weet niet of ze het nog doen, maar vroeger werd bijna alles van MS producten in opleidingen gedaan met de "AdventureWorks" databank. Goed voor opleidingen en te tonen wat iets kan maar de kans dat je enkel met een perfect datamodel gaat werken zonder DQA issues in de realiteit is klein.

Maar sowieso is data modellering wel key als je iets of wat wil doorgroeien in een rol. Welke ETL-tools je allemaal kent, doet imo zelden ter zake (ik heb nog nooit een opleiding van een ETL-tool gehad, voor ik effectief op een project zat). Er zijn 2 dingen belangrijk: data modellering, en de vaardigheid om in "data flows te denken". Ik weet niet hoe ik dat laatste anders kan beschrijven, maar ik, en mijn collega's, kunnen eigenlijk allemaal bij het zien van een requirement, onmiddelijk uitwerken wat voor data flows er nodig zijn en waar de pitfalls zitten.
Ik zou het ook niet beter kunnen omschrijven, want het klopt. In sommige gevallen is het wel handig om specifieke kennis over 1 tool te hebben maar dat is uitzonderlijk. Eén van de weinige waar ik aan denk is voor SSAS/PowerQuery/PowerBI kennis van M en/of DAX; maar dat is vrij snel aangeleerd of gegoogled ;) En dan misschien de scripting talen voor script components van ETL-tools. Maar beide zijn eigenlijk geen kennis van de tools maar de achterliggende/nodige talen.
 
Maar sowieso is data modellering wel key als je iets of wat wil doorgroeien in een rol. Welke ETL-tools je allemaal kent, doet imo zelden ter zake (ik heb nog nooit een opleiding van een ETL-tool gehad, voor ik effectief op een project zat). Er zijn 2 dingen belangrijk: data modellering, en de vaardigheid om in "data flows te denken". Ik weet niet hoe ik dat laatste anders kan beschrijven, maar ik, en mijn collega's, kunnen eigenlijk allemaal bij het zien van een requirement, onmiddelijk uitwerken wat voor data flows er nodig zijn en waar de pitfalls zitten.

En dat is iets wat je op basis van (jarenlange?) ervaring hebt opgepikt? Of dat zijn reeds dingen die je bij bepaalde universitaire studies erin gedrild kreeg?
 
En dat is iets wat je op basis van (jarenlange?) ervaring hebt opgepikt? Of dat zijn reeds dingen die je bij bepaalde universitaire studies erin gedrild kreeg?
Dat is iets dat eigenlijk ontbreekt in opleidingen (heb zelf hoge school-diploma he :p).
Deels komt dat voort uit het leren om "gestructureerd" te denken, en dat leer je natuurlijk wel wat in (de meeste) opleidingen, maar is ook een deel van je persoonlijkheid, denk ik. Maar die pitfalls spotten, dat leer je door ervaring. Je wordt gewoon beter en beter in het zien van "rariteiten" van een data-model.
Om een voorbeeldje te geven, als je in een data-model ziet dat er een veel-op-veel relatie tussen entiteit klant en verkoop zit, gaat elke (goede) modeller direct de vraag stellen wat een verkoop met meerdere klanten juist moet inhouden. Het kàn dat er een business case voor is, maar het is onwaarschijnlijk.

Nog een mooie typische vraag die ik vaak moet stellen is of ze hun facts (=de events die gebeuren in het bedrijf, bvb vluchten, verkopen, ...) moeten gelinkt zijn aan de dimensies (=invalshoeken, bvb "klant", "product", "winkel", ...) zoals ze bestonden op het moment van verkoop, of op de huidige versie. Dat is eigenlijk een heel basic-vraag, en toch komt daar zelden een duidelijk antwoord op omdat veel mensen niet ver genoeg nadenken.
 
Ik zou het ook niet beter kunnen omschrijven, want het klopt. In sommige gevallen is het wel handig om specifieke kennis over 1 tool te hebben maar dat is uitzonderlijk.
Ik ben net gespecialiseerd in één tool/softwarepakket/programmeertaal (SAS). Ik zit ook iets meer technisch want ben niet zoveel bezig met modelleren. Als business een oplossing wilt, adviseer ik hen binnen de tool wat de oplossingen kunnen zijn, afhankelijk van welke oplossing is mogelijks andere modellering/datamodel nodig maar daar stopt het dan vaak ook. Je moet dan natuurlijk wel de juiste vragen stellen: wil je historiek, wil je die invalshoek kunnen benaderen, wil je in staat zijn om x te kunnen berekenen, .... dat leer je inderdaad wel een beetje met de tijd, maar wat "aanleg" hierin, helpt wel.

Mijn rol gaat ook meer naar het opzetten van allerlei connecties richting andere bronsystemen en optimaliseren van die connecties, security, governance, ... zodat business alle data ter beschikking heeft. Daar moet je toch wel wat kennis voor hebben opgebouwd om te weten hoe die tools daar mee omgaan.

Ik ben nu wel ook bezig met wat zelfstudies voor andere visualisatietools, als je daar een basiscursus volgt ben je meestal wel vertrokken, want die verschillen meestal niet zo heel veel. De ene is wat gebruiksvriendelijker dan de andere.
 
Laatst bewerkt:
Ik ben net gespecialiseerd in één tool/softwarepakket/programmeertaal (SAS). Ik zit ook iets meer technisch want ben niet zoveel bezig met modelleren. Als business een oplossing wilt, adviseer ik hen binnen de tool wat de oplossingen kunnen zijn, afhankelijk van welke oplossing is mogelijks andere modellering/datamodel nodig maar daar stopt het dan vaak ook. Je moet dan natuurlijk wel de juiste vragen stellen: wil je historiek, wil je die invalshoek kunnen benaderen, wil je in staat zijn om x te kunnen berekenen, .... dat leer je inderdaad wel een beetje met de tijd, maar wat "aanleg" hierin, helpt wel.

Mijn rol gaat ook meer naar het opzetten van allerlei connecties richting andere bronsystemen en optimaliseren van die connecties, security, governance, ... zodat business alle data ter beschikking heeft. Daar moet je toch wel wat kennis voor hebben opgebouwd om te weten hoe die tools daar mee omgaan.

Ik ben nu wel ook bezig met wat zelfstudies voor andere visualisatietools, als je daar een basiscursus volgt ben je meestal wel vertrokken, want die verschillen meestal niet zo heel veel. De ene is wat gebruiksvriendelijker dan de andere.
Ja, je hebt eigenlijk 2 profielen in de sector he. De generalisten (zoals ik) en de specialisten (zoals jij). Beide hebben hun voor en nadelen, voor de ene klant is het belangrijker om iemand te hebben die heel sterk is in een specifieke tool, voor de andere klant is dat minder van belang. Niks mis mee :P

Wat je wel vaak ziet, is dat mensen die zich verdiepen in 1 tool, het vaker moeilijk hebben om de "speciallekes" los te laten. Bij SAS (en bvb Powercenter) weet ik bvb nog dat de logica om een "lag"-window functie te gebruiken nogal louche in elkaar zit door eigenlijk gebruik te maken van het geheugenbeheer van de tool. Eens je dat weet, is dat niet moeilijk meer, maar het is wel de bedoeling dat wanneer je dan in een tool komt die die functie heeft ingebouwd, dat je die dan ook gaat gebruiken. En daar wringt soms wel eens het schoentje bij collega's die al 15 jaar in dezelfde tool werken.
Omgekeerd zullen ze van mij ook regelmatig denken dat ik te fel in "SQL-logica" denk...
 
Als je zowel uit eigen ervaring via sollicitaties als van vrienden hoort dat de beschikbare interne projecten "saai" en geen fit voor u zijn, waar denk je dan magisch verkocht te worden als consultant? ;)
Je maakt daar eigenlijk een goed punt. Als consultant komt het er sowieso bij dat je geregeld op saaiere projecten wordt gezet, daar ben ik me nu al bewust van. M'n enige "eis" is dat er toch wel wat machine learning bij zit, aangezien ik toch wel daar voor ben aangenomen. Wat ik zie als issue met full-time bij J&J te zitten is dat je dan gewoon gans u tijd daar bent :scream:. Als consultant kunt ge toch een beetje uitkijken naar het volgend project, dat dan al dan niet leuker is.

En nog een belangrijke over die KBC talk, die evengoed van toepassing is over opleidingen/showcases/... die je online vindt: het is een beetje zoals instagram, het zal er rooskleuriger uitzien dan de realiteit.
De meeste van de dingen die je online vindt, zijn PR. Allemaal schone showcases in ideale situaties. Idem met talks/presentaties. Een project dat met haken en ogen aan elkaar hangt maar werkt, gaat zelden tot nooit publiekelijk voorgesteld worden :) En zo zijn er veel, heel veel...
Akkoord.
Eén van de weinige waar ik aan denk is voor SSAS/PowerQuery/PowerBI kennis van M en/of DAX; maar dat is vrij snel aangeleerd of gegoogled ;) En dan misschien de scripting talen voor script components van ETL-tools. Maar beide zijn eigenlijk geen kennis van de tools maar de achterliggende/nodige talen.
Dit is dus wat ik met mijn eerste comment bedoelde. Deze stack kun je toch 'on the job' leren? Dit wordt ook toch gewoon niet gedoceerd op school, waar pik je het anders op?

In praktijk gok ik dat 85% van de bedrijven Kimball gebruiken, een 10% Inmon (of een soortgelijke 3NF vorm) en nog een 5% Data Vault (aka Linstedt). En binnen Vlaanderen is er maar 1 bedrijf dat zich wat serieus bezig houdt met Data Vault consultancy
Heb indertijd wat gelezen over datavault, wat is het voordeel tov Kimball? Als ik het zo zie is het grootste nadeel dat het redelijk niche is, niet? Als consultants kunnen jullie dat maar wie onderhoudt de boel eens jullie weg zijn? Als ze er een andere bende consultants opzetten zal dat toch wel moeilijker zijn voor hen dan het geval dat jullie het gewoon met een ster schema hadden opgezet? Wat mis ik?
 
Heb indertijd wat gelezen over datavault, wat is het voordeel tov Kimball? Als ik het zo zie is het grootste nadeel dat het redelijk niche is, niet? Als consultants kunnen jullie dat maar wie onderhoudt de boel eens jullie weg zijn? Als ze er een andere bende consultants opzetten zal dat toch wel moeilijker zijn voor hen dan het geval dat jullie het gewoon met een ster schema hadden opgezet? Wat mis ik?
Data Vault heeft 3 grote voordelen (en nog een paar kleinere): flexibiliteit, genereerbaarheid (=snellere doorlooptijd van ontwikkelflow) en laadsnelheid
Flexibiliteit omdat uw data model eigenlijk altijd "naar buiten" uitbouwt. Hierdoor moet je nooit bestaande flows aanpassen
Genereerbaarheid omdat de logica om een data vault te vullen, eigenlijk heel straight forward is, en makkelijk te genereren.
Laadsnelheid omdat het insert-only is, en werkt op basis van hashes. Hierdoor heb je geen afhankelijkheden tussen flows en kan dus alles parallel lopen.

En een belangrijk punt is ook wel dat eens uw data in de vault zit, je er altijd op kan terug vallen. Als alles deftig is opgezet, is er geen reden om ooit een record te deleten uit de vault.

Nadelen:
1) inderdaad het aantal mensen die het kent en er ervaring mee heeft.
2) De naam zegt het, het is een "kluis" met data, makkelijk om dingen in te steken, moeilijk om het er terug uit te krijgen (performance-gewijs). Uiteindelijk moet je nog steeds naar een ster-schema voor uw rapporteringstools
3) verder op bovenstaande 2 puntjes: het duurt wel even voor je alle logica kent om uw data juist te query-en. Ad Hoc queries door mensen die weinig ervaring ermee hebben, zijn quasi altijd fout.


Maar als je bij een klant komt die een paar keer 100k heeft mogen geven omdat hij 10 extra veldjes wou in een ster-schema, dan is het wel makkelijker om verkocht te krijgen :p
 
Ik merk wel dat die vacatures bijzonder snel worden ingevuld, van de graduates dan toch vandaar dat ik zo 'vroeg' ben beginnen solliciteren. Als ik eens rond me zie zijn er veel medestudenten die ook willen starten als data scientist / machine learning engineer.

Zeer vreemd. Gaat het dan nog om de titel of om de inhoud van de job? Zoals al eerder aangegeven in de thread is er zo een variatie aan mogelijke inhoud die je kan doen als data scientist, dat het toch gewoon onzinnig is om te willen starten als data scientist? Merkwaardig gewoon.

Los daarvan, ik zie dat bv KBC zeer veel uitpakt met datajobs, maar ik vraag me toch oprecht af hoe dat zit in realiteit. Zeker in een bankencontext lijkt het me echt moeilijk om als junior op basis van data een meerwaarde te creëren voor business. Misschien dat je op het begin dan toch vooral bezig bent met het "vuile" werk op te knappen van de senior. :)
 
Terug
Bovenaan