Data industry: trend of fad?

Ik heb al heel wat simpele, routineuze taken, zoals SQL-scripts herschrijven, uitbesteed aan A.I. om vervolgens nog een heel deel te moeten debuggen maar soit.
Het probleem daarbij, en eigenlijk bij alles, is dat het allemaal afhangt hoe het model getrained is.

Als het model geen inzicht heeft in het datamodel (of de data zelf), moet je niet verwachten dat er iets correct en/of performant uitkomt... En zelfs als het getrained is met kennis van het datamodel, de data en zelfs bestaande queries is het niet 100%. Maar wel al veel beter en soms een basis waar maar weinig aan moet gecorrigeerd worden.

Waar het wel goed voor werkt (zelfs zonder specifieke training), is voor zaken die je vroeger manueel moest opzoeken. Dus gewoon vragen "hoe doe je x in databank y" en dat dan zelf gaan herschrijven/in je eigen query implementeren.
 
Wat voor job doe jij precies dan? Ik herinner mij oude posts van jou waarin je sprak over leerkracht zijn, dat is precies niet meer zo?

Lol, dat is al 7 jaar niet meer zo. 😅

Momenteel werk ik als "Data Scientist", maar vind die titel persoonlijk zwaar overroepen...
Wat basisprogrammeerwerk waarvoor men geen deftige IT'ers kan/wil inhuren,
wat easy statistics (R/SAS/Python) die desondanks te moeilijk zijn voor de gemiddelde collega,
onderhoud van databanken, presentaties naar leidinggevenden, etc. ...

Heb wel al een jobswitch terug naar het onderwijs overwogen, zelfs met een extra vakbekwaamheid in een meer knelpuntvak, wat ik oprecht graag zou doen, maar dan is het terug werkonzekerheid, stevig stukje minder loon (zou ik min de vorige factor er misschien nog voor over hebben) en meer werk voor buiten de zomermaanden minder echte vakantie.

't is wel niet de job van m'n leven en ben wel actief aan het reflecteren om fin de carrière (maar dat is uiteraard niet de eerste 15 jaar) iets anders te gaan doen, tegen dan runt A.I. misschien wel de boel, maar momenteel zie ik werk meer als een "solide sokkel" om de rest van m'n leven op te bouwen, en zit ik zeker wel goed. Geen enkele kleine jongen droomt mag ik hopen van Data Scientist of zelfs IT'er te worden, maar er zijn héél véél slechtere jobs in de samenleving, wil alleen geen mensen beledigen door die te benoemen.

Ik schipper momenteel nog tussen een extra master af te maken waar ik ooit aan begonnen ben, en gewoon voor de leut iets praktisch/creatief bij te gaan studeren.
 
Het probleem daarbij, en eigenlijk bij alles, is dat het allemaal afhangt hoe het model getrained is.

Als het model geen inzicht heeft in het datamodel (of de data zelf), moet je niet verwachten dat er iets correct en/of performant uitkomt... En zelfs als het getrained is met kennis van het datamodel, de data en zelfs bestaande queries is het niet 100%. Maar wel al veel beter en soms een basis waar maar weinig aan moet gecorrigeerd worden.

Waar het wel goed voor werkt (zelfs zonder specifieke training), is voor zaken die je vroeger manueel moest opzoeken. Dus gewoon vragen "hoe doe je x in databank y" en dat dan zelf gaan herschrijven/in je eigen query implementeren.

Denk dat m'n werkgever zéér terecht boos zou zijn als ik de data zelf in A.I. zou gooien, dus dat doe ik uiteraard niet.
Data-model is natuurlijk een twijfelgeval, zonder de data zelf is daar weinig aan zou je denken qua privacy, want de "business rules" zijn op zich vaak betrekkelijk simpel, maar toch ook daar enige voorzichtigheid...

Ze zijn intern wel bezig met ons eigen LLM te trainen waar we wel meer in mogen smijten, want dan blijft het 'inhouse', maar als ik zie met welke slakkengang andere IT-projecten (in-house development of consultancy) vooruitgaan, laat staan de "kwaliteit" *kuch* waarmee ze opgeleverd worden... Dan zal dat ongetwijfeld een interessante tool zijn in 2029 à 2030 ofzo, die dan nog maar minimaal zal functioneren, 😂 Ik erger me er gelukkig al lang niet meer aan...
 
Denk dat m'n werkgever zéér terecht boos zou zijn als ik de data zelf in A.I. zou gooien, dus dat doe ik uiteraard niet.
Data-model is natuurlijk een twijfelgeval, zonder de data zelf is daar weinig aan zou je denken qua privacy, want de "business rules" zijn op zich vaak betrekkelijk simpel, maar toch ook daar enige voorzichtigheid...
En terecht :p

Voor MSSQL heb heb ik zo al fratsen gezien waar mensen aanraden om het gewoon "in VS te steken, copilot naar de databank laten connecteren en dan vragen te stellen". Ik denk dat dat bij ons reden tot ontslag zou zijn ^^

Copilot in Fabric zou ik denken dat het GDPR-compliant is (als alles in de cloud al compliant is) maar geen idee want is bij ons disabled op tenant niveau. Terwijl die wel op het datamodel/de metadata getrained zou zijn. Maar ook weer niet op de data.
 
En terecht :p

Voor MSSQL heb heb ik zo al fratsen gezien waar mensen aanraden om het gewoon "in VS te steken, copilot naar de databank laten connecteren en dan vragen te stellen". Ik denk dat dat bij ons reden tot ontslag zou zijn ^^

Copilot in Fabric zou ik denken dat het GDPR-compliant is (als alles in de cloud al compliant is) maar geen idee want is bij ons disabled op tenant niveau. Terwijl die wel op het datamodel/de metadata getrained zou zijn. Maar ook weer niet op de data.
Ja, hier co-pilot op fabric ook disabled, maar in VS Code gebruik ik wel Claude voor mijn notebooks, dbt-code en fabric-cicd files etc.
Er is een enorm verschil in AI op uw code loslaten VS AI op uw data loslaten (voor wetgeving)
 
Welk formaat is eigenlijk het meest te prefereren als het gaat om ruwe data in de ingest/raw/bronze layer te ingesten, json of parquet?
 
Parquet. Dat is een enorm verschil qua compressie en veel efficiënter voor computers om mee te werken.
Ook al op ingest niveau? Van sommigen hoor ik dat de data best zo ruw mogelijk blijft en dat ze met hun ingest tool (NiFi oid) gewoon de json's op de raw layer zetten en dat in de transformatie naar de volgende layer die json wordt omgezet naar parquet. Verder volledig akkoord dat parquet beter is om mee te werken.
 
En terecht :p

Voor MSSQL heb heb ik zo al fratsen gezien waar mensen aanraden om het gewoon "in VS te steken, copilot naar de databank laten connecteren en dan vragen te stellen". Ik denk dat dat bij ons reden tot ontslag zou zijn ^^

Copilot in Fabric zou ik denken dat het GDPR-compliant is (als alles in de cloud al compliant is) maar geen idee want is bij ons disabled op tenant niveau. Terwijl die wel op het datamodel/de metadata getrained zou zijn. Maar ook weer niet op de data.
Je hebt geen idee hoe "genormaliseerd" dit geworden is. Mijn studenten draaien ALLES door chatGPT.

Voor mijn examen zeg ik ook: "chatGPT gaat u niet helpen, dus reken er niet op" en toch proberen ze.

En wat ze op school doen, doen ze straks ook op de werkvloer.
 
Ook al op ingest niveau? Van sommigen hoor ik dat de data best zo ruw mogelijk blijft en dat ze met hun ingest tool (NiFi oid) gewoon de json's op de raw layer zetten en dat in de transformatie naar de volgende layer die json wordt omgezet naar parquet. Verder volledig akkoord dat parquet beter is om mee te werken.
In de meeste gevallen heb je een framework om data naar bronze en silver te brengen voor alle soorten databronnen. Dan is het handig dat je de stap naar Parquet doet de moment dat je naar Bronze gaat (zodat uw silver alles parquet => iets anders is).
Ook uw storage cost (al is die zelden van belang) gaat een pak lager zijn met Parquet.
 
Je hebt geen idee hoe "genormaliseerd" dit geworden is. Mijn studenten draaien ALLES door chatGPT.

Voor mijn examen zeg ik ook: "chatGPT gaat u niet helpen, dus reken er niet op" en toch proberen ze.

En wat ze op school doen, doen ze straks ook op de werkvloer.
In welke situaties kan AI hen niet helpen?
Of spreek je over de gratis chatgpt versie?
Want bv Claude Code kan denk ik wel quasi alles wat je leert op school in informatica.
 
In welke situaties kan AI hen niet helpen?
Of spreek je over de gratis chatgpt versie?
Want bv Claude Code kan denk ik wel quasi alles wat je leert op school in informatica.
Zelf denken en de juiste prompt/vraag oplossing zoeken. Gewoon alles in AI knallen is niet de oplossing, als je niet de juiste insteek hebt.
 
Denk dat het juiste gebruik van AI net aangemoedigd zou moeten worden bij studenten maar tegelijkertijd wel hard zijn. Als het op niks trekt, trekt het op niks. Heb je niet de juiste prompts gebruikt of gebruik je info die er fout werd uitgespuwd, dat is je eigen verantwoordelijkheid.

Maar waarom zou je het op school niet toelaten, wetende dat ze het op de werkvloer ook gaan moeten gebruiken (onder idem strenge spelregels hopelijk).
 
Denk dat het juiste gebruik van AI net aangemoedigd zou moeten worden bij studenten maar tegelijkertijd wel hard zijn. Als het op niks trekt, trekt het op niks. Heb je niet de juiste prompts gebruikt of gebruik je info die er fout werd uitgespuwd, dat is je eigen verantwoordelijkheid.

Maar waarom zou je het op school niet toelaten, wetende dat ze het op de werkvloer ook gaan moeten gebruiken (onder idem strenge spelregels hopelijk).
Het probleem lijkt me dat je op school studenten meer wil leren dan zuivere toepassing. We leren bijvoorbeeld op school ook nog wiskunde die niemand op de werkvloer ooit nog handmatig zal oplossen, we hebben al lang rekenmachines en toch moet je de tafels van vermenigvuldiging nog leren. Een school zou beide moeten aanleren, de tools om het op te lossen in de praktijk maar ook in zekere mate de basis van hoe het werkt.

Het problem met AI en scholen is dat het heel moeilijk, misschien tegenwoordig zelfs al onmogelijk is om opdrachten zo in te richten dat de student via de ingediende opdracht kan aantonen dat ie iets echt beheerst omdat AI op alles erg goed zal scoren.
 
Laatst bewerkt:
Het probleem lijkt me dat je op school studenten meer wil leren dan zuivere toepassing. We leren bijvoorbeeld op school ook nog wiskunde die niemand op de werkvloer ooit nog handmatig zal oplossen, we hebben al lang rekenmachines en toch moet je de tafels van vermenigvuldiging nog leren. Een school zou beide moeten aanleren, de tools om het op te lossen in de praktijk maar ook in zekere mate de basis van hoe het werkt.

Het problem met AI en scholen is dat het heel moeilijk, misschien tegenwoordig zelfs al onmogelijk is om opdrachten zo in te richten dat de student via de ingediende opdracht kan aantonen dat ie iets echt beheerst omdat AI op alles erg goed zal scoren.
Ik zeg natuurlijk niet dat je in al je vakken puur AI moet gebruiken. Maar voor bvb. thesissen, eindwerken, presentaties, verslagen, etc... Daar zou ik zeggen, laat ze losgaan met de tools die ze hebben. De blokvakken, examens etc. kan je natuurlijk niet vervangen door een vragenlijst dat ze door AI moeten rammen.
 
Ik zeg natuurlijk niet dat je in al je vakken puur AI moet gebruiken. Maar voor bvb. thesissen, eindwerken, presentaties, verslagen, etc... Daar zou ik zeggen, laat ze losgaan met de tools die ze hebben. De blokvakken, examens etc. kan je natuurlijk niet vervangen door een vragenlijst dat ze door AI moeten rammen.
De vraag is hoeveel nut die soort opdrachten nog hebben wat steekt een student er dan nog van op. Had met iemand van Vlerick gesproken en tegenwoordig hebben bijna al hun studenten op zijn minst 17 op 20 voor dat soort opdrachten en ze kunnen het onderscheid niet meer maken tussen mensen die het zowat volledig door AI hebben laten doen en mensen die het grotendeels zelf doen en dan laten bijschaven door AI.

Ik zie het ook me onze aanwervingen. Wij laten nieuwe kandidaten een M&A business case uitwerken thuis die ze dan komen uitleggen in hun interview. De slide decks die ze op voorhand moeten indienen zijn altijd enorm goed tegenwoordig en voorspellen op geen enkele manier meer hoe goed het interview gaat zijn. Da's op zich niet echt een probleem, in dat interview kom je er wel achter hoe goed hun capaciteiten zijn maar je kan je afvragen waarom we zelfs nog zo'n opdracht geven en ik vermoed dat scholen met hetzelfde worstelen.
 
Daar leer je idd niet van bij, maar ik ben vooral benieuwd naar wat AI dan precies niet zou kunnen.
AI mist toch nog altijd veel zaken, zeker als het op architectuur en nieuwe functionaliteiten aankomt. Hoeveel keer ik al wel niet gehad heb dat het zei dat iets niet mogelijk was terwijl als ik gewoon even wat research doe het toch wel kan.

Ik werk in Azure, Fabric en Power BI en het is zelfden op de hoogte van de nieuwe releases en wat nieuws daar in zit. (Wel als ik het specifiek vraag naar wat nieuw is natuurlijk)
 
AI mist toch nog altijd veel zaken, zeker als het op architectuur en nieuwe functionaliteiten aankomt. Hoeveel keer ik al wel niet gehad heb dat het zei dat iets niet mogelijk was terwijl als ik gewoon even wat research doe het toch wel kan.

Ik werk in Azure, Fabric en Power BI en het is zelfden op de hoogte van de nieuwe releases en wat nieuws daar in zit. (Wel als ik het specifiek vraag naar wat nieuw is natuurlijk)
Op school zie je ook zelden het allernieuwste.
 
Terug
Bovenaan