Data industry: trend of fad?

VijfEnZeventig · 24 januari 2022

Niklas zei:
Zeer vreemd. Gaat het dan nog om de titel of om de inhoud van de job? Zoals al eerder aangegeven in de thread is er zo een variatie aan mogelijke inhoud die je kan doen als data scientist, dat het toch gewoon onzinnig is om te willen starten als data scientist? Merkwaardig gewoon.

Hangt sowieso van persoon tot persoon af.

Persoonlijk zou ik nooit of nooit ergens gaan werken als data scientist waar ik niemand ken. Juist door die inhoudelijke variantie wou ik dus inderdaad iemand kennen die daar al is om wat garanties te krijgen over de inhoud. Heeft idd geen zin om data scientist genoemd te worden als u job toch gewoon 100 % BI of volledig in Excel gebeurt.

Je hebt zéker een punt hier.

Timboektoe · 2 februari 2022

Ik werk zelf nu zo'n 12 jaar in de IT-sector, voor het grootste deel als software engineer in Java/Kotlin/JavaScript en ook een goeie 3 jaren lang als Python-ontwikkelaar.

Dankzij die laatste ervaring was het mij ook ooit gelukt om een project te doen als "data engineer": dus deel uitmaken van een team dat ruwe data transformeert naar een database om dan vervolgens value te halen uit die gegevens voor industriële productieprocessen. "ETL" wordt dat ook wel eens genoemd.

Ik was initieel heel enthousiast en omdat het team voor 80% bestond uit PhD's, dacht ik: wow, hier ga ik superveel van bijleren! Maar dat sloeg in de praktijk echt wel tegen... Daar werd Apache Airflow gebruikt, wat volgens mij helemaal niet de geschikte tool was voor hun use case (qua scalability) in combinatie met een configuratie die veel te ingewikkeld was gemaakt. Om een voorbeeld te geven: daar was 1 PhD gewoon voltijds bezig met klanten te onboarden op dat systeem en dieje mens was voor 1 nieuwe klant daar bijna 1 volledige maand mee bezig: dus YAML-configuraties maken en dan trial en error om het werkend te krijgen. Software testing? Was allemaal niet nodig volgens hen, hoewel ik hen probeerde duidelijk te maken dat dat in hun geval echt wel zinvol was. Mijn constructieve raad op het vlak van programmeren werd veelal in de wind geslagen. Ik had immers geen PhD zoals hen, dus hoorde er toch niet echt bij. :wtf:

True story. In mijn eerste maanden daar was ook veel verloop in het data engineering team, later is mijn frank/euro pas beginnen vallen waarom...

En als die gegevens dan eenmaal in de database zaten, dan hadden ze eigenlijk niet veel meer dan een key-value met nog metadata, zoals datum en tijd. Vervolgens was er dan het team van "data scientists" (ook allemaal PhD's met vooral ervaring in MATLAB) bezig met het maken van berekeningen, maar dat waren bijna altijd gewoon week- en maandgemiddelden. Allemaal gegevens die wel wat value hadden voor die productieprocessen, maar echt revolutionair was het allemaal toch ook niet... Terwijl er op hun website gegoocheld wordt met woordjes als "AI" en "machine learning", maar eigenlijk was het gewoon maar dashboards maken voor klanten met week- en maandgemiddelden.

En ik vrees dat het bij veel "revolutionaire" bedrijven in deze tak van de IT-sector wel zo is. Allez, dat is toch de perceptie die ik heb na mijn 1 jaar ervaring als "data engineer". Maar de echte experten hier die er veel langer inzitten of hebben gezeten als mij zullen mij misschien ook wel wat kunnen tegenspreken vermoed ik.

En in die reporting/dashboarding zit zeker value voor klanten, dat wil ik helemaal niet ondermijnen, maar vrees dat het ook vaak verpakt wordt als "AI/machine learning" terwijl dat nog iets helemaal anders is...

anders. · 2 februari 2022

Timboektoe zei:
Ik werk zelf nu zo'n 12 jaar in de IT-sector, voor het grootste deel als software engineer in Java/Kotlin/JavaScript en ook een goeie 3 jaren lang als Python-ontwikkelaar.

Dankzij die laatste ervaring was het mij ook ooit gelukt om een project te doen als "data engineer": dus deel uitmaken van een team dat ruwe data transformeert naar een database om dan vervolgens value te halen uit die gegevens voor industriële productieprocessen. "ETL" wordt dat ook wel eens genoemd.

Ik was initieel heel enthousiast en omdat het team voor 80% bestond uit PhD's, dacht ik: wow, hier ga ik superveel van bijleren! Maar dat sloeg in de praktijk echt wel tegen... Daar werd Apache Airflow gebruikt, wat volgens mij helemaal niet de geschikte tool was voor hun use case (qua scalability) in combinatie met een configuratie die veel te ingewikkeld was gemaakt. Om een voorbeeld te geven: daar was 1 PhD gewoon voltijds bezig met klanten te onboarden op dat systeem en dieje mens was voor 1 nieuwe klant daar bijna 1 volledige maand mee bezig: dus YAML-configuraties maken en dan trial en error om het werkend te krijgen. Software testing? Was allemaal niet nodig volgens hen, hoewel ik hen probeerde duidelijk te maken dat dat in hun geval echt wel zinvol was. Mijn constructieve raad op het vlak van programmeren werd veelal in de wind geslagen. Ik had immers geen PhD zoals hen, dus hoorde er toch niet echt bij. True story. In mijn eerste maanden daar was ook veel verloop in het data engineering team, later is mijn frank/euro pas beginnen vallen waarom...

En als die gegevens dan eenmaal in de database zaten, dan hadden ze eigenlijk niet veel meer dan een key-value met nog metadata, zoals datum en tijd. Vervolgens was er dan het team van "data scientists" (ook allemaal PhD's met vooral ervaring in MATLAB) bezig met het maken van berekeningen, maar dat waren bijna altijd gewoon week- en maandgemiddelden. Allemaal gegevens die wel wat value hadden voor die productieprocessen, maar echt revolutionair was het allemaal toch ook niet... Terwijl er op hun website gegoocheld wordt met woordjes als "AI" en "machine learning", maar eigenlijk was het gewoon maar dashboards maken voor klanten met week- en maandgemiddelden.

En ik vrees dat het bij veel "revolutionaire" bedrijven in deze tak van de IT-sector wel zo is. Allez, dat is toch de perceptie die ik heb na mijn 1 jaar ervaring als "data engineer". Maar de echte experten hier die er veel langer inzitten of hebben gezeten als mij zullen mij misschien ook wel wat kunnen tegenspreken vermoed ik. En in die reporting/dashboarding zit zeker value voor klanten, dat wil ik helemaal niet ondermijnen, maar vrees dat het ook vaak verpakt wordt als "AI/machine learning" terwijl dat nog iets helemaal anders is...

Ik heb exact hetzelfde gevoel hoor. In praktijk zie je de echte AI/ML projecten zelden voorbij een POC fase geraken en wordt er heel veel basis statistiek verpakt als zijnde "data science".
Komt ook voor een stuk omdat de bedrijfscultuur totaal niet is aangepast op ML he. Ik ken persoonlijk bijna geen enkele manager die genoegen neemt met als antwoord "daarom..." op de vraag "maar waarom zegt dat systeem nu x?". En dat is nu eenmaal het enige antwoord dat je kan geven bij machine learning. Wij hebben hier zo een POC gehad, en die is uiteindelijk gewoon teruggefloten omdat ze niet konden aantonen waarom een bepaald resultaat daar nu uit kwam...

Nu is Airflow ook geen ETL tool maar een scheduler

. Dus als ze dat wouden gebruiken om ETL mee te doen, dan is scalability niet hun enige probleem...

VijfEnZeventig · 2 februari 2022

Jullie maken me wat 'bang' / temperen m'n verwachtingen naar wanneer ik start in sept als data scientist. Dat is op zich wel niet slecht want dan kan ik het relativeren wanneer (dus zeker niet als) ik in zo'n omgeving terecht kom.

Op zich heb ik óók wel projecten gehoord van vrienden die al lang in de sector werken gehoord over projecten die een succes waren waar 'echte' machine learning gebruikt werd. Dingen zoals bvb. defecte goederen op een band sorteren zodat ze niet meer manueel nagekeken moeten worden. Als thesis en stage werk ik ook op iets waar modellen worden gebruikt voor sales forecasting en het ook daadwerkelijk in productie staat, de ROI wordt hier van bijgehouden en het is een stuk beter dan wat er tevoren gedaan werd.

Het lijkt me dus dat deze projecten wellicht in de minderheid zijn, maar er toch wel hier en daar opportuniteiten zijn?

anders. zei:
Ik ken persoonlijk bijna geen enkele manager die genoegen neemt met als antwoord "daarom..." op de vraag "maar waarom zegt dat systeem nu x?". En dat is nu eenmaal het enige antwoord dat je kan geven bij machine learning.

Dit klopt wel niet helemaal. Er zijn genoeg modellen waar je eenvoudig kan zien hoe de beslissingen worden gemaakt. Het model is vaak gewoon iets in de vorm y= B0 + B1X1+ B2X2 + ... + BnXn dus als management inzicht wil krijgen in hoe zoiets nu werkt kan je dit op een eenvoudige manier uitleggen en tonen. Andere algoritmes leren als het ware als-dan regels dus dat krijg je ook gewoon perfect uitgelegd, ook de procedure hoe ze tot dat die regels/formule komen. Zo pak ik het ook aan momenteel, het is volgens mij even interessant om een accurate forecast te hebben voor bvb. Valentijn, maar ook om te weten wat het effect op de sales van zo'n feestdag nu werkelijk is.

Er zijn idd ook alternatieven waar je het niet zo eenvoudig uitgelegd krijgt, maar die zou ik persoonlijk niet gebruiken als ik weet dat mijn manager/collega's daar belang aan hechen.

anders. · 2 februari 2022

VijfEnZeventig zei:
Dit klopt wel niet helemaal. Er zijn genoeg modellen waar je eenvoudig kan zien hoe de beslissingen worden gemaakt. Het model is vaak gewoon iets in de vorm y= B0 + B1X1+ B2X2 + ... + BnXn dus als management inzicht wil krijgen in hoe zoiets nu werkt kan je dit op een eenvoudige manier uitleggen en tonen. Andere algoritmes leren als het ware als-dan regels dus dat krijg je ook gewoon perfect uitgelegd, ook de procedure hoe ze tot dat die regels/formule komen.

Er zijn idd ook alternatieven waar je het niet zo eenvoudig uitgelegd krijgt, maar die zou ik persoonlijk niet gebruiken als ik weet dat mijn manager/collega's daar belang aan hechen.

Dat is gewoon regressie, en dus geen machine learning (dat is gewoon gebasseerd op uw historische data). Het punt van machine learning, is net dat de machine zelf leert en bijgevolg kan je dus onmogelijk nog weten wat de "logica" achter een beslissing is.

VijfEnZeventig · 2 februari 2022

anders. zei:
Dat is gewoon regressie, en dus geen machine learning (dat is gewoon gebasseerd op uw historische data). Het punt van machine learning, is net dat de machine zelf leert en bijgevolg kan je dus onmogelijk nog weten wat de "logica" achter een beslissing is.

Verkeerd of niet, regressie wordt gezien als een vorm van machine learning. Alles onder de vorm van een 'functie' vinden in de vorm y = f(x) dmv. historische data is machine learning.

Wat jij omschrijft valt eigenlijk onder een subcategorie van machine learning (reinforcement learning) en daar kan je idd moeilijk de logica vinden van hoe ze tot dat antwoord komen.

EDIT: hier is al veel discussie over gevoerd, zie deze link.

anders. · 2 februari 2022

VijfEnZeventig zei:
Verkeerd of niet, regressie wordt gezien als een vorm van machine learning. Alles onder de vorm van een 'functie' vinden in de vorm y = f(x) dmv. historische data is machine learning.

Wat jij omschrijft valt eigenlijk onder een subcategorie van machine learning (reinforcement learning) en daar kan je idd moeilijk de logica vinden van hoe ze tot dat antwoord komen.

En dat is dus exact het "probleem" in de sector nu. Als je regressie onder machine learning gaat plaatsen, dan is half België een data scientist in wording. Regressie is basis-statistiek die je in Excel kan uitvoeren en letterlijk in zowat elke universitaire opleiding ziet. Dan krijg je dus PhD's die niks anders doen gemiddeldes berekenen als "data scientist"

Edit: hetzelfde zie je bij "big data" bvb. Hoeveel klanten ik al wel niet gezien heb waar ze volgens hun "big data" hebben, omdat ze miljoenen records hebben...

Lulplayer · 2 februari 2022

Als je een regressie programmeert met automatische variable selection je laat het voorspellingen doen en het resultaat van die voorspellingen wordt dan automatisch toegevoegd aan de traindata, het model doet een update uit zichzelf en zo voort.

Is dat dan machine learning ?

anders. · 2 februari 2022

Lolplayer zei:
Als je een regressie programmeert met automatische variable selection je laat het voorspellingen doen en het resultaat van die voorspellingen wordt dan automatisch toegevoegd aan de traindata, het model doet een update uit zichzelf en zo voort.

Is dat dan machine learning ?

Ja

DogFacedGod · 2 februari 2022

anders. zei:
Komt ook voor een stuk omdat de bedrijfscultuur totaal niet is aangepast op ML he. Ik ken persoonlijk bijna geen enkele manager die genoegen neemt met als antwoord "daarom..." op de vraag "maar waarom zegt dat systeem nu x?". En dat is nu eenmaal het enige antwoord dat je kan geven bij machine learning. Wij hebben hier zo een POC gehad, en die is uiteindelijk gewoon teruggefloten omdat ze niet konden aantonen waarom een bepaald resultaat daar nu uit kwam...

De Fransen noemen dat "une usine à gaz"

Managers hebben dat niet graag.

VijfEnZeventig · 2 februari 2022

anders. zei:
En dat is dus exact het "probleem" in de sector nu. Als je regressie onder machine learning gaat plaatsen, dan is half België een data scientist in wording. Regressie is basis-statistiek die je in Excel kan uitvoeren en letterlijk in zowat elke universitaire opleiding ziet. Dan krijg je dus PhD's die niks anders doen gemiddeldes berekenen als "data scientist"

Als laatste bijdrage aan deze discussie: je hebt hier eigenlijk 80 % gelijk in, maar er ontbreekt toch wat nuance.

Bij een goede regressie toch wel wat meer komt kijken dan de basics die je in Excel doet bvb. reguralisatie, collineariteit, welke metric je gebruikt, hoe je omgaat met seizoensgebondenheid, hoe je omgaat met andere niet-lineare verhoudingen, hoe je het model evalueert (je wilt immers niet met nonsense naar productie gaan) etc.

Als je net als in mijn geval data hebt dat niet in je werkgeheugen past moet je ook kijken naar strategieën om hier mee om te gaan. Sure, met spark gaat zoiets wel, maar de bazen gaan niet blij zijn met de rekening ontvangen van de cloudprovider als je hier niet voldoende over nadenkt.

In mijn geval heb ik 15000 product combinaties dat elks een forecast nodig hebben. Bij sommigen kan je echt gewoon gemiddeldes berekenen en gebruiken, maar bij anderen echt gewoon niet. Een 'normale' regressie volstaat ook niet bij producten waar je een sterk seizoenseffect hebt. Je moet ook nadenken over wat je doet met nieuwe SKU's, hoe kleef je daar een voorspelling op? Ga je voor elks van die 15000 onderzoeken welke wel of niet gewoon gemiddeldes kunnen gebruiken en dat vervolgens manueel doen?

Ik wil benadrukken dat het geen avance heeft om het veel te ver te zoeken als het niet moet, als gemiddeldes lukken dan doe je da toch gewoon? Voor situaties waar je toch meer 'power' voor nodig hebt is het toch wel aangewezen dat je iemand met de nodige expertise hebt?

Lolplayer zei:
Als je een regressie programmeert met automatische variable selection je laat het voorspellingen doen en het resultaat van die voorspellingen wordt dan automatisch toegevoegd aan de traindata, het model doet een update uit zichzelf en zo voort.

Dit is ook machine learning maar zeer gevaarlijk aangezien je 'error propagation' hebt. Er zit een foutmarge op de eerste voorspelling die je dan meeneemt naar de volgende enzovoort. Tegen dat je ronde 10 gedaan hebt is het gans naar de kloten. :rofl:

anders. · 2 februari 2022

VijfEnZeventig zei:
Als laatste bijdrage aan deze discussie: je hebt hier eigenlijk 80 % gelijk in, maar er ontbreekt toch wat nuance.

Bij een goede regressie toch wel wat meer komt kijken dan de basics die je in Excel doet bvb. reguralisatie, collineariteit, welke metric je gebruikt, hoe je omgaat met seizoensgebondenheid, hoe je omgaat met andere niet-lineare verhoudingen, hoe je het model evalueert (je wilt immers niet met nonsense naar productie gaan) etc.

Als je net als in mijn geval data hebt dat niet in je werkgeheugen past moet je ook kijken naar strategieën om hier mee om te gaan. Sure, met spark gaat zoiets wel, maar de bazen gaan niet blij zijn met de rekening ontvangen van de cloudprovider als je hier niet voldoende over nadenkt.

In mijn geval heb ik 15000 product combinaties dat elks een forecast nodig hebben. Bij sommigen kan je echt gewoon gemiddeldes berekenen en gebruiken, maar bij anderen echt gewoon niet. Een 'normale' regressie volstaat ook niet bij producten waar je een sterk seizoenseffect hebt. Je moet ook nadenken over wat je doet met nieuwe SKU's, hoe kleef je daar een voorspelling op? Ga je voor elks van die 15000 onderzoeken welke wel of niet gewoon gemiddeldes kunnen gebruiken?

Ik wil benadrukken dat het geen avance heeft om het veel te ver te zoeken als het niet moet, als gemiddeldes lukken dan doe je da toch gewoon? Voor situaties waar je toch meer 'power' voor nodig hebt is het toch wel aangewezen dat je iemand met de nodige expertise hebt?

Dit is ook machine learning maar zeer gevaarlijk aangezien je 'error propagation' hebt. Er zit een foutmarge op de eerste voorspelling die je dan meeneemt naar de volgende enzovoort. Tegen dat je ronde 10 gedaan hebt is het gans naar de kloten.

Hier beschrijf je eigenlijk een 2e probleem dat zich stilaan in de sector aan het vormen is. Ik gok dat 90% van de bedrijven amper meerwaarde haalt uit "echte" data science en eigenlijk gewoon voldoende heeft met wat gemiddeldes en counts. Een voorbeeld hiervan is dat hier (officieel) uit "een moeilijke analyse" is gebleken dat bvb mensen op vluchten naar Dubai, veel alcohol kopen. Dat is niet "uit een moeilijke analyse" he, dat is gewoon een grafiek lezen...

Idem voor het forecasten van wachtrijen aan metaaldetectors. Je weet hoeveel vluchten er gepland staan, je weet hoeveel passagiers daarvoor gaan komen, en hoe lang op voorhand ze er moeten zijn. Je kan dat forecasten door een simpele berekening he. Dat kan preciezer als je véél meer factoren in rekening gaat nemen, maar in praktijk kom je aardig in de buurt door simpel te rekenen.

En dan krijg je dus mensen met veel capaciteiten, die een "apenjob" moeten uitvoeren en een enorm verloop omdat ze nooit de uitdaging vinden die ze gehoopt hadden.

VijfEnZeventig · 2 februari 2022

anders. zei:
ik gok dat 90% van de bedrijven amper meerwaarde haalt uit "echte" data science en eigenlijk gewoon voldoende heeft met wat gemiddeldes en counts

Dit klopt zoals ik zei in m'n eerste comment wellicht wel. Ik ben ook fan van met het simpelste te beginnen, als het hiermee kan, dan zei het zo. Als bijna startende junior hoop ik dus dat ik veel van het andere 10 % mag meemaken waar mijn opleiding/kennis wel het verschil maakt. Dat is het meest logische voor zowel mezelf als het bedrijf in kwestie.

anders. zei:
En dan krijg je dus mensen met veel capaciteiten, die een "apenjob" moeten uitvoeren en een enorm verloop omdat ze nooit de uitdaging vinden die ze gehoopt hadden.

Dit is not my hill to die on dus als het tegensteekt doe ik gewoon iets anders na een paar jaar.

Wil nog eens benadrukken dat ik jouw insteek hierin enorm apprecieer, want alles wat ik gezien/gehoord heb anecdotisch is tov de jaren waar jij effectief in de dataindustrie zit.

Pieterjan94 · 2 februari 2022

anders. zei:
Hier beschrijf je eigenlijk een 2e probleem dat zich stilaan in de sector aan het vormen is. Ik gok dat 90% van de bedrijven amper meerwaarde haalt uit "echte" data science en eigenlijk gewoon voldoende heeft met wat gemiddeldes en counts. Een voorbeeld hiervan is dat hier (officieel) uit "een moeilijke analyse" is gebleken dat bvb mensen op vluchten naar Dubai, veel alcohol kopen. Dat is niet "uit een moeilijke analyse" he, dat is gewoon een grafiek lezen...

Ik vind dit eerlijk gezegd nogal dubbel. Uit eenvoudige gemiddeldes en counts kunnen sommige businesses al zeer veel waarde halen.
Als ik sommige bedrijven zie marketen over het gebruik van data en artificiele intelligentie, dan lijkt mij het een groter probleem dat het meer een doel op zich lijkt, in plaats van een middel tot een doel. Zeer veel sectoren of bedrijfstakken komen van niets, de implementatie van AI of geavanceerde modellen staat dan gelijk aan willen lopen nog voor je wilt kruipen. Maturiteit van uw data/ITdepartement en dergelijke is iets wat hier regelmatig is aangehaald, maar dat van je management is daarbij minstens even belangrijk. Een manager die bij wijze van spreken amper heeft moeten nadenken over het verschil tussen gemiddelde en mediaan hoef je niet meteen lastig te vallen met machine learning

VijfEnZeventig zei:
Jullie maken me wat 'bang' / temperen m'n verwachtingen naar wanneer ik start in sept als data scientist. Dat is op zich wel niet slecht want dan kan ik het relativeren wanneer (dus zeker niet als) ik in zo'n omgeving terecht kom.

Op zich heb ik óók wel projecten gehoord van vrienden die al lang in de sector werken gehoord over projecten die een succes waren waar 'echte' machine learning gebruikt werd. Dingen zoals bvb. defecte goederen op een band sorteren zodat ze niet meer manueel nagekeken moeten worden. Als thesis en stage werk ik ook op iets waar modellen worden gebruikt voor sales forecasting en het ook daadwerkelijk in productie staat, de ROI wordt hier van bijgehouden en het is een stuk beter dan wat er tevoren gedaan werd.

Laat het je gewoon wat overkomen. Wat ik me wel afvraag: wat verwacht je uit je job te halen? Is het je zuiver te doen om het ontwikkelen van modellen en het creëren van AI? Als dat het belangrijkste voor je is in je job, dan kan het denk ik af en toe wel tegenvallen - zoals wel vaker vermeld hier - maar als dat geen doel op zich is voor jou: gewoon ontdekken.

VijfEnZeventig · 2 februari 2022

anders. zei:
Laat het je gewoon wat overkomen. Wat ik me wel afvraag: wat verwacht je uit je job te halen? Is het je zuiver te doen om het ontwikkelen van modellen en het creëren van AI? Als dat het belangrijkste voor je is in je job, dan kan het denk ik af en toe wel tegenvallen - zoals wel vaker vermeld hier - maar als dat geen doel op zich is voor jou: gewoon ontdekken.

Neen, ik heb destijds gekozen om een schakel + master(s) te doen omdat ik 'alles' wou kunnen ivm. data. Als het project enkel counts/gemiddeldes vraagt, dan zei het zo en steekt het me niet tegen. Als het project iets 'meer' kan gebruiken dan wil ik dat ook kunnen, dat was vnl de insteek. Het zou voor mij dus gewoon een zonde zijn als alle projecten in de eerste categorie zouden vallen want dan waren de verdere studies, naast de persoonlijke ontwikkeling en extra kennis, voor niks.

Als ik mensen spreek dat aan de slag zijn bij het bedrijf zijn waar ik ga starten is dit het geval, ze hebben weldegelijk een mooie portfolio aan AI projecten, maar dat wil natuurlijk niet zeggen dat ze niet allemaal showpaarden zein met een negatieve ROI. Gewoon afwachten en zien dus.

Parseval · 2 februari 2022

Ik werk nu ~6j als data scientist en ik kan wel bevestigen wat hier leeft: de termen AI / machine learning zijn gewoon heel vaak verkoopspraatjes. Het is nu eenmaal een feit dat AI voor veel mensen sexy klinkt en als magie lijkt. Al vaker meegemaakt dat een product als deep learning-based beschreven wordt en niet meer is dan een resem if-regeltjes of eens een regressiemodel. "Wow dit werkt echt goed!" krijg je dan te horen, tjah...

Genoeg jobs als je je vooral met "echte" machine learning wilt bezighouden he, maar ik vraag me dan wel af hoevaak er iets van waarde wordt opgeleverd (lees: in productie).

Timboektoe · 2 februari 2022

VijfEnZeventig zei:
Jullie maken me wat 'bang' / temperen m'n verwachtingen naar wanneer ik start in sept als data scientist. Dat is op zich wel niet slecht want dan kan ik het relativeren wanneer (dus zeker niet als) ik in zo'n omgeving terecht kom.

Op zich heb ik óók wel projecten gehoord van vrienden die al lang in de sector werken gehoord over projecten die een succes waren waar 'echte' machine learning gebruikt werd. Dingen zoals bvb. defecte goederen op een band sorteren zodat ze niet meer manueel nagekeken moeten worden. Als thesis en stage werk ik ook op iets waar modellen worden gebruikt voor sales forecasting en het ook daadwerkelijk in productie staat, de ROI wordt hier van bijgehouden en het is een stuk beter dan wat er tevoren gedaan werd.

Het lijkt me dus dat deze projecten wellicht in de minderheid zijn, maar er toch wel hier en daar opportuniteiten zijn?

Ik wil u helemaal niet "bang" maken, maar mijn verhaal is wel hoe ik het toen ervaren heb. En niks tegen PhD's, maar degenen waarmee ik toen heb samengewerkt hebben dan 10 jaar van hun volwassen leven op de unief doorgebracht en zijn daarna in het bedrijfsleven gestapt. Dan moet je ook een klik maken als je in de rol van data/software engineer terecht komt in een bedrijfsomgeving i.p.v. een unief met toch meer "vrijblijvende" sfeer. Als je schrik hebt om dingen in productie te zetten en als je een maand bezig bent met in YAML files te liggen kloten met trial en error om een nieuwe klant te onboarden op het systeem, dan moet je eens heel kritisch naar uw codebase en bedrijfsprocessen durven kijken en dingen aanpassen i.p.v. maar aan te modderen. Ga dan aan de slag met constructieve feedback van mensen die de pijnen als eens gevoeld hebben en spreken uit ervaring i.p.v. te denken dat je het altijd bij het rechte eind hebt, puur omdat je "langer naar school" bent gegaan. Software schrijven is uiteindelijk iets heel "ambachtelijk" en je gaat daar alleen maar beter in worden door veel te "doen".

De data scientists daar waren trouwens ook wel gedeeltelijk bezig met "zelflerende modellen", maar zeiden ook dat ze nog JAREN verwijderd waren van zinvol machine learning, simpelweg omdat de gegevens van klanten nog te "flawed" waren. Dus zoals het hier nog eens gezegd is door anderen: data scientists wel effectief bezig met machine learning / AI, maar met kleine kans dat het ooit in productie komt.

Na dat jaar, heb ik trouwens nog opnieuw gezocht naar een project als "data engineer" en kon uiteindelijk starten bij KBC en Collibra. Maar mijn gut feeling vertelde mij toen dat de "data industry" niet de wereld was waar ik op lange termijn in wilde terecht komen en ben toen terug aan de slag gegaan als "gewone" backend developer, waar ik tot op heden nog altijd geen spijt van heb gehad.

En gelijk veel jobs in IT, ga je soms wel eens "werk onder uw niveau" moeten doen hoor. Dat beperkt zich niet enkel tot hooggeschoolde PhD's die ocharme heel de dag in Excel bezig zijn als "data scientist". Ik heb in de voorbije 12 jaar ook soms wel unsexy "code monkey werk" moeten doen waar ik gek van werd en mij afvroeg waar ik in godsnaam mijn dagen mee moest vullen. :biglaugh:

Maar dat hoort er gewoon soms eens bij in veel (IT-)jobs.

Lulplayer · 3 februari 2022

VijfEnZeventig zei:
Dit is ook machine learning maar zeer gevaarlijk aangezien je 'error propagation' hebt. Er zit een foutmarge op de eerste voorspelling die je dan meeneemt naar de volgende enzovoort. Tegen dat je ronde 10 gedaan hebt is het gans naar de kloten.

Hier is wel rekening mee gehouden

Het was een text classificatie probleem en uit de eerste run bleek dat al de voorspellingen met meer dan xx% kans toebehorende tot een bepaalde categorie allemaal juist waren, voorspellingen met xx+x% kans werden dan toegevoegd aan de train set.

De onzekere voorspellingen werden terug in de test set gesmeten, samen met nieuwe vrijgekomen data.

Daarna werd model hertraind op de iets grotere set en herhaalde het proces zich dan automatisch.

Sparrowhawk · 4 februari 2022

anders. zei:
En dat is dus exact het "probleem" in de sector nu. Als je regressie onder machine learning gaat plaatsen, dan is half België een data scientist in wording. Regressie is basis-statistiek die je in Excel kan uitvoeren en letterlijk in zowat elke universitaire opleiding ziet. Dan krijg je dus PhD's die niks anders doen gemiddeldes berekenen als "data scientist"

Edit: hetzelfde zie je bij "big data" bvb. Hoeveel klanten ik al wel niet gezien heb waar ze volgens hun "big data" hebben, omdat ze miljoenen records hebben...

Ik vind net dat deze ingesteldheid een probleem is in de sector. :tongue:

"Data Science" is tegenwoordig een heel brede term, en beslaat gewoon het intelligent gebruiken van data om ergens belangrijke inzichten / voorspellingen / recommendations / ... te bekomen. Sommige aspecten daarvan kunnen inderdaad vaak onder de noemer "Data Analytics" ofzo ondergebracht worden. Maar in mijn mening is het doel 'simpele 'gemiddeldes berekenen, regressies doen, klassieke machine learning, deep learning... hetzelfde, enkel met een verschillende complexiteit. Heb als Data Scientist al problemen opgelost met technieken aan beide extremen van dat spectrum. :tongue:

Veel bedrijven zijn inderdaad niet klaar voor ML projecten, maar voor de meesten is dat op dit moment ook nog niet nodig. Ik verbaas me er van vaak hoeveel low-hanging fruit er nog is zonder dat er complexe dingen nodig zijn. Als je natuurlijk wel complexe dingen nodig hebt, moet je idd zorgen dat je geen zo'n data scientists aanneemt die enkel gemiddelden kunnen berekenen natuurlijk. :wink:

En over die regressie: Ik zie persoonlijk echt niet waarom dat geen machine learning zou zijn. Het bestond gewoon al lang voor dat machine learning cool werd. :smile:

Dat is intrinsiek toch exact hetzelfde als een neuraal netwerk? Je gebruikt een hoop training samples (/ historische data) om een aantal parameters te fitten in een functie, zodat je die functie later op nieuwe inputs kunt gaan toepassen. Het enige verschil lijkt me de complexiteit van die functies, maar fundamenteel is dat toch echt hetzelfde (met complexere functies moet je soms nog wat hyper-parameters tunen, maar ook dat is geen fundamenteel verschil lijkt me).

anders. · 4 februari 2022

Sparrowhawk zei:
Ik vind net dat deze ingesteldheid een probleem is in de sector. "Data Science" is tegenwoordig een heel brede term, en beslaat gewoon het intelligent gebruiken van data om ergens belangrijke inzichten / voorspellingen / recommendations / ... te bekomen. Sommige aspecten daarvan kunnen inderdaad vaak onder de noemer "Data Analytics" ofzo ondergebracht worden. Maar in mijn mening is het doel 'simpele 'gemiddeldes berekenen, regressies doen, klassieke machine learning, deep learning... hetzelfde, enkel met een verschillende complexiteit. Heb als Data Scientist al problemen opgelost met technieken aan beide extremen van dat spectrum. Veel bedrijven zijn inderdaad niet klaar voor ML projecten, maar voor de meesten is dat op dit moment ook nog niet nodig. Ik verbaas me er van vaak hoeveel low-hanging fruit er nog is zonder dat er complexe dingen nodig zijn. Als je natuurlijk wel complexe dingen nodig hebt, moet je idd zorgen dat je geen zo'n data scientists aanneemt die enkel gemiddelden kunnen berekenen natuurlijk.

En over die regressie: Ik zie persoonlijk echt niet waarom dat geen machine learning zou zijn. Het bestond gewoon al lang voor dat machine learning cool werd. Dat is intrinsiek toch exact hetzelfde als een neuraal netwerk? Je gebruikt een hoop training samples (/ historische data) om een aantal parameters te fitten in een functie, zodat je die functie later op nieuwe inputs kunt gaan toepassen. Het enige verschil lijkt me de complexiteit van die functies, maar fundamenteel is dat toch echt hetzelfde (met complexere functies moet je soms nog wat hyper-parameters tunen, maar ook dat is geen fundamenteel verschil lijkt me).

Maar een neuraal netwerk is evengoed geen machine learning, maar data mining. Want wat "leert de machine" in dat geval?
Het punt is vooral dat het meesten van wat de bedrijven in België uitsteken met data, ze al 15-20 jaar hetzelfde doen. Dat is al verschillende keren van naam veranderd (data mining, data analytics, data science, business intelligence, data intelligence, big data, ...), maar het komt er nog altijd op quasi dezelfde basis-analyses uit (clustering, decision trees, neural networks, ...). Maar het enige dat ze allemaal niet zijn, is machine learning. Want Machine Learning is (imo) het feit dat de machine zelf iets leert en zich aanpast om het volgende keer beter te doen. Dat wil dus iets anders zeggen dan "meer doen dan enkel de parameters opnieuw te berekenen met meer data".

Data industry: trend of fad?

Member

Well-known member

Well-known member

Member

Well-known member

Member

Well-known member

Well-known member

Well-known member

Well-known member

Member

Well-known member

Member

Well-known member

Member

New member

Well-known member

Well-known member

New member

Well-known member