HelloWorld logo
28.09.2023. ·
10 min

Kako da učite Data Science? (2) Formalno obrazovanje ili ne?

HelloWorld

Evo nas na vreme za moje drugo izdanje Data Science Letters. Nastavljamo sa diskusijom o tome kako ući u Data Science i postati profesionalac u njoj, koje su pretpostavke, kakav background je poželjan, šta i koliko treba da učimo, na koji način da razmišljamo i kako sebe da dodatno motivišemo. U ovom izdanju, kao što sam obećao, hoću da se pozabavim pitanjem koje danas postaje sve zanimljivije i zanimljivije: da li nam je potrebno formalno obrazovanje i koliki je značaj naših akademskih titula za rad u Data Science?

Kao što sam naglasio već u prvom izdanju ovog newsletter-a: mnogobrojni su i čudni putevi gospodnji, a vi čitate o samo jednom od njih. Autorovo lično iskustvo je neraskidivo od onoga što on piše i načina na koji razmišlja, tako da dok čitate ovo molim vas držite na umu da ja mogu da vam dam samo deo mogućeg iskustva, samo jednu perspektivu - onu koju sam sam stvorio i iz koje vidim stvari. Oslanjam se na to da posle decenija kontinuiteta u poslu koji je evoulirao iz StatisticsQuantitative AnalyticsData Mining u Big DataData Science, i Machine Learning možda mogu da pokušam da izvedem neke generalizacije, ali obećavam vam da ću to činiti veoma oprezno. Morate da čitate šta piše više ljudi, da razgovarate sa više ljudi, i po mogućstvu da probate da radite sa mnogima kako biste doneli zaključke za sebe.

Hajde ovako: hoćete da uđete u Data Science jednog dana ozbiljno, niste naučnik, niste inženjer, imate interesovanja za analizu paterna različitih podataka, pomalo ste enciklopedista, hoćete i volite da programirate, ne bežite od matematike, fasciniraju vas vizuelizacije podataka i voleli biste da naučite kako se prave - pa, vidim vas narednih šest meseci na Google Data Analytics Professional Certificate programu na Coursera za svih $39 mesečno. U Google neće imati problem da razmatraju vašu aplikaciju za posao ako im umesto fakultetske diplome donesete ovakav sertifikat, ona čak ima i ustanovljen ekvivalent vrednosti u kreditima akademskih programa! Ovaj sertifikovani program je razvijen za uvodni nivo analitike podataka i oslanja se (naravno) na programski jezik R. Šta tek reći za poznatu Data Science Specialization u programskom jeziku R koju Johns Hopkins University već godinama nudi na Coursera: to ko prođe, i stvarno zna sve se što se tamo razmatra, ozbiljan je igrač na više zamislivih pozicija u Data Science. Ako mislite da sam sada ciničan i da kao doktor nauka gajim neku distancu prema obrazovanju putem kurseva: već dve godine, za polaznike iz Srbije i inostranstva, držim Data Science Sessions, sada već seriju šestomesečnih kurseva za Data Science u programskom jeziku R, i garantujem vam da ako to možete da prođete, naučite i izvežbate sve što je tim kursom pokriveno, ne vidim kako ne biste bili spremni za ma koju entry-level poziciju na tržištu (kurs je i planiran tako da zadovolji kriterijume koji se najčešće traže na entry-level pozicijama, dok pokriva i nešto više zanata od tog nivoa).

Ok: jel' može to bez diplome neke STEM oblasti - može. Da vidimo zašto kursevi i programi rade i do koje mere.

Zašto kursevi i obrazovni programi van akademije rade?

Razlog je pre svega u tome što rad u Data Science zahteva praktičara - čoveka koji je u stanju da stvari koje uči i zna primenjuje na neposredne probleme, da izručuje rešenja, po čemu je disciplina uporediva (doslovce ovo mislim) sa zanatima i primenjenim umetnostima. Drugim rečima - i o ovome ćemo imati posebno izdanje newsletter-a uskoro - da li čovek mora da razume precizno, duboko i detaljno kako rade npr. optimizacioni algoritmi da bi mogao da oceni neki ML model - ne, ne mora. Pogotovo sa savremenim sredstvima za razvoj modela u Data Science, njihovu evaluaciju i serviranje u produkciona okruženja, apstrakcija od detalja takvih stvari je toliko visoka da ja mislim da neko treba da bude svestan toga (1) šta su optimizacioni algoritmi, (2) u načelu šta će pokušati da urade tj. koji problem da reše, (3) kako se oni odnose prema modelu koji se razmatra, i (4) na osnovu čega možemo da znamo da li je takav algoritam - ključan u svakom statističkom učenju - problem rešio uspešno na nekim podacima, ili nije. Više od toga treba da zna osoba koja će razvijati nove matematičke modele i suočiti sa problemom koji optimizacioni algoritam te modele može da oceni na podacima i kako ga implementirati, i to je mahom research koji se odvija u okvirima akademije ili sve češće u kompanijama kojima je research od ključnog značaja za proizvode (GoogleFacebook i ekipa, rekao bih, odavno po tom pitanju šiju istraživanja na univerzitetima u Data Science i ML).  Ako hoćete to da radite (što sam ja radio do neke 2013 godine) - prvo, to i nije Data Science (može da se zove tako, ako hoćete, ali ona je primenjena, ne fundamentalna oblast) već doslovce fundamentalno istraživanje u matematici, nekoj empirijskoj nauci, i inženjeringu, drugo - za te stvari, lepo faks, pa Phd, godine laboratorijskog rada, i onda.

Data Scientist čiji je posao neposredna primena modela statističkog učenja na određene podatke u svrhu rešavanja (nadamo se) dobro definisanog poslovnog problema uopšte ne mora da ima taj nivo obrazovanja da bi svoj posao radio dobro - pod uslovom da se matematike nije baš bojao toliko da nije nikad ni razumeo šta su optimizacije, čemu služe, okvirno kako rade, i ponovo, najvažnije: kako da znamo da li su nam problem rešile, ili nisu, u nekom konkretnom slučaju. Izabrao sam pitanje optimizacije samo kao primer; ima tu pregršt matematičkih i tehničkih detalja preko kojih je moguće apstrahovati, ponovo ukoliko se razume, odgovorno, čemu služe, šta rade, i kako njima bezbedno rukovati. Zbog ove razlike, kursevi za one koji hoće da uče i zagrizu rade.

Gde su granice, koliki nivo znanja je neophodan?

Primer.

  • Da li bih zaposlio nekoga kao Data Scientist a da ne zna da objasni kako Gradient Boosting optimizuje seriju drveta odlučivanja i objasni mi algoritam do detalja, bihzaposlio bih gaako zna da mi objasni: sve indikatore performanse (evaluaciju) tog modela (komplentu ROC analizu i izvedene metrike), da uradi njegovu kros-validaciju i tjunuje parametre u selekciji modela.
  • Da li bih zaposlio nekoga u Data Science ko ne razume ili ne zna u ggplot2 ili matplotlib da mi nacrta površinu greške prostog linearnog regresionog modela za određene podatke i pokaže mi prstom tačku koju bi optimizacija trebalo da otkrije, ili ne zna da mi objasni šta je MLE za tek Binomijalni Logistički Regresioni model - ne, ne bih ga zaposlio.

Rezon je:

  • osobi koja zna ono prvo, to znanje neće mnogo pomoći u rešavanju neposrednih problema i učestvovanju u razvoju proizvoda ili usluga na osnovu njih (iako će ona sigurno biti sigurnija, samopouzdanija u svom radu - što i te kako vrednujem), dok
  • osoba koja ne zna ono drugo ima sve šanse da slupa matematički model koji trenira u neki jarak (poznato još i kao: lokalni minimum :) i vrati neoptimalne rezultate, što je naravno pogubno po rešavanje ma kog problema, fundamentalnog ili primenjenog svejedno.

Moji kursevi, na primer upravo Data Science Sessions u R (a uskoro će biti ponuđen i u Python), traže tačno ovu ravnotežu koju sam opisao. Ponovo: svaki stručnjak će verovatno imati svoje nijanse u pro et contra različitih pristupa, upoznao sam ljudi od onih koji misle da matematičko-tehnički detalji uopšte nisu bitni (i ti ljudi izvesno nisu u pravu) do onih koji ne bi zapošljavali u Data Science bez doktorata ni u ludilu (i niko od njih nije uspeo da mi odgovori na pitanje neposredne primene znanja takve dubine u realnim, svakodnevnim izazovima primene na tržištu).

Suštinska je razlika, po mom mišljenju, da li ljude školujemo za primenu, ili za razvoj i istraživanje; budimo zato svesni da je Data Science na tržištu primena, veoma retko razvoj i istraživanje. Moje stav u tome je: čovek za Data Science mora da razume principe, i to savršeno, ali ne mora da poznaje duboke detalje svakog algoritma koji će koristiti (jer ako poznaje opšte principe dobro - znaće i da odgovorno koristi ma koji model sa kojim bude radio). Da li za te principe čovek mora da završi studije i stekne akademske titule: moj odgovor je ne, njih je moguće koncizno i čak temeljno naučiti i u okviru kursa ili nekog dužeg obrazovnog programa.

Ali šta će nam onda...

Akademija

Ima to svoje:

(1) Na kursevima je teško steći domensku ekspertizu: uzmite dva odlična polaznika nekog temeljnog Data Science kursa, i budite sigurni da u poslovima procene rizika bolje prolazi onaj koji je studirao ekonomiju ili psihologiju od onog koji nije; empirijska intucija za fenomene koji se modeliraju u primeni se bolje i detaljnije razvija tokom višegodišnjih akademskih studija.

(2) Višegodišnje bavljenje nekom solidno matematizovanom, empirijskom naukom, što i dalje smatram najboljim načinom da se karijera nastavi u Data Science, je jednostavno nezamenljivo u tom smislu reči što vas vodi u najveću dubinu problematike matematičkog modeliranja u nekoj oblasti. Primer: neke 2012/13 valjda, pre nego što se odgovarajuća funkcija pojavila u jednom i sad verovatno u više R paketa, morao sam da ispišem na ruke kod za Voungov test kako bih poredio neugnježdene deskriptivne modele odlučivanja; dani su mi bili potrebni da se probijem kroz njegov naučni rad i budem siguran da nisam pogrešio negde u implementaciji. Drugi primer: ko nije video kanjone sa ravnim platoima u funkcijama verodostojnosti klase modela odlučivanja koju sam pomenuo, ne zna šta je pakao optimizacije, potpisujem. To iskustvo je zaista teško steći van konteksta fundamentalnog istraživanja.

(3) Akademske titule: Za to me je najmanje briga, odmah da kažem, ali dozvolite mi da vam prepričam staru anegdotu sa američkog univerziteta na kome sam završio prve dve godine mojih doktorskih studija. Rikruteri iz velikih kompanija, sa berze i sl, znaju par puta godišnje da navrate i organizuju predavanja postdiplomcima gde im objašnjavaju kako stvari rade u poslu, kakav je job market, šta se traži, kako to sve izgleda i sl. To je za doktorante, onako ošamućene od fundamentalnih istraživanja, ispita, i prosečnih pet do šest sati sna pa tako mesecima, prilično značajno. Nekom prilikom, čovek sa berze drži predavanje pred studentima (ako me sećanje služi) filozofije i antropologije. Završi se to, prilaze filozofi i antropolozi sa pitanjem čoveče dragi kakve blage veze mi imamo sa procenom rizika investicije i predikcijom vremenske serije fjučursa tih i tih, čovek odgovara: vidite, ko god da uđe u našu firmu, mi znamo koliko vremena treba da ga obrazujemo. Ne tražim ja ovde to, nego me interesuju ljudi koji su u stanju da prežive pet godina pakla doktorskih studija. To ko može - nema ničega što ga mi posle ne možemo naučiti da radi.

Tako da, da, ako mi neko donose solidan Phd i ide u Data Science, imaću poprilično više poverenja da uđem u saradnju sa njim nego sa nekim drugim. Ali to uopšte ne znači, kao što sam potencirao u ovom tekstu, da su akademske titule i formalno obrazovanje presudni. Presudno je kakav je čovek: ispite na svakom fakultetu, uključujući i doktorske studije, moguće je izlemati sa nekim ocenama, izvući neku tezu ovako ili onako, i poneti titulu. Šta je u umu, šta u srcu, a šta u prstima kad krene da se kodira, e to je pravo pitanje. Sve ostalo su znaci koji mogu i ne moraju da budu ključni. Manje me interesuje šta čovek zna (o čemu čovek govori), više me interesuje šta čovek može da uradi, a najmanje koja mu se skraćenica piše ispred imena. Ko hoće u Data Science sprema se na rad u oblasti koja ima direktne, merljive posledice: pomeriti projekat iz tačke A u tačku B, na vidljiv i objašnjiv način, je ono što se traži. Ko ima karakter za takav rad, taj ima i preduslove za ovu oblast.

Napiši komentar

Iz ove kategorije