Intervju - Dušan Popović i Vladimir Matić, data science stručnjaci
Da biste ušli u Data Science oblast za početak je dovoljno da posedujete analitički način razmišljanja i imate jaku bazu kvantitativnih znanja. Data Scientisti se neretko regrutuju iz klasičnih akademskih disciplina kao što su statistika, softverski inženjering, operaciona istraživanja, pa čak i teorijska fizika. Sve ostalo se vremenom nadograđuje, a resursi za edukaciju iz ove oblasti dostupniji su nego ikada.
U martu i aprilu, U Infostud Hub-u u Subotici, održaće se kurs Data Science bootcamp uz R koji će svim zainteresovanima za ovu oblast omogućiti da lakše zakorače u ovu profesiju. Kako bismo je bolje razumeli razgovarali smo sa data scientistima Dušanom Popovićem i Vladimirom Matićem.
Dušan je inžinjer koji ima preko devet godina analitičkog iskustva u medicini, finansijama, razvoju softvera i potrošačkoj industriji. On je ujedno i projekt menadžer sa bogatim iskustvom u razvoju i održavanju multidisciplinarnih i međunarodnih saradnji iz ove oblasti.
Vladimir Matić je master sa ETF-a u Beogradu i doktorant sa Univeziteta u Luvenu na temama upotrebe machine learning algoritama u medicinske svrhe. Sfera njegove naučne eksertize su mašinsko učenje-veštačka inteligencija, digitalna obrada (biomedicinskih) signala i automatika. Vodi data science tim na Singidum univerzitetu i uređuje sajt datahacker.rs
Oba naša sagovornika prošle godine bili su predavači na Sprint2DataScience kursu koji je održan u subotičkom InfostudHub-u.
Da Ii imate utisak da se promenilo nešto u Srbiji u oblasti DS-a u u zadnjih par godina?
Dušan: Poslovno sam znatno više vezan za Belgiju, tako da nemam potpunu sliku o stanju DS-a u Srbiji. Ono što mi je poznato je da već duže vreme veliki poslovni sistemi koji su tradicionalna uporišta ove oblasti (telekomunikacije, trgovinski lanci, banke...) imaju svoje interne DS kapacitete. Takođe, u poslednje vreme i manje, proizvodno orjentisane firme počinju da koriste ove tehnologije da povećaju vrednost svojih finalnih proizvoda ili smanje troškove. To su sve pomaci na bolje.
Vladimir: Jeste. Puno toga. Postoje fakulteti sa Data Science programima, konferencije, hakatoni. Ipak, bootcampovi su specifični. Programeri, matematičari, kroz jedan bootcamp mogu ubrzano za nekoliko vikenda da uđu u ovu oblast i započnu nov karijerni poduhvat.
Da li u Srbiji postoje uslovi za razvoj data science eksperata?
Dušan: Naravno da postoje. Ovo je prilično demokratična oblast gde pristup resursima nije problem. Dodajte na to relativno solidno matematičko obrazovanje u Srbiji, i uslovi za razvoj ekspertize su tu. Problemi se manifestuju kasnije, pri transformisanju stečenih znanja u dodatu vrednost, ali tu već dolazimo na teren generalno destimulativnog i nepredvidljivog poslovnog okruženja u Srbiji.
Vladimir: Data Science predstavlja spoj veština - matematike, poznavanja algoritama, programiranja i domenskog znanja. Mali je broj fakulteta koji vas obučavaju direktno za Data Science, jer je oblast veoma nova. Jedna od mojih inicijativa bilo je osnivanje osnovnih studija i master programa na Univerzitetu Singidunum. Postoje i drugi programi koji su otvoreni na drugim fakultetima.
Na koji način se edukuju zainteresovani za ovu oblast i koliko je teško infiltrirati se u Data science zajednicu?
Dušan: Resursi za edukaciju su danas dostupniji nego ikada. Imamo besplatne online kurseve ozbiljnih univerziteta, portale sa diskusijama i člancima, tone izvanrednih tehničkih knjiga. Ne mislim da je uopšte teško infiltrirati se u ovu zajednicu. Trenutno se traži mnogo više Data Scientista nego što ih je dostupno na trzištu i postoje indikacije da će se ovaj disbalans samo dodatno povećavati u budućnosti. To nije slučaj samo kod nas nego i na razvijenim tržištima.
Vladimir: Ljudi se dosta edukuju na online kursevima, kao i čitanjem blogova na ovu temu. Recimo, machinelearningmastery.com Ja takođe, vodim svoj blog datahacker.rs Postoje meet-up grupe datascience.rs kao i godišnja Data Science konferencija.
Šta bi bio tvoj savet nekome ko tek ulazi u ovu oblast?
Dušan: Preporučio bih da se ne fokusira samo na trenutno najpopularnije metodologije i alate, nego da postupno gradi široku bazu analitičkih znanja i tehnoloških veština. U malo slučajeva će se početnik suočiti sa problemom koji zaista zahteva korišćenje najnovijih tipova dubokih neuronskih mreža. Nažalost, u praksi se znatno cešće dešava da celi projekti propadaju zbog suštinskog nerazumevanja osnovnih metodoloških koncepata.
Mogu početi sa konkretnim kursevima iz ove oblasti. Naravno da niko neće posle nekoliko vikenda postati Data Science ekspert, za to su potrebne godine napornog rada, ali ako se, na primer, programer koji je prošao neki kurs osposobi da u svoj prozvod doda neku funkcionalnost baziranu na mašinskom učenju, i time mu poveća vrednost, mislim da je to više nego dovoljno za početak.
Vladimir: Data Science Handbook, je moja omiljena knjiga za početnike. Tek kada se onda prouči savetovao bih da se krene dalje. Posle je svakako dobro završiti kurs profesora Andrew Ng, Deep Learning sa Coursera-e. Ja sam pokušao da svoje iskustvo sa predavanja pretočim u seriju blog postova na srpskom jeziku. Cilj je da i napredni srednjoškolci mogu ovladati ovim tehnikama veoma brzo. Za dalje, važno je raditi projekte.
Poznato je da mnogi zaljubljenici u ovu oblast ulaze u svet DS preko takmičenja kao što je na primer KAGGLE - koliko je to preporučljivo početnicima?
Dušan: Po mom mišljenju "igranje" na Kaggle-u je jako dobar način sticanja prakse i proširivanja metodoloških znanja.
Vladimir: Kaggle je odličan, to je platforma koja pruža pristup podacima, kao i skriptama sa rešenjima. Ovo je odličan community za sve Data Scientist-e.
Za one kojima ova oblast nije toliko bliska, možeš li nam pojasniti za koje sve branše možemo reći da potpadaju pod kapu DS-a?
Dušan: To je teško reći, jer je oblast relativno mlada pa se definicije menjaju iz dana u dan i od organizacije do organizacije. Po mom mišljenju, data scientist je svako ko rešava poslovne probleme koristeći široku lepezu kvantitativnih metodologija. Naravno, da bi to funkcionisalo u praksi, takva osoba mora dobro da vlada i programiranjem i drugim tehnikama koje nisu strogo "statističke". Da biste se ušli u Data Science oblast za početak je dovoljno da posedujete analitički način razmišljanja i imate jaku bazu kvantitativnih znanja. Data Scientisti se neretko regrutuju iz klasičnih akademskih disciplina kao što su statistika, softverski inženjering, operaciona istraživanja, pa čak i teorijska fizika. Sve ostalo se vremenom nadograđuje, a resursi za edukaciju iz ove oblasti dostupniji su nego ikada.
Vladimir: Postoji šest vština koje Data Scientist-a definišu:
- matematika - linearna algebra, statistika, verovatnoća, matematička optimizacija
- programiranje - baze podataka
- machine learning
- vizuelizacija podataka
- komunikacija - recimo sa ljudima iz biznisa, ili sa doktorima, ako je naš proizvod namenjen njima
- poznavanje ekonomije i biznisa - kako data science može doneti novac, jer je to i glavni razlog ubrzanog razvoja ove oblasti
Kompanije koje su imale dobre data science proizvode lako su porazile konkurente. Recimo, sistem za preporuku knjiga na internetu doneo je veliki profit u odnosu na period kada su se knjige oglašavale npr. u New York Times-u. Takođe, kompanije koje prve razviju svoje autonomne automobile imaće ogromnu prednost na tržištu.
Niko ne može maksimalno poznavati sve veštine koje sam naveo ali ih može unapređivati. I bez dubokog poznavanja matematike moguće je biti Data Scientist.
*slika iz knjige Doing Data Science
Više informacija o predstojećem kursu Data Sceince bootcamp uz R koji će se održati u InfostudHub-u u Subotici, možete pogledati ovde.