Veliki jezički modeli (LLM-ovi) su doneli značajan napredak u veštačku inteligenciju, pri čemu je OpenAI napravio model koji je jedan od vodećih u ovom segmentu. Međutim, početkom ove godine pojavljuje se novi igrač.
Naime, kineska kompanija DeepSeek je izbacila nove modele koji nude konkurentne performanse uz značajno niže troškove treniranja.
Kakva je razlika između DeepSeek modela i OpenAI modela? GPT modeli (kao na primer GPT-4) su gusto povezani transformeri, što znači da svaki parametar modela učestvuje u obradi svakog upita. Ovaj pristup pruža visoke performanse, ali dolazi uz ogromne troškove kako tokom treniranja tako i tokom inferencije.
Za razliku od ovih modela, DeepSeek modeli koriste Mixture of Experts (MoE) arhitekturu, koja aktivira samo deo ukupnih parametara modela pri svakoj obradi teksta. To ih čini mnogo efikasnijim u pogledu upotrebe računarskih resursa, što smanjuje troškove, ali zadržava kvalitet izlaza.
Kako radi MoE arhitektura i zašto je toliko efikasna
U MoE arhitekturi, samo deo ukupnih parametara učestvuje u svakom prolazu kroz model. Na primer, model od 671 milijardi parametara će koristiti samo 37 milijardi po upitu, dok će jedan GPT-3 model od 175 milijardi parametara aktivirati sve parametre po upitu. To drastično smanjuje potrošnju energije i računarsku snagu potrebnu za treniranje i izvršavanje.
MoE arhitektura u DeepSeek modelima funkcioniše kao inteligentni sistem rutiranja podataka unutar neuronske mreže. Umesto da svi slojevi modela budu aktivni istovremeno, MoE bira samo relevantne "eksperte" za obradu datog upita. Model ima više ekspertskih podmodela, od kojih je svaki specijalizovan za određenu vrstu podataka. Mehanizam rutiranja određuje koji eksperti će biti aktivirani za konkretan zadatak.
Napredna tehnologija razmišljanja u AI sistemima
Još jedna prednost koja je implementirana u DeepSeek-R1 modelu je Chain of Thought (CoT) rezonovanje, tehnika koja poboljšava logičko zaključivanje i rešavanje složenih zadataka. Šta to zapravo znači?
Kada postavite složeno pitanje većini AI modela, oni vam daju odgovor bez objašnjenja svog rezonovanja. Ovo predstavlja problem jer ako je odgovor netačan onda nemamo način da utvrdimo da li je došlo do greške. CoT rešava ovaj problem.
Umesto da odmah pruži odgovor, model objašnjava svoje rezonovanje korak po korak. Ako napravi grešku, možemo tačno videti gde je došlo do nje. Takođe, sam model može uočiti svoju grešku. Ovo nije samo alat za otklanjanje grešaka već i način za usporavanje i proveru rada samog modela. Rezultat su bolji odgovori, čak i bez dodatnog treniranja.
Postoji problem sa DeepSeek modelima, preveliki su. Puna verzija ima 671 milijardu parametara. Pokretanje ovakvog modela zahteva hiljade GPU-ova i infrastrukturu koju samo tehnološki giganti mogu priuštiti. To ga čini nepraktičnim za većinu korisnika.
Rešenje ovog problema je distilacija. To je proces kompresovanja velikog modela u manje bez gubitka previše performansi. Ideja je da veliki model generiše primere, a manji model uči iz njih. Interesantno je da su DeepSeek istraživači na ovaj način došli do toga da su manji modeli ponekad nadmašili originalni. Ovaj pristup dodatno poboljšava pristupačnost AI tehnologije, omogućavajući da moćni modeli funkcionišu na samo jednom GPU umesto na velikim klasterima.