Početkom septembra 2020. godine, kompanija NVIDIA je predstavila svoju novu seriju grafičkih procesora namenjenih gejmingu, pod nazivom RTX 3000. Ova serija je zasnovana na njihovoj najnovijoj Ampere arhitekturi. U nastavku ćemo razmotriti novitete koje donosi ova serija, softver sa veštačkom inteligencijom koji je prati, kao i sve detalje koji ovu generaciju čine izuzetnom.
Upoznajte grafičke procesore serije RTX 3000
Glavna vest kompanije NVIDIA bili su njihovi novi, moćni grafički procesori, svi izrađeni na prilagođenom 8nm proizvodnom procesu. Ovi procesori donose značajna poboljšanja kako u rasterizaciji, tako i u performansama praćenja zraka.
Na donjem kraju ove serije nalazi se RTX 3070, sa cenom od 499 dolara. Iako je možda malo skuplja za najpovoljniju karticu koju je NVIDIA predstavila, predstavlja izvanrednu vrednost kada se uzme u obzir da nadmašuje performanse RTX 2080 Ti, vrhunske kartice koja se ranije prodavala po cenama iznad 1400 dolara. Međutim, nakon NVIDIINE objave, cene RTX 2080 Ti na tržištu pale su, i veliki broj njih se prodavao na eBay-u za manje od 600 dolara.
Od trenutka objavljivanja, nema konkretnih rezultata testova (benchmark), pa je nejasno da li je ova kartica zaista objektivno „bolja“ od 2080 Ti, ili je NVIDIA malo „podebljala“ marketing. Testovi su vršeni u 4K rezoluciji, verovatno sa uključenim RTX-om, što bi moglo stvoriti dojam većeg jaza u performansama nego što će to biti slučaj u čisto rasterizovanim igrama. Ipak, serija 3000, zasnovana na Ampere arhitekturi, pruža dvostruko bolje performanse u praćenju zraka u odnosu na Turing arhitekturu. S obzirom na to da praćenje zraka sada ne utiče mnogo na performanse, i podržano je od strane najnovije generacije konzola, glavna prednost je da radi jednako brzo kao i prethodni vodeći model, za skoro trećinu cene.
Takođe je neizvesno da li će cena ostati takva. Dizajni drugih proizvođača regularno dodaju najmanje 50 dolara na cenu, a s obzirom na veliku potražnju, ne bi bilo iznenađujuće da se prodaje za 600 dolara već u oktobru 2020.
Odmah iznad nje je RTX 3080 sa cenom od 699 dolara, za koju se očekuje da će biti dvostruko brža od RTX 2080, i oko 25-30% brža od 3070.
Na samom vrhu, nalazi se novi vodeći model RTX 3090, koji je izuzetno veliki. NVIDIA je svesna toga i naziva ga „BFGPU“, što je, prema rečima kompanije, skraćenica za „Big Ferocious GPU“.
NVIDIA nije prikazala direktne metrike performansi, ali je kompanija demonstrirala pokretanje igara u 8K rezoluciji pri 60 FPS, što je zaista impresivno. Naravno, NVIDIA najverovatnije koristi DLSS da bi dostigla tu brzinu, ali 8K igranje je 8K igranje.
Naravno, kasnije će se pojaviti i 3060 i druge verzije povoljnijih kartica, ali one obično dolaze nešto kasnije.
Da bi osigurala adekvatno hlađenje, NVIDIA je redizajnirala rashladni sistem. RTX 3080 ima potrošnju od 320 vati, što je prilično visoka vrednost, pa se NVIDIA odlučila za dizajn sa dva ventilatora. Umesto da oba ventilatora budu postavljena na dnu, NVIDIA je postavila jedan ventilator na gornji deo, gde obično ide zadnja ploča. Taj ventilator usmerava vazduh prema CPU hladnjaku i vrhu kućišta.
S obzirom na to koliko loš protok vazduha u kućištu može uticati na performanse, ovo rešenje ima smisla. Međutim, sama kartica je veoma velika, što će verovatno uticati na cene modela drugih proizvođača.
DLSS: softverska prednost
Praćenje zraka nije jedina prednost ovih novih kartica. Zapravo, sve je to pomalo „trik“ – serije RTX 2000 i 3000 nisu značajno bolje u samom praćenju zraka, u poređenju sa starijim generacijama kartica. Praćenje zraka cele scene u 3D softveru kao što je Blender obično traje nekoliko sekundi ili čak minuta po kadru, tako da „nasilno“ procesiranje za manje od 10 milisekundi nije moguće.
Naravno, postoji poseban hardver za izračunavanje zraka, pod nazivom RT jezgra, ali NVIDIA se uglavnom odlučila za drugačiji pristup. NVIDIA je poboljšala algoritme za uklanjanje šuma, koji omogućavaju grafičkim procesorima da prikažu veoma jeftin pojedinačni prolaz koji izgleda loše, a zatim – kroz veštačku inteligenciju – pretvori to u nešto što je igračima prihvatljivo. Kada se kombinuje sa tradicionalnim tehnikama rasterizacije, stvara ugodno iskustvo poboljšano efektima praćenja zraka.
Da bi ovo uradila brzo, NVIDIA je dodala procesorska jezgra specifična za veštačku inteligenciju, koja se nazivaju Tensor jezgra. Ona obrađuju svu matematiku potrebnu za pokretanje modela mašinskog učenja, i to vrlo brzo. Ona su prekretnica za veštačku inteligenciju u serverima u oblaku, pošto mnoge kompanije uveliko koriste veštačku inteligenciju.
Pored uklanjanja šuma, glavna upotreba Tensor jezgara za igrače je ono što se zove DLSS, odnosno superuzorkovanje dubokim učenjem. Uzima okvir lošeg kvaliteta i podiže ga na nivo punog, prirodnog kvaliteta. Ovo praktično znači da možete da igrate sa 1080p brzinom kadrova, a da istovremeno gledate sliku u 4K rezoluciji.
Ovo takođe pomaže u performansama praćenja zraka. Testovi PCMag-a pokazuju da RTX 2080 Super ima problema sa radom u ultra kvalitetu, sa svim postavkama praćenja zraka podešenim na maksimum. U 4K, postiže samo 19 FPS, ali sa uključenim DLSS-om dobija mnogo boljih 54 FPS. DLSS je besplatno poboljšanje performansi za NVIDIA, omogućeno Tensor jezgrima na Turing i Ampere arhitekturi. Svaka igra koja podržava DLSS i koja je ograničena GPU-om može da primeti ozbiljna ubrzanja samo zahvaljujući ovom softveru.
DLSS nije novitet, i najavljen je kao funkcija prilikom predstavljanja RTX 2000 serije pre dve godine. U to vreme, podržavao ga je veoma mali broj igara, jer je NVIDIA zahtevala da se obuči i podesi model mašinskog učenja za svaku pojedinačnu igru.
Međutim, u međuvremenu ga je NVIDIA potpuno prepravila, i nazvala novu verziju DLSS 2.0. To je API opšte namene, što znači da svaki programer može da ga primeni, i većina glavnih izdanja ga već koristi. Umesto da radi na jednom kadru, uzima podatke vektora kretanja iz prethodnog kadra, slično kao TAA. Rezultat je mnogo oštriji od DLSS 1.0, i u nekim slučajevima zapravo izgleda bolje i oštrije čak i od izvorne rezolucije, tako da nema mnogo razloga da ga ne uključite.
Postoji jedan mali problem – kada se scene potpuno menjaju, kao u prelazima, DLSS 2.0 mora da prikaže prvi kadar sa 50% kvaliteta dok čeka podatke o vektoru pokreta. Ovo može da rezultira malim padom kvaliteta na nekoliko milisekundi. Ali, 99% onoga što gledate biće ispravno prikazano, a većina ljudi to ne primećuje u praksi.
Ampere Arhitektura: Stvorena za Veštačku Inteligenciju
Ampere je brz. Izuzetno brz, posebno kada su u pitanju izračunavanja veštačke inteligencije. RT jezgro je 1,7 puta brže od Turinga, dok je novo Tensor jezgro 2,7 puta brže od Turinga. Kombinacija ova dva jezgra predstavlja pravi generacijski skok u performansama praćenja zraka.
Ranije ovog maja, NVIDIA je predstavila Ampere A100 GPU, GPU za data centre dizajniran za pokretanje veštačke inteligencije. Pored toga, detaljno su objasnili šta čini Ampere toliko bržim. Za radna opterećenja centara podataka i računara visokih performansi, Ampere je generalno oko 1,7 puta brži od Turinga. Za obuku veštačke inteligencije, i do 6 puta brži.
Sa Ampere, NVIDIA koristi novi format brojeva, osmišljen da zameni industrijski standard „Floating-Point 32“ ili FP32 u nekim radnim opterećenjima. U suštini, svaki broj koji računar obrađuje zauzima unapred definisan broj bitova u memoriji, bilo da je to 8 bitova, 16 bitova, 32, 64 ili čak više. Brojeve koji su veći je teže obraditi, pa ako možete da koristite manju veličinu, manje ćete morati da opterećujete procesor.
FP32 čuva 32-bitni decimalni broj i koristi 8 bitova za opseg broja (koliko velik ili mali može da bude) i 23 bita za preciznost. NVIDIA tvrdi da ovih 23 bita preciznosti nisu u potpunosti neophodna za mnoga radna opterećenja veštačke inteligencije, i da se slični rezultati i mnogo bolje performanse mogu postići sa samo 10 bitova. Smanjenje veličine na samo 19 bitova, umesto 32, čini veliku razliku u mnogim izračunavanjima.
Ovaj novi format se zove Tensor Float 32, a Tensor jezgra u A100 su optimizovana za rad sa ovim formatom „čudne“ veličine. Ovo je, pored smanjenja matrice i povećanja broja jezgara, razlog zašto se postiže ogromno 6x ubrzanje u obuci veštačke inteligencije.
Pored novog formata brojeva, Ampere donosi velika ubrzanja performansi u specifičnim proračunima, kao što su FP32 i FP64. Ovo ne znači direktno više FPS za obične korisnike, ali je deo onoga što ga čini skoro tri puta bržim ukupno u Tensor operacijama.
Da bi dodatno ubrzali proračune, uveli su koncept „sitnozrnaste struktuirane retkosti“, što je komplikovan naziv za prilično jednostavan koncept. Neuronske mreže rade sa velikim listama brojeva, koji se zovu težine, a koji utiču na konačan rezultat. Što je više brojeva za obradu, to će biti sporije.
Međutim, nisu svi ovi brojevi zaista korisni. Neki od njih su doslovno samo nula, i u osnovi se mogu izbaciti, što dovodi do ogromnih ubrzanja kada možete da obradite više brojeva u isto vreme. Retkost u suštini komprimuje brojeve, što zahteva manje napora za izvođenje proračuna. Novo „Sparse Tensor Core“ je napravljeno da radi na komprimovanim podacima.
Uprkos promenama, iz NVIDIA kažu da ovo ne bi trebalo da utiče na tačnost obučenih modela.
Za proračune Sparse INT8, jedan od najmanjih formata brojeva, vršne performanse jednog A100 GPU-a su preko 1,25 PetaFLOPS, što je zapanjujuće visok broj. Naravno, to je samo kada se sabira jedna određena vrsta broja, ali je ipak impresivno.