НВИДИА ГПУ-ови серије РТКС 3000: Ево шта је ново

1. септембра 2020. НВИДИА је открила своју нову линију графичких процесора за игре: РТКС 3000 серију, засновану на њиховој Ампере архитектури. Разговараћемо о томе шта је ново, о софтверу са вештачком интелигенцијом који долази са њим и свим детаљима који ову генерацију чине заиста сјајном.

Упознајте ГПУ-ове серије РТКС 3000

Главна најава НВИДИА-е су били њени сјајни нови ГПУ-ови, сви изграђени на прилагођеном 8 нм производном процесу, а сви су донели велика убрзања како у растуризацији тако и у перформансама праћења зрака.

На доњем крају линије, ту је РТКС 3070, који кошта 499 долара. Мало је скупа за најјефтинију картицу коју је НВИДИА представила на почетној најави, али је апсолутна крађа када сазнате да надмашује постојећу РТКС 2080 Ти, врхунску картицу која се редовно продаје за преко 1400 долара. Међутим, након објаве НВИДИА-е, продајне цене треће стране су пале, при чему је велики број њих панично продат на еБаи-у за мање од 600 долара.

Од најаве нема чврстих бенцхмарк-а, тако да је нејасно да ли је картица заиста објективно „боља“ од 2080 Ти, или да ли НВИДИА мало изокреће маркетинг. Мерила која су коришћена су била на 4К и вероватно је имала укључен РТКС, због чега би јаз могао да изгледа већи него што ће бити у чисто растеризованим играма, пошто ће серија 3000 заснована на Ампереу имати дупло боље перформансе у праћењу зрака од Туринга. Али, с обзиром да је праћење зрака сада нешто што не штети много перформансама и да је подржано у најновијој генерацији конзола, главна је продајна тачка да ради једнако брзо као водећи модел последње генерације за скоро трећину цене.

Такође је нејасно да ли ће цена остати таква. Дизајни трећих страна редовно додају најмање 50 долара на цену, а с обзиром на то колико ће велика потражња вероватно бити, неће бити изненађујуће видети да се продаје за 600 долара у октобру 2020.

Непосредно изнад тога је РТКС 3080 по цени од 699 долара, што би требало да буде дупло брже од РТКС 2080, и долази око 25-30% брже од 3080.

Затим, на врху, нови водећи је РТКС 3090, што је комично огромно. НВИДИА је добро свесна и назива је „БФГПУ“, за коју компанија каже да је скраћеница за „Биг Фероциоус ГПУ“.

  Да ли су НордВПН неограничени подаци?

НВИДИА није показала никакве директне метрике перформанси, али је компанија показала да покреће 8К игре при 60 ФПС, што је озбиљно импресивно. Наравно, НВИДИА скоро сигурно користи ДЛСС да би достигла ту ознаку, али 8К играње је 8К играње.

Наравно, на крају ће постојати 3060 и друге варијације више буџетских картица, али оне обично долазе касније.

Да би заиста охладила ствари, НВИДИА-и је био потребан реновирани дизајн хладњака. 3080 је оцењен на 320 вати, што је прилично високо, тако да се НВИДИА одлучила за дизајн са двоструким вентилатором, али уместо оба вентилатора ввинф постављена на дну, НВИДИА је поставила вентилатор на горњи крај где обично иде задња плоча. Вентилатор усмерава ваздух нагоре према ЦПУ хладњаку и врху кућишта.

Судећи по томе на колико перформанси може утицати лош проток ваздуха у кућишту, ово има савршеног смисла. Међутим, плоча је веома скучена због тога, што ће вероватно утицати на продајне цене трећих страна.

ДЛСС: софтверска предност

Праћење зрака није једина предност ових нових картица. Заиста, све је то помало хак – серије РТКС 2000 и 3000 нису много боље у обављању стварног праћења зрака, у поређењу са старијим генерацијама картица. Праћење зрака целе сцене у 3Д софтверу као што је Блендер обично траје неколико секунди или чак минута по кадру, тако да грубо присиљавање за мање од 10 милисекунди не долази у обзир.

Наравно, постоји наменски хардвер за покретање прорачуна зрака, који се назива РТ језгра, али се НВИДИА углавном одлучила за другачији приступ. НВИДИА је побољшала алгоритме за смањење шума, који омогућавају ГПУ-овима да прикажу веома јефтин појединачни пролаз који изгледа ужасно, и некако – кроз АИ магију – то претвори у нешто што играч жели да погледа. Када се комбинује са традиционалним техникама заснованим на растеризацији, чини пријатно искуство побољшано ефектима праћења зрака.

Међутим, да би ово брзо урадила, НВИДИА је додала процесорска језгра специфична за АИ под називом Тенсор језгра. Они обрађују сву математику потребну за покретање модела машинског учења и то врло брзо. Они су тотални мењач игре за вештачку интелигенцију у простору сервера у облаку, пошто АИ у великој мери користе многе компаније.

Осим уклањања шума, главна употреба Тенсор језгара за играче се зове ДЛСС, или супер узорковање дубоког учења. Узима оквир лошег квалитета и повећава га до потпуног природног квалитета. Ово у суштини значи да можете да играте са 1080п нивоом кадрова, док гледате 4К слику.

  Како искључити фотографије покрета на Самсунг телефону

Ово такође помаже у перформансама праћења зрака –бенцхмаркс из ПЦМаг-а прикажи РТКС 2080 Супер радну контролу у ултра квалитету, са свим подешавањима праћења зрака подигнутим на максимум. На 4К, има проблема са само 19 ФПС, али са укљученим ДЛСС-ом добија много бољих 54 ФПС. ДЛСС је бесплатна изведба за НВИДИА, коју омогућавају Тенсор језгра на Туринг и Ампере. Свака игра која то подржава и која је ограничена на ГПУ може да примети озбиљна убрзања само од софтвера.

ДЛСС није нов и најављен је као карактеристика када је РТКС 2000 серија лансирана пре две године. У то време, подржавало га је врло мало игара, јер је НВИДИА захтевала да обучи и подеси модел машинског учења за сваку појединачну игру.

Међутим, за то време, НВИДИА га је потпуно преписала, назвавши нову верзију ДЛСС 2.0. То је АПИ опште намене, што значи да сваки програмер може да га примени, а већина главних издања га већ преузима. Уместо да ради на једном кадру, он узима податке вектора кретања из претходног кадра, слично ТАА. Резултат је много оштрији од ДЛСС 1.0, ау неким случајевима заправо изгледа боље и оштрије чак и од изворне резолуције, тако да нема много разлога да га не укључите.

Постоји једна квака — када се потпуно мењају сцене, као у сценама, ДЛСС 2.0 мора да прикаже први кадар са 50% квалитета док чека податке о вектору покрета. Ово може резултирати малим падом квалитета за неколико милисекунди. Али, 99% свега што погледате биће правилно приказано, а већина људи то не примети у пракси.

Архитектура Ампера: Направљена за АИ

Ампер је брз. Озбиљно брзо, посебно код АИ прорачуна. РТ језгро је 1,7 пута брже од Туринга, а ново Тенсор језгро је 2,7 пута брже од Туринга. Комбинација ово двоје је прави генерацијски скок у перформансама праћења зрака.

Раније овог маја, НВИДИА је објавила Ампере А100 ГПУ, ГПУ центра података дизајниран за покретање АИ. Уз то, они су детаљно описали оно што Ампере чини много бржим. За радна оптерећења центара података и рачунара високих перформанси, Ампере је генерално око 1,7 пута бржи од Туринга. За АИ обуку, то је до 6 пута брже.

  Како сакрити пратиоце на ТикТок-у

Са Ампере-ом, НВИДИА користи нови формат бројева дизајниран да замени индустријски стандард „Флоатинг-Поинт 32“ или ФП32 у неким радним оптерећењима. Испод хаубе, сваки број који ваш рачунар обради заузима унапред дефинисани број битова у меморији, било да је то 8 бита, 16 бита, 32, 64 или чак већи. Бројеве који су већи теже је обрадити, па ако можете да користите мању величину, мање ћете морати да ломите.

ФП32 чува 32-битни децимални број и користи 8 бита за опсег броја (колико велики или мали може бити) и 23 бита за прецизност. НВИДИА-ина тврдња је да ова 23 прецизна бита нису у потпуности неопходна за многа АИ радна оптерећења, а можете добити сличне резултате и много боље перформансе од само 10 њих. Смањење величине на само 19 бита, уместо на 32, чини велику разлику у многим прорачунима.

Овај нови формат се зове Тенсор Флоат 32, а Тенсор језгра у А100 су оптимизована за рад са форматом чудне величине. Ово је, поред смањења матрице и повећања броја језгара, како добијају огромно 6к убрзање у АИ тренингу.

Поврх новог формата бројева, Ампере види велика убрзања перформанси у специфичним прорачунима, као што су ФП32 и ФП64. Ово не значи директно више ФПС-а за лаике, али су део онога што га чини скоро три пута бржим укупно у Тенсор операцијама.

Затим, да би још више убрзали прорачуне, увели су концепт ситнозрнаста структурирана реткост, што је веома фенси реч за прилично једноставан концепт. Неуронске мреже раде са великим листама бројева, званим тежине, које утичу на коначни резултат. Што више бројева за шкрипање, то ће бити спорије.

Међутим, нису сви ови бројеви заправо корисни. Неки од њих су буквално само нула, и у основи се могу избацити, што доводи до огромних убрзања када можете да убаците више бројева у исто време. Реткост у суштини компримира бројеве, што захтева мање напора да се изврши прорачун. Ново „Спарсе Тенсор Цоре“ је направљено да ради на компримованим подацима.

Упркос променама, из НВИДИА кажу да то уопште не би требало да утиче на тачност обучених модела.

За прорачуне Спарсе ИНТ8, један од најмањих формата бројева, вршне перформансе једног А100 ГПУ-а су преко 1,25 ПетаФЛОПс, што је запањујуће висок број. Наравно, то је само када се зброји једна одређена врста броја, али је ипак импресивно.