Подробная информация об архитектуре NVIDIA Blackwell «RTX 50»

Подробная информация об архитектуре NVIDIA Blackwell «RTX 50»
16 января 2025

На выставке CES 2025 компания NVIDIA представила подробную информацию об архитектуре графического процессора Blackwell нового поколения, предназначенного для игровых видеокарт RTX 50. Также были представлены сведения о том, как архитектура Ada улучшает предыдущую версию.

Погрузимся в архитектуру NVIDIA RTX Blackwell.

В настоящее время известно, что графические процессоры NVIDIA RTX Blackwell Gaming основаны на 4-нанометровом техпроцессе TSMC. Они содержат до 92 миллиардов транзисторов и обладают следующими характеристиками: 4000 AI TOPS, 380 RT TFLOPS, 125 TFLOPS вычислений FP32. Также они оснащены самым быстрым интерфейсом памяти GDDR7 с пропускной способностью до 1,8 ТБ/с и имеют совершенно новый дизайн Founders Edition.

При разработке Blackwell компания NVIDIA стремилась ускорить графические возможности для игр следующего поколения. Архитектура была спроектирована и оптимизирована с учётом новых нейронных возможностей и рабочих нагрузок. Её цель — уменьшить объём используемой памяти, повысить энергоэффективность и добавить новые возможности для улучшения качества обслуживания.

В результате Blackwell пришлось внести множество изменений. Среди основных — добавление тензорных ядер пятого поколения, которые обеспечивают высокую скорость вычислений FP4 и до 4000 пиков производительности AI. Также были добавлены ядра RT (трассировки лучей) четвёртого поколения с производительностью до 360 RT TFLOPs, разработанные для Mega Geometry.

Кроме того, был разработан процессор управления AI следующего поколения, который позволяет выполнять одновременно модели AI и графические рабочие нагрузки.

В Blackwell SM была добавлена новая модель с максимальной производительностью вычислений FP32 125 TFLOPS. Также была добавлена память GDDR7, которая обеспечивает самую высокую в мире скорость памяти — до 30 Гбит/с на RTX 5080.

Среди других значимых улучшений архитектуры графического процессора RTX Blackwell можно отметить поддержку интерфейса DisplayPort 2.1 (UHBR20), а также поддержку PCIe Gen5 и 4K NVDEC/NVENC с цветовой глубиной 4:2:2.

Анализируя Blackwell SM, мы сравниваем его с Ada SM, который был оптимизирован в основном для традиционных шейдеров, а большинство его тензорных ядер использовались либо для DLSS, либо для приложений по созданию контента. Ada также разделял ядра FP32 на два блока: один мог выполнять только вычисления FP32, а другой — вычисления FP32 и INT32.

Blackwell позволил NVIDIA удвоить пропускную способность графического процессора INT32, что может ускорить выполнение таких задач, как рабочие графики и выполнение шейдеров. Тензорные ядра 5-го поколения также обеспечивают вышеупомянутую удвоенную пропускную способность.

Другие микроархитектурные изменения позволяют эффективно выполнять несколько задач одновременно. Blackwell также в 2 раза повышает эффективность SER (переупорядочивания выполнения шейдеров) за счёт переупорядочивания нейронных моделей и стандартных моделей затенения и объединения одинаковых задач в организованную структуру. Затем эти модели передаются на тензорные ядра (для моделей машинного обучения) или общие ядра (для моделей затенения) для окончательного выполнения.

GDDR7 — это долгожданное обновление по сравнению с GDDR6/X, которое обеспечивает двукратное увеличение пропускной способности и скорости передачи данных по сравнению с GDDR6. GDDR7 также поддерживает передачу сигналов PAM4, а материалы печатной платы, используемые в графических процессорах RTX 50, отличаются высоким качеством с инженерной точки зрения.

Это первая полноценная архитектура для настольных ПК, в которой GDDR7 и PCIe 5.0 используются в полной мере. Новый интерфейс памяти обеспечивает в два раза более высокую эффективность, чем GDDR6, в пересчёте на PJ/бит. Это будет особенно полезно в мобильных устройствах с поддержкой «Max-Q», где эффективность играет ключевую роль.

В отношении улучшений технологии трассировки лучей, в ядрах RT четвёртого поколения появились новые функции, такие как механизм пересечения кластеров треугольников. Он заменяет предыдущий механизм пересечения треугольников, оптимизированный для работы с мегагеометрией. Этот новый механизм может более эффективно обрабатывать кластеры как мегагеометрии, так и стандартной геометрии.

В движке Mega Geometry также появился новый формат сжатия кластеров треугольников, который можно распаковать с помощью встроенного в Blackwell движка. Кроме того, в движке есть новый блок Linerar Swept Spheres, который ускоряет рендеринг волос и шерсти в RTX.

В целом, можно сказать, что новые ядра RT в восемь раз увеличивают скорость пересечения лучей с треугольниками, при этом занимаемая ими память уменьшается на 75%.

Технология FP4, реализованная в тензорных ядрах Blackwell пятого поколения, обеспечивает производительность в 32 раза больше, чем у предыдущего поколения Pascal, и в два раза больше, чем у поколения Ada. Эти новые ядра в полной мере используют возможности нейронного затенения и рендеринга, которые были представлены в играх нового поколения.

Это также приводит нас к обсуждению вопроса о том, как Blackwell планирует свою работу и как он распределяет различные задачи.

В Blackwell компания NVIDIA представила новый программируемый сопроцессор под названием Amp. Он располагается в передней части графического процессора и по-разному взаимодействует с его ядрами. Amp способен анализировать, какие задачи выполняются на каждом ядре, и точно планировать нагрузку для каждого из них.

Компания NVIDIA представила новые функции энергосбережения в архитектуре Blackwell. Теперь можно полностью отключить тактовое дерево, даже если графический процессор продолжает работать. Это позволяет экономить энергию, если память или её части не задействованы.

Ещё один метод оптимизации энергопотребления — деактивация логики и SRAM в режиме ожидания всех процессоров.

Blackwell также имеет дополнительную шину, которая изолирует ядро и память, работая с ними при различных напряжениях. Это позволяет оптимизировать энергопотребление для разных рабочих нагрузок и повысить производительность в рамках бюджета.

Кроме того, новая система шины сокращает время передачи данных от шины к ядру в 15 раз. Это особенно полезно для ноутбуков, так как значительно снижает утечку энергии.

В Blackwell появилась новая функция, которая позволяет значительно ускорить переключение частоты. Это повышает скорость отклика в 1000 раз.

Например, если рабочая нагрузка, связанная с физикой, не использует всю ширину графического процессора, то её можно переключить на более высокую частоту. В то же время, если рабочая нагрузка тензорного ядра использует всю ширину графического процессора, то её можно переключить на более низкую частоту.

Когда центральный процессор не загружает графический процессор работой, Blackwell может быстро снизить частоту. Это возможно благодаря функции быстрого переключения на более высокую частоту.

В отношении увеличения рабочей частоты, Blackwell демонстрирует прирост на 300 МГц в активном режиме по сравнению с графическими процессорами Ada.

Наконец, у нас есть инструменты Blackwell для работы с экраном и видео.

В новой версии Blackwell появилась поддержка DisplayPort 2.1b (UHBR20), которая позволяет быстро измерять частоту кадров. Это повышает частоту кадров при использовании DLSS 4.

Также в Blackwell есть кодировщик девятого поколения и декодировщик шестого поколения. Они поддерживают AV1 UHQ и двухкратное декодирование H.264, а также кодирование/декодирование MV-HEVC и 4.2.2. Эти функции также доступны в блоке видеопроцессора RTX Blackwell.

NVIDIA DLSS 4 — это новый этап развития технологий глубокого обучения.

С момента появления DLSS в 2018 году технология постоянно развивается. Модель DLSS обучается на мощном суперкомпьютере, который находится в штаб-квартире NVIDIA. Этот компьютер работает круглосуточно и без выходных, используя новейшие графические процессоры уже шесть лет.

Последняя крупная версия DLSS — DLSS 3.5 — включает в себя новую функцию реконструкции лучей. Эта функция является частью процесса устранения неполадок, в ходе которого модель обнаруживает различные проблемы, такие как размытость, ореолы и мерцание.

Специалисты NVIDIA пытаются разобраться в причинах некорректного отображения изображения. Они ищут новые методы для улучшения моделей и проводят обучение и тестирование на сотнях игр. Это позволяет создать обновлённые версии DLSS, в том числе DLSS 4, которая значительно улучшает все аспекты технологии суперсэмплирования.

С помощью DLSS 4 компания NVIDIA переходит на совершенно новую модель нейронной архитектуры, основанную на DLSS 2 2020-х годов. Основное изменение — это новый механизм преобразования, который можно обучать на нескольких наборах данных, сохраняя при этом вычислительную эффективность, что позволяет в 2 раза увеличить количество параметров и в 4 раза — вычислительную мощность.

DLSS 4 также добавляет новый режим MFG, или многокадровой генерации, который вместо запуска двух моделей на кадр запускает пять моделей на кадр со сверхразрешением и реконструкцией лучей. Это приводит к тому, что 15 из 16 пикселей или кадров генерируются искусственным интеллектом, все время улучшая качество изображения.

Компания NVIDIA также объясняет, почему они выбрали технологию многокадровой генерации с использованием Blackwell. Это решение было обусловлено двумя факторами: во-первых, качество изображения DLSS изначально было недостаточно высоким, что требовало больше времени на обучение модели. Во-вторых, время, необходимое для создания новых кадров, могло привести к проблемам с частотой кадров и появлению артефактов.

В процессе обучения модели DLSS качество изображения существенно улучшилось, что особенно заметно в последних играх с DLSS 3 и DLSS 3.5.

Что касается частоты кадров, то система измерения частоты кадров от NVIDIA — это инновационное решение, которое позволяет более точно отслеживать частоту кадров. Она была улучшена и теперь может снизить вариативность частоты кадров в 5–10 раз, что приводит к такой же или меньшей задержке по сравнению с решениями DLSS предыдущего поколения, даже если включена MFG.

Самое замечательное в том, что хотя MFG будет доступна только для RTX 50, а генерация кадров — только для RTX 40 и RTX 50, улучшения качества изображения и функции Reflex 2 будут доступны для всех графических процессоров RTX, как мы уже сообщали. Таким образом, все владельцы графических процессоров RTX получат небольшое преимущество, даже если их оборудование не является самым современным.

В отличие от предыдущих версий DLSS, DLSS 4 будет поддерживать 75 игр и приложений с самого начала, что делает его самой обширной библиотекой игр с поддержкой DLSS на данный момент. И это количество будет увеличиваться.

NVIDIA заявила, что разработчики смогут легко использовать DLSS 4, если они уже интегрировали DLSS 3 или DLSS 3.5 в свои игровые движки.

Компания NVIDIA внедряет технологию DLSS 4 в свои продукты, чтобы расширить возможности игр, которые ранее не поддерживали эту технологию. Например, игры, использующие DLSS 3, теперь смогут работать с DLSS 4.

NVIDIA предлагает несколько вариантов для оптимизации производительности и качества изображения. Вы можете выбрать более быстрый, но менее качественный режим CNN или использовать различные алгоритмы генерации кадров, такие как 2x, 3x и до 4x.

Также есть возможность выбрать режим переопределения разрешения, например, DLAA, для получения более высокого качества изображения или DLSS Ultra-Perf, который обеспечивает более высокую производительность на графических процессорах RTX.

 

 

Reflex 2 — это технология, которая дополняет возможности новой технологии DLSS 4. Она предназначена для уменьшения задержки и повышения скорости реакции в играх, особенно в киберспорте.

Reflex 2 использует новую технологию Frame Warp, которая увеличивает скорость реакции системы на 75%. NVIDIA достигает этого, отслеживая положение мыши перед рендерингом кадра. Затем камера обновляется на основе пользовательского ввода, и сцена перемещается в новое положение перед отображением кадра.

Reflex 2 будет интегрирован в The Finals и Valorant. Все графические процессоры RTX будут поддерживать Reflex 2.

Искусственный интеллект в играх от NVIDIA: от программируемых шейдеров к нейронам.

В начале этого детального анализа мы уже упоминали, что архитектура RTX Blackwell создана с учётом потенциала искусственного интеллекта. Одним из ключевых нововведений, которое внедряет NVIDIA, является доступ к передовым технологиям нейронного шейдинга.

NVIDIA уже анонсировала сотрудничество с Microsoft для использования возможностей нейронного рендеринга DirectX. Это позволит в полной мере раскрыть потенциал тензорных ядер графических процессоров RTX 50.

Благодаря нейронным шейдерам Blackwell компания NVIDIA сможет применять разнообразные методы обработки графических данных. Среди них — нейронные текстуры, материалы, объёмы, поля сияния, кэш сияния и методы сжатия, использующие нейронные технологии. Это позволит повысить эффективность и оптимизировать работу, а также увеличить производительность за счёт использования тензорных ядер.

Задача заключается в том, чтобы модернизировать или полностью заменить элементы традиционного графического конвейера, который долгое время основывался на программируемых шейдерах.

При использовании традиционных материалов в сцене в режиме реального времени обычно требуется от нескольких десятков строк кода до нескольких тысяч для создания изображения. В то же время нейронные материалы используют тот же код и набор слоёв, связанных с материалом, но размещают их в нейронном пространстве (нейронная сжатая текстура 7:1). Затем небольшая нейронная сеть с несколькими слоями применяется для каждого пикселя экрана, использующего этот материал.

В демонстрации, представленной NVIDIA, стандартные материалы занимают 47 мегабайт памяти, в то время как нейронные материалы требуют всего 16 мегабайт, что в три раза меньше.

 

Далее следует RTX Neural Radiance Cache — технология, которая позволяет улучшить производительность при трассировке лучей и непрямом освещении.

NRC (Neural Radiance Cache) — это технология, которая обучается в реальном времени с помощью графического процессора. Она создаёт модель на лету, собирая данные о распространении света в сцене и сохраняя их в геопространственном кэше. Благодаря этому вы можете практически неограниченно отражать свет в сцене и сохранять его в кэше. Это позволяет выполнить один поиск в кэше и представить неограниченное количество отражений в сцене.

Одна из областей, где Neural Shaders особенно хороши, — это материалы, такие как кожа. Для этого NVIDIA представила новую функцию RTX Skin.

NVIDIA в сотрудничестве с Unreal Technology и Disney внедрила алгоритм подповерхностного рассеяния в реальном времени для трассировки лучей. Это стало возможным благодаря RTX Skin. Она была продемонстрирована в Half-Life 2 Remix. По умолчанию в этой игре отсутствует непрямое освещение кирпичей, но включение NRC делает сцену намного более детализированной. То же самое можно увидеть в игре «Зомби». С включенным NRC игра выглядит гораздо более яркой, а тени отображаются более реалистично.

Ещё одна функция — RTX Neural Faces. Она сочетает в себе генеративные ИИ-модели лиц с фотореалистичными характеристиками. Эти модели обучаются при разных углах обзора и условиях освещения, а также отображают разные эмоции. Их можно использовать для улучшения NPC в играх.

 

 

Даже при использовании метода трассировки лучей для создания волос и шерсти традиционные подходы требуют значительных вычислительных ресурсов. В случае персонажа с отдельными прядями их количество может достигать шести миллионов, что создаёт значительную нагрузку на систему.

В архитектуре RTX от Blackwell используется новый подход, который позволяет уменьшить количество полигонов и сфер с трассировкой лучей. Это приводит к трёхкратному сокращению объёма данных для вычислений и уменьшению требований к видеопамяти. При этом достигается более высокая частота кадров.

Blackwell также представляет инновационную технологию RTX Mega Geometry, которая обеспечивает бескомпромиссное решение с полноценной нанитовой сеткой, трассируемой по пути без растеризации. Это достигается благодаря новому API, который быстро и эффективно сжимает эти кластеры с течением времени.

В демоверсии Zorah, где используется RTX Mega Geometry с полумиллиардом треугольников на сцену, при включенной технологии появляется больше деталей, и она работает очень плавно на графическом процессоре RTX 50. RTX Mega Geometry будет работать на всех графических процессорах RTX, но у Blackwell есть специальные технологии, которые ещё больше ускорят эту технологию.

Вернуться к новостям
Ваш город - Москва,
угадали?
Перейти на мобильную версию сайта
Да, перейти Остаться на основной версии