В чем заключается исключительность Nvidia?

В чем заключается исключительность Nvidia?

Я за 2-3 года пересмотрел достаточно выступлений Хуанга, чтобы понимать его преимущества, поэтому выделю самое главное.

Межпроцессорное взаимодействие через интерконнект (NVLink и NVSwitch).

Не имеет значение, насколько производителен изолированный чип – какой бы совершенной не была архитектура чипа, в обучении и развертывании нейросетей имеет значение масштабирование. Буквально, непрерывное «размножение» чипов, работающих по единому алгоритму.

Скорость обучения модели зависит не от того, как быстро считает один чип, а от того, как быстро эти чипы обмениваются данными между собой. В ИИ фабриках тысячи или сотни тысяч чипов объединяются в «единый кибернетический организм».

Оказывается, что ценность Nvidia скорее даже не в чипах Blackwell, а в интерконнекторах, т.е. умение связывать десятки, а далее тысячи и сотни тысячи чипов в единую систему.

Nvidia NVLink: это проприетарный протокол связи, позволяющий GPU общаться друг с другом на скорости до 1.8 TB/s (терабайт в секунду), минуя медленный центральный процессор (CPU) и стандартную шину PCIe.

AMD и другие используют открытые стандарты (как Ethernet или Infinity Fabric), которые пока проигрывают в латентности и пропускной способности при масштабировании на тысячи устройств. У Nvidia здесь монополия на эффективность кластера.

Сетевая инфраструктура (Spectrum-X/Mellanox). Nvidia владеет технологией, которая оптимизирует передачу данных внутри дата-центра именно под задачи ИИ, используя технологии вроде In-Network Computing (когда часть вычислений происходит прямо в сетевых коммутаторах), снижая задержки, повышая скорость обмена данными.

Сетевое оборудование Nvidia через коммутаторы Spectrum-X и InfiniBand управляет трафиком так, чтобы чипы никогда не простаивали в ожидании данных.

Это позволяет объединить вычислительные кластеры в вычислительные модули, фермы, а далее масштабировать уже на весь завод, что делает вычисления согласованными и синхронизированными.

AMD вынуждена полагаться на партнеров (Broadcom, Cisco) и стандартный Ethernet, что создает барьер для масштабирования вычислительных кластеров.

Архитектура вычислительных кластеров в рамках "Rack-Scale" против "Chip-Scale".

Подход Nvidia (GB200 NVL72): инженеры Nvidia соединили 72 чипа Blackwell в единую стойку, которая работает как один гигантский графический процессор. Благодаря технологии NVLink пятого поколения, все 72 чипа общаются друг с другом на скорости 1.8 ТБ/с (иногда сопоставимо, чем память внутри самого чипа у многих конкурентов). Для операционной системы это выглядит не как "кластер серверов", а как одна видеокарта с колоссальной памятью.

Чипы AMD MI325X и MI355X объединяются в стандартные серверные узлы по 8 штук (формат UBB/OAM). Для создания суперкомпьютера эти узлы связываются друг с другом через стандартный Ethernet (RoCE v2) или InfiniBand, а не через проприетарный "rack-scale" интерконнект, как у Nvidia, что снижается эффективность обмена данными в несколько раз.

Ну и самое главное – CUDA движок, целый стек супероптимизированных библиотек под различные задачи. Железо – не столь критичное, если нет программной обвязки – стабильные драйвера + библиотеки, SDK, компиляторы, программные оболочки, оптимизированные в единую экосистему ИИ.

CUDA и программный стек – это нервная система и мозг ИИ.

С 2007 года миллионы студентов и ученых учились программировать именно на CUDA. Все научные статьи, все прорывные алгоритмы изначально пишутся под CUDA. Это целый мир, созданный под компьютерные игры, но отмасштабированный и оптимизированный под ИИ.

Я даже не собираюсь вдаваться в подробности, это отдельный мир, но именно благодаря CUDA движкам все работает. Железо можно «скопировать», но не экосистему, ее можно только вырастить (здесь нужны поколения разработчиков).

А еще Nvidia строит ИИ фабрики под ключ – это отдельная тема.

Как заметили, я даже не касался чипов Blackwell. AMD продает отличные чипы (двигатель), а Nvidia продает гоночные болиды с командой механиков и инженеров вместе с моторхоумом.

Источник: Telegram-канал "Spydell_finance"

Топ

Лента новостей