В чем заключается исключительность Nvidia?
Я за 2-3 года пересмотрел достаточно выступлений Хуанга, чтобы понимать его преимущества, поэтому выделю самое главное.
Межпроцессорное взаимодействие через интерконнект (NVLink и NVSwitch).
Не имеет значение, насколько производителен изолированный чип – какой бы совершенной не была архитектура чипа, в обучении и развертывании нейросетей имеет значение масштабирование. Буквально, непрерывное «размножение» чипов, работающих по единому алгоритму.
Скорость обучения модели зависит не от того, как быстро считает один чип, а от того, как быстро эти чипы обмениваются данными между собой. В ИИ фабриках тысячи или сотни тысяч чипов объединяются в «единый кибернетический организм».
Оказывается, что ценность Nvidia скорее даже не в чипах Blackwell, а в интерконнекторах, т.е. умение связывать десятки, а далее тысячи и сотни тысячи чипов в единую систему.
Nvidia NVLink: это проприетарный протокол связи, позволяющий GPU общаться друг с другом на скорости до 1.8 TB/s (терабайт в секунду), минуя медленный центральный процессор (CPU) и стандартную шину PCIe.
AMD и другие используют открытые стандарты (как Ethernet или Infinity Fabric), которые пока проигрывают в латентности и пропускной способности при масштабировании на тысячи устройств. У Nvidia здесь монополия на эффективность кластера.
Сетевая инфраструктура (Spectrum-X/Mellanox). Nvidia владеет технологией, которая оптимизирует передачу данных внутри дата-центра именно под задачи ИИ, используя технологии вроде In-Network Computing (когда часть вычислений происходит прямо в сетевых коммутаторах), снижая задержки, повышая скорость обмена данными.
Сетевое оборудование Nvidia через коммутаторы Spectrum-X и InfiniBand управляет трафиком так, чтобы чипы никогда не простаивали в ожидании данных.
Это позволяет объединить вычислительные кластеры в вычислительные модули, фермы, а далее масштабировать уже на весь завод, что делает вычисления согласованными и синхронизированными.
AMD вынуждена полагаться на партнеров (Broadcom, Cisco) и стандартный Ethernet, что создает барьер для масштабирования вычислительных кластеров.
Архитектура вычислительных кластеров в рамках "Rack-Scale" против "Chip-Scale".
Подход Nvidia (GB200 NVL72): инженеры Nvidia соединили 72 чипа Blackwell в единую стойку, которая работает как один гигантский графический процессор. Благодаря технологии NVLink пятого поколения, все 72 чипа общаются друг с другом на скорости 1.8 ТБ/с (иногда сопоставимо, чем память внутри самого чипа у многих конкурентов). Для операционной системы это выглядит не как "кластер серверов", а как одна видеокарта с колоссальной памятью.
Чипы AMD MI325X и MI355X объединяются в стандартные серверные узлы по 8 штук (формат UBB/OAM). Для создания суперкомпьютера эти узлы связываются друг с другом через стандартный Ethernet (RoCE v2) или InfiniBand, а не через проприетарный "rack-scale" интерконнект, как у Nvidia, что снижается эффективность обмена данными в несколько раз.
Ну и самое главное – CUDA движок, целый стек супероптимизированных библиотек под различные задачи. Железо – не столь критичное, если нет программной обвязки – стабильные драйвера + библиотеки, SDK, компиляторы, программные оболочки, оптимизированные в единую экосистему ИИ.
CUDA и программный стек – это нервная система и мозг ИИ.
С 2007 года миллионы студентов и ученых учились программировать именно на CUDA. Все научные статьи, все прорывные алгоритмы изначально пишутся под CUDA. Это целый мир, созданный под компьютерные игры, но отмасштабированный и оптимизированный под ИИ.
Я даже не собираюсь вдаваться в подробности, это отдельный мир, но именно благодаря CUDA движкам все работает. Железо можно «скопировать», но не экосистему, ее можно только вырастить (здесь нужны поколения разработчиков).
А еще Nvidia строит ИИ фабрики под ключ – это отдельная тема.
Как заметили, я даже не касался чипов Blackwell. AMD продает отличные чипы (двигатель), а Nvidia продает гоночные болиды с командой механиков и инженеров вместе с моторхоумом.







































