A3 от Google Cloud: Мощный суперкомпьютер для обучения сложных моделей ИИ
Google Cloud анонсировала разработку суперкомпьютера Compute Engine A3, специально предназначенного для развития искусственного интеллекта. Этот мощный компьютер будет использоваться для обучения и обслуживания самых требовательных моделей ИИ.
Виртуальные машины A3 объединяют в себе графические процессоры Nvidia H100 с тензорными ядрами и передовыми технологиями Google. Что отличает A3 от других графических процессоров, так это использование специально разработанных IPU (интерпроцессорных устройств) со скоростью передачи данных до 200 Гбит/с. При этом передача данных между графическими процессорами осуществляется через отдельные интерфейсы, обеспечивая до 10 раз большую пропускную способность сети по сравнению с виртуальными машинами A2, обходя узел ЦП и другие сети виртуальных машин.
Интеллектуальная сетевая структура центра обработки данных Jupiter масштабируется до десятков тысяч графических процессоров, что позволяет использовать реконфигурируемые оптические каналы с полной пропускной способностью и настраивать топологию по требованию. Это позволяет достичь пропускной способности, сопоставимой с более дорогими неблокирующими сетевыми структурами, при снижении общей стоимости владения.
Суперкомпьютер A3 имеет масштаб, обеспечивающий производительность до 26 экзафлопс для задач искусственного интеллекта, что существенно сокращает время и затраты на обучение больших моделей машинного обучения.
Виртуальные машины A3 также позволяют достичь 30-кратного увеличения производительности логических выводов по сравнению с моделями A2, идеально подходя для работы с рабочими нагрузками, требующими логических выводов.
Основные особенности A3 включают:
- 8 графических процессоров H100 с архитектурой Nvidia Hopper, обеспечивающие 3-кратную вычислительную производительность.
- Пропускная способность 3,6 ТБ/с между 8 графическими процессорами A3 через технологии Nvidia NVSwitch и NVLink 4.0.
- Масштабируемые процессоры Intel Xeon нового поколения с высокой производительностью.
- 2 ТБ оперативной памяти через модули DIMM DDR5 4800 МГц, обеспечивающие высокую скорость работы.
- Увеличенная в 10 раз пропускная способность сети благодаря аппаратным IPU, специализированному стеку межсерверной связи GPU и оптимизации NCCL.
Виртуальные машины A3 предоставят компаниям возможность обучать более сложные модели с высокой скоростью и создавать большие языковые модели и генеративный искусственный интеллект. Эти новые возможности, предлагаемые Google Cloud, открывают широкие перспективы для развития и применения искусственного интеллекта в различных сферах.
A3 можно развернуть на Vertex AI, интегрированной платформе для разработки моделей машинного обучения в полностью управляемой инфраструктуре. Кроме того, клиенты, желающие создать собственный программный стек, могут развернуть виртуальные машины A3 на Google Kubernetes Engine и Compute Engine.
Google Cloud стремится предоставить клиентам лучшие инструменты и технологии для разработки и внедрения искусственного интеллекта. В рамках конференции Google I/O 2023 были также представлены новые функции и базовые модели, а также объявлено о внедрении генеративного искусственного интеллекта в Vertex AI для большего числа клиентов.
Google активно интегрирует искусственный интеллект в различные продукты, предоставляя уникальные возможности и высокую производительность.