Новое ПО от Phison повышает эффективность памяти для обучения ИИ
Стенд Phison на GTC 2024 преподнес неожиданный сюрприз: компания продемонстрировала единственную рабочую станцию с четырьмя графическими процессорами, использующую твердотельные накопители и DRAM для расширения эффективного пространства памяти для рабочих нагрузок ИИ, что позволяет ей выполнять рабочую нагрузку, которая обычно требует 1,4 ТБ видеопамяти, распределенной по 24 графическим процессорам H100. Новая платформа компании aiDaptiv+ предназначена для снижения барьеров при обучении ИИ LLM за счет использования системной DRAM и твердотельных накопителей для увеличения объема видеопамяти графического процессора, доступной для обучения, что, по словам Phison, позволит пользователям выполнять интенсивные рабочие нагрузки по генеративному обучению искусственного интеллекта эффективнее, хотя время обучения увеличится.
Преимущество компаний, использующих этот тип развертывания, заключается в том, что они могут снизить затраты, избежать острой нехватки графических процессоров, которая продолжает беспокоить отрасль, а также использовать модели с открытым исходным кодом, которые они обучают локально, что позволяет им хранить конфиденциальные частные данные. Phison и ее партнеры ориентируют платформу на представителей малого и среднего бизнеса и других пользователей, которые не так озабочены общим временем обучения LLM, но могут извлечь выгоду из использования готовых предварительно обученных моделей и обучения их на своих собственных частных наборах данных.
Демонстрация компании послужила убедительным доказательством этой технологии, демонстрируя одну рабочую станцию с четырьмя графическими процессорами Nvidia RTX 6000 Ada A100, работающую с моделью с 70 миллиардами параметров. Более крупные модели ИИ более точны и дают лучшие результаты, но, по оценкам Phison, для модели такого размера обычно требуется около 1,4 ТБ видеопамяти, распределенной по 24 графическим процессорам ИИ, распределенным по шести серверам в серверной стойке, а также все необходимые вспомогательные сетевые и аппаратные средства.
Решение Phison adDaptiv+ использует библиотеку промежуточного программного обеспечения, которая «отрезает» слои модели искусственного интеллекта от VRAM, которые активно не вычисляются, и отправляет их в системную DRAM. Затем данные могут либо остаться в DRAM, если это необходимо, либо их можно сбросить на твердотельные накопители, если они имеют более низкий приоритет. Затем данные вызываются и по мере необходимости перемещаются обратно в видеопамять графического процессора для выполнения вычислительных задач, при этом вновь обработанный слой сбрасывается в DRAM и SSD, чтобы освободить место для обработки следующего слоя.
Компания Phison провела демонстрацию с помощью новой рабочей станции Pro AI от Maingear. Эта демонстрационная система оснащена процессором Xeon w7-3445X, 512 ГБ памяти DDR5-5600 и двумя специализированными твердотельными накопителями Phison емкостью 2 ТБ (подробнее об этом ниже). Однако они выпускаются в нескольких вариантах: от 28 000 долларов США за один графический процессор до 60 000 долларов США за систему с четырьмя графическими процессорами. Естественно, это лишь малая часть суммы, необходимой для объединения шести или восьми обучающих серверов графических процессоров со всеми необходимыми сетевыми ресурсами. Кроме того, эти системы будут работать от одной цепи с током 15 А, тогда как для серверной стойки потребуется гораздо более надежная электрическая инфраструктура.
Maingear является ведущим партнером Phison по оборудованию для новой платформы, но у компании также есть много других партнеров, включая MSI, Gigabyte, ASUS и Deep Mentor, которые также будут предлагать решения для новой платформы.
Новые твердотельные накопители aiDaptiveCache ai100E от Phison имеют стандартный форм-фактор M.2, но специально разработаны для кэширования рабочих нагрузок. Phison пока не раскрывает подробную информацию об этих твердотельных накопителях, но мы знаем, что они используют флэш-память SLC для повышения производительности и долговечности. Диски рассчитаны на 100 операций записи в день в течение пяти лет, что является исключительной долговечностью по сравнению со стандартными твердотельными накопителями.
Промежуточное ПО aiDaptive находится под слоем Pytorch/Tensor Flow. Phison утверждает, что промежуточное программное обеспечение прозрачно и не требует модификации приложений искусственного интеллекта.
Проведение такого типа обучения на одной рабочей станции, очевидно, значительно снизит затраты, но это происходит за счет производительности. Phison прогнозирует, что эта отдельная установка потребует в шесть раз меньше графических процессоров, но обучение модели займет примерно в четыре раза больше времени. Компания также предлагает вариант горизонтального масштабирования, который объединяет четыре узла чуть более чем за половину стоимости, что, по ее словам, сокращает время обучения для модели 70B до 1,2 часа по сравнению с 0,8 часа в системе с 30 графическими процессорами.
У Phison есть ряд партнеров, которые выведут на рынок системы для нового программного обеспечения, и мы ожидаем увидеть больше анонсов в ближайшие месяцы. Как всегда, доказательством производительности будут сторонние тесты, но, поскольку системы теперь доступны клиентам Phison, вероятно, не пройдет много времени, прежде чем мы увидим несколько реальных примеров.
0 комментариев