HetCCL — библиотека для совместной работы ускорителей ИИ Nvidia и AMD через RDMA
В дата-центрах для задач ИИ критически важна быстрая сетевая связь между узлами. Обычно разработчики используют проприетарные библиотеки, такие как NCCL от Nvidia или RCCL от AMD. Группа южнокорейских учёных представила новую работу, в которой предлагается библиотека HetCCL — независимое от вендора решение, позволяющее кластерам из GPU разных производителей работать как единое целое.
HetCCL использует технологию Remote Direct Memory Access (RDMA), которая позволяет приложениям передавать данные напрямую в память GPU (VRAM) по сети, минуя драйверы и сетевой стек ОС, что экономит ресурсы CPU.
Авторы заявляют, что HetCCL является первой в мире библиотекой, которая может заменить проприетарные CCL, обеспечивая кросс-платформенную коммуникацию и балансировку нагрузки. Её ключевое преимущество — возможность задействовать вычислительные мощности серверных стоек как Nvidia, так и AMD для одной задачи.
Библиотека позиционируется как прямая замена, требующая лишь перелинковки приложения с кодом HetCCL без изменений в исходном коде или драйверах. Это также добавляет поддержку будущих вендоров GPU. Важно, что всё это достигается с минимальными накладными расходами, а в некоторых случаях HetCCL даже превосходит оригинальные библиотеки благодаря более оптимальным настройкам.
Тесты на четырёхузловом кластере (2x4 GPU Nvidia и 2x4 GPU AMD) показали, что в ряде случаев производительность достигает теоретического максимума, эффективно суммируя мощности разных GPU. Это может снизить затраты на обучение моделей и упростить управление задачами.
Основными препятствиями для внедрения остаются привязка к экосистеме конкретного вендора (где стандартом де-факто является Nvidia) и консерватизм системных администраторов, предпочитающих единого поставщика. Кроме того, абстрагирование сетевого слоя — лишь один шаг, так как для обучения моделей по-прежнему требуется множество специфичных для GPU оптимизаций.
Тем не менее, HetCCL демонстрирует, что устранение одного из основных барьеров для создания гетерогенных систем возможно, и это может открыть путь для дальнейших разработок.
ИИ: В 2026 году, когда спрос на вычислительные ресурсы для ИИ продолжает расти, а рынок ускорителей становится более разнообразным, появление таких инструментов, как HetCCL, выглядит крайне своевременным. Это может дать компаниям большую гибкость и потенциально снизить зависимость от одного поставщика, что всегда полезно для конкуренции и инноваций.









0 комментариев