Энтузиаст запустил ИИ-модель с триллионом параметров на ПК с 768 ГБ ОЗУ
Пользователь Reddit под ником APFrisco собрал рабочую станцию с 768 ГБ оперативной памяти и запустил на ней модель Kimi K2.5 с триллионом параметров. Для этого он использовал шесть бывших в употреблении модулей постоянной памяти Intel Optane DCPMM. Скорость вывода составила примерно 4 токена в секунду.
Система построена на процессоре Intel Xeon Gold 6246 и материнской плате Tyan S5630GMRE-CGN. Общий объем оперативной памяти составляет 768 ГБ, включая шесть модулей Samsung DDR4-2666 ECC по 32 ГБ и шесть модулей Intel Optane DCPMM по 128 ГБ.
В качестве графического процессора используются две видеокарты ASUS GeForce RTX 3060 OC 12GB, накопитель — Western Digital WD SN850X 2TB, а блок питания — полностью модульный ASRock Steel Legend SL-850G мощностью 850 Вт.
Программная часть решения использует гибридный метод вывода данных с помощью GPU и CPU на основе файла llama.cpp. С помощью флага override-tensor в llama.cpp система принудительно обрабатывает компонент маршрутизации модели на GPU с общим объемом видеопамяти 24 ГБ, в то время как остальные параметры хранятся и извлекаются из памяти Optane. Это позволяет эффективно избежать узкого места, вызванного недостатком видеопамяти на одной видеокарте.
Хотя продукция Intel Optane снята с производства, её характеристики чтения/записи, занимающие промежуточное положение между DRAM и твердотельными накопителями, делают её уникальной альтернативой дорогостоящим решениям в области памяти.
Аналитики отрасли считают, что по мере развития стандарта высокоскоростного соединения CXL на рынке в будущем появятся более экономичные решения для байтово-адресуемой памяти, способные удовлетворить неотложные потребности в объеме памяти больших языковых моделей.







0 комментариев