Исследователи нашли способ запускать LLM при мощности лампочки 13 Вт

26 июня 2024, 14:45 / Технологии → Новости / Технологии

Исследовательская статья Калифорнийского университета в Санта-Крусе и сопровождающая ее рецензия, в которой обсуждается, как исследователи искусственного интеллекта нашли способ запускать современные LLM с масштабом в миллиард параметров, потребляя всего 13 Вт мощности. Это примерно то же самое, что и светодиодная лампа мощностью 100 Вт, но, что более важно, она примерно в 50 раз более эффективна, чем мощность 700 Вт, необходимая для графических процессоров центров обработки данных, таких как Nvidia H100 и H200, не говоря уже о грядущем Blackwell B200, который может потреблять до 1200 Вт на графический процессор.

Работа была выполнена с использованием специального оборудования FGPA, но исследователи уточняют, что (большая часть) их повышения эффективности может быть применено за счет программного обеспечения с открытым исходным кодом и настройки существующих настроек. Большая часть преимуществ достигается за счет исключения матричного умножения (MatMul) из процессов обучения и вывода LLM.

Как MatMul был удален из нейронной сети, сохранив при этом ту же производительность и точность? Исследователи объединили два метода. Во-первых, они преобразовали систему счисления в «троичную» систему, используя -1, 0 и 1. Это делает возможными вычисления путем суммирования, а не умножения чисел. Затем они ввели в уравнение вычисления, основанные на времени, предоставив сети эффективную «память», позволяющую ей работать еще быстрее с меньшим количеством выполняемых операций.

Основная модель, которую исследователи использовали в качестве ориентира, — это LLaMa LLM компании Meta

Ме́та — многозначный термин. Википедия

. Это начинание было вдохновлено документом Microsoft об использовании троичных чисел в нейронных сетях, хотя Microsoft не зашла так далеко, чтобы отказаться от матричного умножения или открыть исходный код своей модели, как это сделали исследователи из Калифорнийского университета в Санта-Крус.

Это сводится к проблеме оптимизации. Руй-Цзе Чжу, один из аспирантов, работавших над статьей, говорит: «Мы заменили дорогостоящие операции более дешевыми». Еще неизвестно, может ли этот подход быть универсально применен к решениям искусственного интеллекта и LLM, но если он жизнеспособный, он может радикально изменить ландшафт искусственного интеллекта.

За последний год мы стали свидетелями, казалось бы, ненасытного стремления к власти со стороны ведущих компаний, занимающихся искусственным интеллектом. Это исследование показывает, что во многом это была гонка за первенство при использовании неэффективных методов обработки. Мы слышали комментарии от авторитетных деятелей, таких как генеральный директор Arm, предупреждающих, что продолжающееся увеличение потребностей в мощности ИИ нынешними темпами приведет к потреблению четверти электроэнергии Соединенных Штатов к 2030 году. Сокращение энергопотребления до 1/50 от текущего количества будет представлять собой массовое улучшение.

Мы надеемся, что Meta, OpenAI, Google, Nvidia и все другие крупные игроки найдут способы использовать этот прорыв в области открытого исходного кода. Более быстрая и гораздо более эффективная обработка рабочих нагрузок ИИ приблизит нас к уровню функциональности человеческого мозга — по некоторым оценкам, мозг потребляет примерно 0,3 кВтч энергии в день, или 1/56 того, что требуется Nvidia H100. Конечно, многим LLM требуются десятки тысяч таких графических процессоров и месяцы обучения, поэтому наше серое вещество еще не совсем устарело.

Источник: Tomshardware.com