Fujitsu использует суперкомпьютер Fugaku для обучения LLM с 13 миллиардами параметров

10 мая 2024, 22:07 / Технологии → Новости / Технологии

Хотя суперкомпьютер Fujitsu Fugaku больше не является самой быстрой в мире машиной в списке 500 лучших суперкомпьютеров, он по-прежнему остается очень функциональной системой, а универсальность процессора A64FX позволяет использовать его для различных рабочих нагрузок, таких как искусственный интеллект

Thumbnail: Искусственный интеллект Иску́сственный интелле́кт (ИИ; англ. artificial intelligence, AI) — свойство искусственных интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека (не следует путать с искусственным сознанием); наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ. Искусственный интеллект связан со сходной задачей использования компьютеров для понимания человеческого интеллекта, но не обязательно ограничивается биологически правдоподобными методами. Существующие на сегодня интеллектуальные системы имеют довольно узкие области применения. Википедия

. На этой неделе Fujitsu выпустила Fugaku-LLM — большую языковую модель с расширенными возможностями обработки японского языка, предназначенную как для исследовательских, так и для коммерческих приложений.

Fugaku-LLM компании Fujitsu была обучена с использованием 380 миллиардов токенов на 13 824 узлах суперкомпьютера Fugaku на базе процессора A64FX, поддерживающего режимы FP64, FP32, FP16 и INT8 для различных приложений искусственного интеллекта и обычных суперкомпьютеров. При обучении Fugaku-LLM, естественно, использовались преимущества методов распределенного параллельного обучения, оптимизированных для архитектуры суперкомпьютера и межсоединения Tofu D.

Fugaku-LLM имеет 13 миллиардов параметров, что выглядит бледно по сравнению со 175 миллиардами GPT-4. Однако Fujitsu заявляет, что ее LLM с 13 миллиардами параметров не требует огромных вычислительных ресурсов для вывода, что будет оптимальным для предприятий и исследователей в Японии. Примерно 60% обучающих данных было на японском языке, а 40% — на английском, математике и коде.

Это обширное обучение, ориентированное на японский язык, отличает ее от других японских моделей, которые обучались в основном на английских языковых наборах данных. В результате Fugaku-LLM может похвастаться превосходным знанием японского языка, получив средний балл 5,5 по японскому тесту MT-Bench — высший балл среди общедоступных моделей, обученных с использованием оригинальных данных из Японии. По данным Fujitsu, модель особенно преуспевает в гуманитарных и социальных науках, получив впечатляющий балл 9,18.

Инициатива Fugaku-LLM возникла благодаря сотрудничеству ведущих японских учреждений, включая Токийский технологический институт, Университет Тохоку, Fujitsu Limited, RIKEN, Университет Нагои, CyberAgent и Kotoba Technologies. Одной из причин их сотрудничества была нехватка графических процессоров, которые обычно используются для обучения моделей искусственного интеллекта и построения логических выводов. Другая причина заключается в том, что эту модель можно использовать со 150-ядерным процессором Fujitsu Monaka для центров обработки данных следующего поколения, оптимизированным как для рабочих нагрузок искусственного интеллекта, так и для высокопроизводительных вычислений.

Модель Fugaku-LLM теперь доступна как для академических, так и для коммерческих целей на определенных условиях лицензирования на GitHub и Hugging Face (хотя Fujitsu не предоставила никаких ссылок). Кроме того, с 10 мая 2024 года она также будет предлагаться через исследовательский портал Fujitsu.