Китайская компания обучила соперника GPT-4 всего с 2000 графических процессоров

14 ноября 2024, 18:47 / Технологии → Новости / Технологии

Поскольку китайские компании не имеют доступа к десяткам тысяч передовых графических процессоров для искусственного интеллекта от таких компаний, как Nvidia, компании из этой страны должны внедрять инновации для обучения своих передовых моделей искусственного интеллекта. Кай-Фу Ли, основатель и глава компании 01.ai, заявил на этой неделе, что его компания обучила одну из своих передовых моделей искусственного интеллекта с использованием 2000 графических процессоров всего за 3 миллиона долларов.

“Моих друзей в Кремниевой долине шокирует не только наша производительность, но и то, что мы потратили на обучение модели всего 3 миллиона долларов, а GPT-4 потратила на обучение от 80 до 100 миллионов долларов”, - сказал Кай-Фу Ли (через @tsarnick). “По слухам, на подготовку GPT-5 выделено около миллиарда долларов. [...] Мы верим в закон масштабирования, но когда вы занимаетесь отличным детальным проектированием, это не так. [...] Как компания в Китае, во-первых, мы имеем ограниченный доступ к графическим процессорам из-за правил США [и более низкой оценки по сравнению с американскими компаниями, производящими ИИ]”.

В отличие от конкурентов, таких как OpenAI

Thumbnail: OpenAI OpenAI — американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта. В состав OpenAI входят зарегистрированная в штате Делавэр некоммерческая организация OpenAI, Inc и её дочерняя коммерческая компания OpenAI Global, LLC. OpenAI ставит перед собой цель разработать «безопасный и полезный» сильный искусственный интеллект, который организация определяет как «высокоавтономные системы, превосходящие человека в выполнении наиболее экономически ценной работы». На пути к этой цели организация создала несколько больших языковых моделей, в том числе GPT-4 и ChatGPT, а также моделей для генерации изображений, как DALL-E; в прошлом она публиковала модели с открытым исходным кодом. Некоммерческая организация OpenAI была основана в декабре 2015 года; её сопредседателями стали Сэм Олтмен и Илон Маск. Википедия

, которые потратили 80-100 миллионов долларов на обучение GPT-4 и, как сообщается, до 1 миллиарда долларов на GPT-5, 01.ai по словам Кай-Фу Ли, на обучение своей высокопроизводительной модели потребовалось всего 3 миллиона долларов. Согласно таблице, представленной на веб-сайте компании, 01.ai Yi-Lightning занимает шестое место по производительности модели, измеряемой LMSIS в Калифорнийском университете в Беркли.

Это достижение, конечно, особенно примечательно из-за впечатляющей экономической эффективности компании. Это резкое различие демонстрирует, что для достижения первоклассных возможностей искусственного интеллекта не всегда требуются огромные бюджеты, поскольку тщательное проектирование и целенаправленная оптимизация могут дать аналогичные результаты при меньших затратах и вычислительных ресурсах.

Считается, что OpenAI использовала 10 000 графических процессоров Nvidia A100 для обучения своей модели GPT-3 и еще много процессоров H100 для обучения своих моделей GPT-4 и GPT-4o. Используя различные инновационные решения, 01.ai пришлось обучать свою модель Yi-Lightning на 2000 нераскрытых графических процессорах. Однако в прошлом году Кай-Фу Ли заявил, что у его компании достаточно графических процессоров, чтобы выполнить план на 1,5 года. Однако цифры не сходятся. Один графический процессор Nvidia H100 стоит около 30 000 долларов, таким образом, две тысячи таких графических процессоров обойдутся в 6 миллионов долларов.

Чтобы повысить производительность модели, 01.ai компания сосредоточилась на сокращении узких мест в процессе логического вывода, превратив вычислительные требования в задачи, ориентированные на память, создав многоуровневую систему кэширования и специализированный механизм логического вывода для оптимизации скорости и распределения ресурсов. В результате затраты на логический вывод

Вывод (лат. conclusio) в логике — процесс рассуждения, в ходе которого осуществляется переход от некоторых исходных суждений (предпосылок) к новым суждениям — заключениям. Вывод может проводиться в несколько этапов—умозаключений. Пример: Заключение — логическая противоположность основанию в логическом выводе. Википедия

ZeroOne.ai значительно ниже, чем у аналогичных моделей, — 10 центов за миллион токенов, что составляет примерно 1/30 от обычной ставки, взимаемой в сопоставимых моделях.

“Когда у нас всего 2000 графических процессоров, команда должна придумать, как их использовать”, - сказал Кай-Фу Ли. “Я, как генеральный директор, должен выяснить, как расставить приоритеты, и тогда мы должны не только ускорить обучение, но и быстро сделать выводы. Итак, наш логический вывод разрабатывается путем выявления узких мест во всем процессе, попытки превратить вычислительную проблему в проблему с памятью, создания многоуровневого кэша, создания специального механизма логического вывода и так далее. Но суть в том, что стоимость нашего вывода составляет 10 центов за миллион токенов”.

Китайские компании в целом и 01.ai в частности, сталкиваются со значительными трудностями. Из-за экспортных ограничений США они имеют минимальный доступ к современным графическим процессорам. Они также имеют более низкую оценку по сравнению с американскими компаниями, производящими ИИ, что влияет на их доступные ресурсы и инвестиционные возможности.

Источник: Tomshardware.com

Китайская компания обучила соперника GPT-4 всего с 2000 графических процессоров

0 комментариев

Оставить комментарий

Все комментарии - Технологии