Бывший директор Tesla AI воспроизводит GPT-2 за 24 часа всего за 672 доллара

13 июля 2024, 16:39 / Технологии → Новости / Технологии

OpenAI

Thumbnail: OpenAI OpenAI — американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта. В состав OpenAI входят зарегистрированная в штате Делавэр некоммерческая организация OpenAI, Inc и её дочерняя коммерческая компания OpenAI Global, LLC. OpenAI ставит перед собой цель разработать «безопасный и полезный» сильный искусственный интеллект, который организация определяет как «высокоавтономные системы, превосходящие человека в выполнении наиболее экономически ценной работы». На пути к этой цели организация создала несколько больших языковых моделей, в том числе GPT-4 и ChatGPT, а также моделей для генерации изображений, как DALL-E; в прошлом она публиковала модели с открытым исходным кодом. Некоммерческая организация OpenAI была основана в декабре 2015 года; её сопредседателями стали Сэм Олтмен и Илон Маск. Википедия

запустила GPT-2 в 2019 году, обучение которого, как сообщается, стоит 256 долларов в час. Однако с тех пор прошло пять лет, и мы уже находимся на GPT-4o. Достижения в аппаратном, программном обеспечении и данных означают, что обучение одной и той же модели займет меньше времени и денег, как доказал Андрей Карпати, разработчик проекта по воспроизведению GPT-2 в llm.c.

Основным фактором экономии средств является использование одного узла 8XH100 для обучения, что снизило стоимость до всего 28 долларов в час — скидка почти 90% всего за пять лет. Nvidia

NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия

выпустила H100 в 2023 году, поэтому OpenAI, вероятно, использовала оборудование с гораздо меньшей мощностью, когда начала работать над GPT-2. Однако количество часов, потраченных на подготовку к GPT-2, неизвестно. Для сравнения, стоимость обучения GPT-4 составила более 100 миллионов долларов.

Еще одна вещь, которая значительно ускорила обучение llm.c, это то, что он напрямую реализовал обучение GPT. Карпати сказал: «Поскольку llm.c представляет собой прямую реализацию обучения GPT на C/CUDA, требования минимальны — нет необходимости в средах conda, интерпретаторах Python, установках pip и т. д. При необходимости вы разворачиваете узел облачного графического процессора. установите NVIDIA cuDNN, NCCL/MPI, загрузите фрагменты данных.bin, скомпилируйте и запустите, и все будет готово за считанные минуты». Он добавил: «Затем вы ждете 24 часа и наслаждаетесь отрывками об англоговорящих единорогах в Андах».

Проект llm.c начал свою жизнь как часть обучающего видео, но вскоре превратился в нечто, что Карпати построил с нуля после того, как он «застрял в некоторых вещах PyTorch». Это показывает страсть Андрея к искусственному интеллекту и то, на что он был готов пойти, чтобы завершить свой проект. Тем не менее, он добился этого не в одиночку, поскольку его поддержали несколько разработчиков со всего мира.

Обучение искусственному интеллекту не становится дешевле

Достижения в области оборудования, программного обеспечения и данных обучения не означают, что передовое обучение искусственному интеллекту становится дешевле. Генеральный директор Anthropic Дарио Амодей заявил, что модели ИИ, обучаемые сегодня, уже стоят 1 миллиард долларов, а более дорогие модели достигнут 100 миллиардов долларов уже в 2025 году.

Это потому, что, хотя оборудование становится более мощным, оно также становится и дороже. Например, Nvidia H100 сейчас стоит 40 000 долларов за штуку. Тем не менее, ожидается, что AI-чипы Blackwell следующего поколения будут стоить 70 000 долларов, а полная серверная стойка будет стоить 3 000 000 долларов и выше, если только мы не найдем аппаратные прорывы, такие как чип Sohu AI, ASIC, предназначенный только для трансформаторов.

Помимо финансовых последствий, растущие требования к мощности центров обработки данных искусственного интеллекта также начинают беспокоить некоторых экспертов. Всего один чип H100, работающий со средним годовым коэффициентом использования 61%, потребляет 3,7 МВтч электроэнергии в год. Учитывая, что Nvidia и все другие игроки продали в прошлом году более 3,8 миллиона графических процессоров AI, это составляет 14,3 ТВтч электроэнергии в год — достаточно, чтобы обеспечить питанием 1,3 миллиона средних американских домохозяйств.

Но даже несмотря на все деньги и власть, вложенные в ИИ, генеральный директор Google DeepMind говорит, что нынешние модели по-прежнему находятся на уровне IQ кошки. Таким образом, нам все еще необходимо инвестировать еще миллиарды долларов в будущие модели. Но если вы хотите попытаться создать свой собственный LLM, используя старые модели, вам не обязательно иметь 12 цифр на своем банковском счете — достаточно ума, необходимого для создания языка, и нескольких сотен долларов.

Источник: Tomshardware.com