DeepSeek не так революционен?

2 февраля 2025, 21:22 / Технологии → Новости / Технологии

Китайский стартап DeepSeek недавно оказался в центре внимания в мире технологий благодаря поразительно низкому использованию вычислительных ресурсов для своей продвинутой модели ИИ

Thumbnail: Искусственный интеллект Иску́сственный интелле́кт (ИИ; англ. artificial intelligence, AI) — свойство искусственных интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека (не следует путать с искусственным сознанием); наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ. Искусственный интеллект связан со сходной задачей использования компьютеров для понимания человеческого интеллекта, но не обязательно ограничивается биологически правдоподобными методами. Существующие на сегодня интеллектуальные системы имеют довольно узкие области применения. Википедия

под названием R1, которая, как полагают, может конкурировать с o1 от Open AI. Однако SemiAnalysis сообщает, что DeepSeek потребовалось 1,6 млрд долларов на аппаратные затраты и 50 000 графических процессоров Hopper для разработки своей следующей модели, что подрывает идею о том, что DeepSeek заново изобрел обучение и вывод ИИ.

DeepSeek управляет обширной вычислительной инфраструктурой с приблизительно 50 000 графических процессоров Hopper, утверждается в отчете. Это включает 10 000 H800 и 10 000 H100, с дополнительными закупками единиц H20, согласно SemiAnalysis. Эти ресурсы распределены по нескольким местам и служат таким целям, как обучение ИИ, исследования и финансовое моделирование. Общий объем капитальных вложений компании в серверы составляет около 1,6 млрд долларов, при этом, по оценкам, 944 млн долларов было потрачено на эксплуатационные расходы, согласно SemiAnalysis.

DeepSeek привлек внимание мира ИИ, когда раскрыл крошечные требования к оборудованию своей модели ИИ DeepSeek-V3 Mixture-of-Experts (MoE), которые значительно ниже, чем у моделей, базирующихся в США. Затем DeepSeek потряс мир высоких технологий моделью ИИ R1, конкурентоспособной на Open AI. Но затем авторитетная компания по анализу рынка SemiAnalysis раскрыла свои выводы, указывающие на то, что DeepSeek использовала около 1,6 млрд долларов оборудования для R1.

DeepSeek происходит от High-Flyer, китайского хедж-фонда, который одним из первых принял ИИ и вложил значительные средства в графические процессоры. В 2023 году High-Flyer запустил DeepSeek как отдельное предприятие, сосредоточенное исключительно на ИИ. В отличие от многих конкурентов, DeepSeek остается самофинансируемым, что дает ему гибкость и скорость в принятии решений. Несмотря на заявления о том, что это второстепенное ответвление, компания инвестировала более 500 миллионов долларов в свою технологию, согласно SemiAnalysis.

Главным отличием DeepSeek является его способность управлять собственными центрами обработки данных, в отличие от большинства других стартапов ИИ, которые полагаются на внешних поставщиков облачных услуг. Эта независимость позволяет полностью контролировать эксперименты и оптимизации моделей ИИ. Кроме того, она обеспечивает быструю итерацию без внешних узких мест, что делает DeepSeek высокоэффективным по сравнению с традиционными игроками в отрасли.

Затем есть кое-что, чего не ожидаешь от китайской компании: привлечение талантов из материкового Китая, без переманивания из Тайваня или США. DeepSeek нанимает исключительно из Китая, уделяя особое внимание навыкам и способностям решения проблем, а не формальным полномочиям, согласно SemiAnalysis. Усилия по подбору персонала нацелены на такие учреждения, как Пекинский университет и Чжэцзянский университет, предлагая весьма конкурентоспособные зарплаты. Некоторые исследователи ИИ в DeepSeek зарабатывают более 1,3 миллиона долларов, что превышает компенсацию в других ведущих китайских фирмах ИИ, таких как Moonshot, согласно исследованию.

Благодаря притоку талантов DeepSeek стала пионером инноваций, таких как Multi-Head Latent Attention (MLA), что потребовало месяцев разработки и значительного использования GPU, сообщает SemiAnalysis. DeepSeek делает акцент на эффективности и алгоритмических улучшениях, а не на масштабировании методом грубой силы, меняя ожидания относительно разработки моделей ИИ. Этот подход по многим причинам заставил некоторых поверить, что быстрые достижения могут снизить спрос на высокопроизводительные GPU, что повлияет на такие компании, как Nvidia.

Недавнее заявление о том, что DeepSeek обучила свою последнюю модель всего за 6 миллионов долларов, подогрело большую часть шумихи. Однако эта цифра относится только к части общей стоимости обучения — в частности, времени GPU, необходимого для предварительного обучения. Она не учитывает исследования, уточнение модели, обработку данных или общие расходы на инфраструктуру. На самом деле DeepSeek потратила более 500 миллионов долларов на разработку ИИ с момента своего создания. В отличие от более крупных фирм, обремененных бюрократией, гибкая структура DeepSeek позволяет ей агрессивно продвигаться вперед в инновациях ИИ, считает SemiAnalysis.

Рост DeepSeek подчеркивает, как хорошо финансируемая, независимая компания ИИ может бросить вызов лидерам отрасли. Однако публичный дискурс был обусловлен шумихой. Реальность сложнее: успех DeepSeek основан на стратегических инвестициях в миллиарды долларов, технических прорывах и конкурентоспособной рабочей силе. Это означает, что чудес не бывает. Как заметил Илон Маск около года назад, если вы хотите быть конкурентоспособными в ИИ, тратьте миллиарды в год, судя по всему, именно это и было потрачено.

Источник: Tomshardware.com