ИИ-токены выходят из-под контроля: компании ищут способы обуздать расходы на искусственный интеллект
По всей отрасли компании начинают отказываться от высоких цен на ИИ. Uber израсходовал весь свой бюджет на ИИ-кодинг за 2026 год уже к апрелю. Microsoft отозвала лицензии Claude Code у своих разработчиков спустя несколько месяцев после их активации. Сотрудник Priceline сообщил TechCrunch, что стандартное продление контракта с Cursor обошлось в 4-5 раз дороже.
Несмотря на снижение цен за токен, стремление к более широкому внедрению ИИ и все более автономные агенты привели к резкому росту потребления токенов. Компании, которые в начале 2025 года активно пользовались подписками с безлимитным доступом, теперь пытаются понять, куда уходят деньги, сократить расходы и выяснить, можно ли извлечь хоть какую-то окупаемость инвестиций из руин своих бюджетов.
Тем временем формируется рынок для решения этой проблемы. Стартапы, известные вендоры и новый орган по стандартизации стремятся предоставить компаниям инструменты и методы для отслеживания расходов.
«Шесть месяцев назад в разговоре с клиентом речь шла о том, „Что это может сделать? Достаточно ли это хорошо?" — рассказал TechCrunch на мероприятии в Нью-Йорке Александр Эмбирикос, глава корпоративного направления OpenAI. — Сейчас таких разговоров уже нет. Теперь речь идет о том, „Эй, мы тратим слишком много. Какую прозрачность вы можете обеспечить? Какие у вас возможности аудита? Какие у вас средства контроля токенов? Насколько эффективны ваши модели?"»
На этом фоне Linux Foundation на этой неделе объявила о планах создания Tokenomics Foundation — нового органа по стандартизации, который стремится внедрить ту же дисциплину в отношении затрат на ИИ-токены, которую FinOps внедрил для облачных расходов.
«В апреле и мае я начал слышать от компаний: „Боже мой, мы превысили наш бюджет на токены на 2026 год в три раза, а ведь только апрель", — рассказал TechCrunch Дж.Р. Стормонт, исполнительный директор FinOps Foundation, проекта под эгидой Linux Foundation. — Мы начали слышать об экзистенциальных кризисах, и весь разговор сместился с „максимизации токенов" и „действуй быстро" на „нам нужны ограничения, как это контролировать?"»
Эти крики, разнесшиеся по всему техмиру, последовали за настойчивыми требованиями генеральных директоров, которые призывали свои команды использовать лучшие модели и действовать быстро, невзирая на затраты. Новые модели, выпущенные в ноябре, такие как Claude Opus 4.5 от Anthropic, GPT-5.1 от OpenAI и Gemini 3 Pro от Google, принесли значительные улучшения в агентные инструменты, что многократно увеличило потребление. Именно так одна компания, по сообщениям, получила счет от Anthropic на $500 млн (~40 млрд рублей), забыв установить лимиты использования для сотрудников.
«Это как эпидемия крэк-кокаина, — сказал Крис Рид, старший директор по ИТ-финансам в Priceline, отметив, что компания начала устанавливать лимиты токенов для определенных групп. — Вам дают попробовать, чтобы подсадить, и теперь вы от этого зависите».
Виталий Гордон, генеральный директор платформы для инженерных операций Faros AI, рассказал, что недавно разговаривал с техническим директором, который сказал ему: «Один из моих инженеров потратил в прошлом месяце $40 000 (~3,2 млн рублей) на токены, и я искренне не знаю, должен ли я его остановить или мне пойти и сказать всем остальным быть как он».
Мартовский опрос Faros показал, что среди 20 000 разработчиков производительность росла, но также росло количество багов и переписываний кода. Jellyfish, платформа для управления разработкой, также обнаружила, что инженеры, использующие больше всего токенов, были примерно в два раза продуктивнее тех, кто использовал ИИ реже, но они тратили в 10 раз больше токенов для достижения этого.
Николас Арколано, руководитель исследовательского отдела Jellyfish, сообщил TechCrunch по электронной почте, что расходы на ИИ резко возрастают во многом из-за агентных функций, при этом потребление на одного разработчика выросло примерно в 18,6 раза за девять месяцев. В целом, эти данные делают аргументы в пользу продуктивности менее очевидными, чем предполагают расходы.
«Окупается ли экстремальный расход, зависит от конечной бизнес-ценности поставленного кода (например, дохода), которую большинство компаний до сих пор не могут измерить», — сказал Арколано.
По крайней мере, часть проблемы измерения связана с огромными масштабами использования ИИ сегодня.
«Отслеживание облачных затрат — это проблема данных с сотнями миллионов строк в месяц, — сказал Стормонт. — Отслеживание затрат на токены — это проблема данных с триллионами строк в месяц. Вы не можете просто засунуть это в какую-нибудь электронную таблицу или даже простой инструмент. Вам нужно принципиально переосмыслить свои инструменты, спецификации и бухгалтерские системы, чтобы сделать это».
В Priceline Рид уже видит расхождения. Он отметил проблемы между отчетами об использовании от вендора и внутренними данными Priceline.
«Я начинал свою карьеру в управлении расходами на телекоммуникации и вижу все те же параллели: от телекома к облаку и к ИИ, — сказал он. — Каждый раз, когда появляется что-то новое, оно становится благодатной почвой для ошибок в выставлении счетов, аудита и возможностей для оптимизации».
Вокруг этой проблемы начинает формироваться рынок. Есть специализированные компании, такие как Pay-i, которая отслеживает, измеряет и оптимизирует затраты и производительность инвестиций в GenAI. Paid, в свою очередь, позволяет разработчикам отслеживать затраты, измерять использование и выставлять счета пользователям на основе фактической ценности, а не абонентской платы.
Существуют также компании, такие как Jellyfish, Waydev и Faros AI, которые предоставляют мониторинг ИИ-агентов для доказательства окупаемости инвестиций в инструменты для разработчиков. Стормонт говорит, что большинство из 180 вендоров в составе Finops Foundation склоняются к этой сфере.
Компании с существующей дистрибуцией также добавляют новые функции, чтобы извлечь выгоду из этого нового рынка. Ramp недавно перешла к управлению ИИ-расходами; Datadog и New Relic добавили такие услуги, как управление облачными затратами, наблюдаемость на уровне токенов и мониторинг GPU. На конференции FinOps X на следующей неделе ожидается, что AWS представит новые функции финансового управления, ориентированные на корпоративные расходы на ИИ.
Тиффани Лак, партнер NEA, считает, что эффективность токенов и наблюдаемость, вероятно, будут добавлены на «уровне оркестрации или приложения». Она указала на Factory, стартап, создающий ИИ-агентов для предприятий, который на этой неделе запустил модель-роутер, автоматически выбирающий правильную модель для каждой задачи.
Гордон ожидает, что ведущие лаборатории и другие поставщики моделей примут оптимизацию в стиле OpenRouter для направления запросов к самым дешевым моделям — тенденция, уже заметная в корпоративных счетах Claude.
«Финансовый отчет о том, сколько вы тратите на Anthropic, даже если вы вызываете модель Opus, часть расходов будет приходиться на Sonnet или Haiku, потому что они достаточно умны, чтобы это сделать, — сказал Гордон. — Я думаю, это будет становиться все более распространенным явлением».
Но все эти инструменты создаются без общего языка или единых определений того, сколько стоит токен, что он производит и как сравнивать расходы между разными вендорами. Именно здесь Tokenomics Foundation надеется оказаться полезным.
Фонд создает каноническое определение и структуру для «токеномики»: открытые стандарты, спецификации и метрики для использования и выставления счетов за ИИ-токены, а также новые метрики для экономики ИИ, такие как стоимость за единицу интеллекта или токены на ватт. Он также планирует определить метрики для эффективности производства токенов и эффективности потребления. Группа планирует официальный запуск в июле и собирается объявить о новых участниках на конференции FinOps X на следующей неделе.
«Экономика токенов принципиально более абстрактна и непрозрачна, чем все, чем мы управляли в таких масштабах раньше, — заявил Нишант Гупта, директор по доступности Salesforce. — Она требует иной операционной дисциплины, чем та, которую индустрия создала для облака».
Тем не менее, Goldman Sachs прогнозирует, что глобальное использование токенов увеличится в 24 раза к 2030 году. Компании, уже превысившие бюджет, нуждаются в решениях сейчас, а первый результат работы фонда ожидается через несколько месяцев.
«Возможно, мы создали паровой двигатель, но мы еще не придумали сборочную линию», — сказал Гордон.
По словам Арколано, разумным шагом является широкое, но умеренное внедрение.
«Наилучшая окупаемость инвестиций достигается за счет перевода широкой „середины" от низкого к умеренному использованию, а не за счет продвижения „тяжелых" пользователей к еще более высокому», — сказал он.

0 комментариев