Tensormesh привлекла $4,5 млн для повышения эффективности AI-инференса
На фоне стремительного роста спроса на AI-инфраструктуру возникает все больше потребности в максимально эффективном использовании вычислительных мощностей GPU. Исследователям, обладающим экспертизой в конкретных технологиях, сейчас особенно благоприятное время для привлечения финансирования.
Именно это и стало движущей силой для компании Tensormesh, которая на этой неделе вышла из режима скрытой разработки, привлекши $4,5 млн (около 360 млн рублей) в рамках посевного раунда. Инвестиции возглавила Laude Ventures, также участвовали бизнес-ангелы, включая пионера в области баз данных Майкла Франклина.
Tensormesh планирует направить средства на создание коммерческой версии утилиты с открытым исходным кодом LMCache, которую разработал и поддерживает сооснователь компании Ихуа Ченг. При грамотном использовании LMCache способна снизить стоимость инференса в 10 раз — это преимущество сделало её популярным инструментом в проектах с открытым кодом и привлекло интеграции от таких гигантов, как Google и Nvidia. Теперь Tensormesh намерена превратить свою академическую репутацию в успешный бизнес.
В основе продукта лежит кэш «ключ-значение» (KV cache) — система памяти, которая обрабатывает сложные входные данные более эффективно, сжимая их до ключевых значений. В традиционных архитектурах этот кэш удаляется после каждого запроса, однако сооснователь и генеральный директор Tensormesh Джунчен Цзян утверждает, что это приводит к огромным потерям эффективности.
«Это похоже на очень умного аналитика, который читает все данные, но забывает всё, что узнал, после каждого вопроса», — говорит Цзян.
Вместо удаления кэша системы Tensormesh сохраняют его, что позволяет повторно использовать данные при выполнении моделью похожего процесса в другом запросе. Поскольку память GPU — крайне ценный ресурс, это может потребовать распределения данных по нескольким уровням хранения, но в результате значительно возрастает мощность инференса при той же нагрузке на серверы.
Это изменение особенно эффективно для чат-интерфейсов, где модели должны постоянно обращаться к растущему логу переписки по мере развития диалога. Схожие проблемы возникают в агентских системах с увеличивающимся журналом действий и целей.
Теоретически AI-компании могли бы реализовать подобные изменения самостоятельно, но техническая сложность делает эту задачу пугающей. Опираясь на исследовательский опыт команды Tensormesh и сложность самой технологии, компания рассчитывает на высокий спрос на готовое решение.
«Сохранение KV cache во вторичной системе хранения и его эффективное повторное использование без замедления всей системы — очень сложная задача, — отмечает Цзян. — Мы видели, как компании нанимали 20 инженеров и тратили три-четыре месяца на создание подобной системы. А они могут использовать наш продукт и сделать это очень эффективно».
ИИ: В условиях, когда стоимость вычислений для AI продолжает расти, а эффективность становится ключевым конкурентным преимуществом, подход Tensormesh выглядит крайне своевременным. Возможность значительно увеличить производительность инференса без покупки дополнительного дорогостоящего оборудования — это именно то, что нужно рынку в 2025 году.
0 комментариев