Стартап XDOF привлёк $70 млн для создания «фабрики данных» для обучения роботов
Сбор данных для обучения роботов — грязная и неблагодарная работа. Некоторые лаборатории ИИ уже платят XDOF за её выполнение.
Две недели назад OpenAI объявила о возобновлении программы по робототехнике, закрытой в 2021 году. Это последний сигнал того, что крупнейшие лаборатории ИИ соревнуются за обучение машин взаимодействию с физическим миром. Однако создание способных роботов требует того, чего у индустрии ИИ пока нет — обучающих данных, сопоставимых с теми, что используются для языковых моделей.
Этот пробел порождает новый вид инфраструктурного бизнеса. В отличие от LLM, обученных на огромном массиве общедоступных текстов, роботам нужны данные, фиксирующие физическое взаимодействие, и таких данных практически не существует. YouTube-видео и записи, сделанные внештатными работниками, имеют низкое качество и их трудно соотнести с физическим миром.
Стартап XDOF (произносится «экс-доф»), выходящий из режима скрытой разработки сегодня, делает ставку на то, что следующим узким местом в ИИ будут не модели или чипы, а цикл обратной связи по данным, необходимый для обучения роботов взаимодействию с физическим миром.
Стартап намерен создать конвейеры данных, инструменты сбора и системы аннотации, которые передовые лаборатории и робототехнические компании не могут легко построить сами. Для этого он привлёк $70 млн (около 5,6 млрд рублей) от Thrive Capital, Spark Capital, a16z, Lux и WndrCo. Сооснователь и генеральный директор Филипп Ву сообщил, что XDOF, в котором работает около 60 сотрудников, уже сотрудничает с 20 клиентами, включая несколько ведущих лабораторий ИИ, но не может назвать их.
«Все ведущие лаборатории пытаются заниматься робототехникой, — сказал Ву. — Мы уже видели некоторые последствия отставания в гонке языковых моделей… вы не хотите оказаться в ситуации, когда начнёте развивать эту технологию слишком поздно, и все понимают, что физический ИИ — это следующий рубеж».
Ву сам столкнулся с этой проблемой, будучи аспирантом Калифорнийского университета в Беркли. Он сосредоточился на обучении роботов навыкам на основе крупномасштабных наборов данных. Была лишь одна проблема.
«У нас не было крупномасштабных данных для работы, — рассказал он TechCrunch. — Существовала проблема курицы и яйца: сначала нам нужно было собрать данные, прежде чем мы могли даже задаться вопросом, как обучать базовую модель для робототехники».
Ву и его будущий сооснователь и технический директор XDOF Фред Шенту работали над проектом GELLO — недорогой системой телеуправления, позволяющей человеку-оператору управлять роботизированной рукой для создания обучающих данных. «В итоге это стало очень влиятельной работой в робототехнике, потому что у многих людей были схожие потребности и узкие места, и многие начали использовать такие устройства для сбора данных», — сказал Ву.
Увидев возможность, Ву, Шенту и третий сооснователь и главный операционный директор Немо Джин запустили XDOF в октябре 2024 года, чтобы создать экосистему данных для компаний, разрабатывающих модели робототехники. Понимая, что только предоставление данных может быть тупиковым бизнесом, компания также сосредоточена на очистке данных, инструментарии и аннотации, создавая самоподдерживающийся цикл обратной связи для «тренеров» роботов.
В качестве отправной точки компания сотрудничает с лабораторией ИИ Калифорнийского университета в Беркли, чтобы выпустить то, что, по её мнению, является крупнейшей коллекцией высококачественных обучающих данных для роботов из когда-либо собранных, получившей название ABC. Она включает 130 000 траекторий данных по управлению роботами, 300 часов симуляции и 100 часов оценок. Такой масштаб предварительных обучающих данных ранее был недоступен для академических кругов.
«Мы видели в области языка, генерации изображений и других сферах, что когда модели и данные публикуются, сообщество достигает результатов, которых вы не обязательно ожидали», — рассказал TechCrunch Дэвид Макаллистер, аспирант Беркли, помогавший организовать выпуск.
Команда уже использовала данные для обучения роботов выполнению эталонных задач, таких как складывание футболок, разглаживание коробок или загрузка наушников AirPods в их чехлы.
Неограниченные степени свободы
Компания планирует работать на трёх уровнях «пирамиды данных». Самый ценный уровень — это данные телеуправления, собранные на самом развёртываемом роботе; следующий — телеуправляемые роботы, собирающие более общие данные, как в случае с GELLO; и, наконец, «эгоцентричные» данные, собираемые людьми при выполнении повседневных задач, для чего XDOF планирует создать собственные носимые датчики.
«Выбор камеры повлияет на качество ваших данных, что, в свою очередь, повлияет на работу алгоритма отслеживания рук, — сказал Ву. — Если вы не спроектируете оборудование должным образом с самого начала, собранные данные могут иметь очень специфические проблемы, которые вы не предвидели».
Компания планирует нанимать и обучать армии операторов телеуправления и операторов эгоцентричных данных по всему миру — трудоёмкая модель, которая вызывает очевидный вопрос: почему крупные лаборатории не занимаются этой работой по производству данных сами?
«Вам нужен склад площадью в сотни тысяч квадратных футов с сотнями роботов, — сказал Ву. — Вам нужно обслуживать этих роботов, калибровать их физические параметры и должным образом обучать операторов».
Это развёртывание, требующее сосредоточенности, капитала и операционного масштаба, которые большинство лабораторий ИИ предпочли бы передать на аутсорсинг — именно на этот рынок и делает ставку XDOF.
Название XDOF — игра слов от робототехнического термина «степени свободы», который описывает количество независимых движений, которые может выполнять робот. Рука человека от плеча до запястья имеет семь степеней свободы. Последний робот компании Figure AI имеет 30. Буква X в названии компании отражает её амбиции: «Произвольные степени свободы, неограниченные степени свободы», — говорит Ву.

0 комментариев