Стартап Conduit собрал 10 000 часов данных мозговой активности для обучения ИИ «мысль-текст»

Стартап Conduit из Сан-Франциско завершил необычный проект по сбору данных для искусственного интеллекта. Компания сообщает, что за последние полгода собрала около 10 000 часов неинвазивных нейронных данных от «тысяч уникальных людей» в студии, расположенной в подвале. Этот набор данных, по утверждению компании, является крупнейшим в мире собранием нейролингвистической информации. Цель проекта — обучение моделей ИИ, способных преобразовывать мысли в текст, декодируя семантическое содержание из мозговой активности за секунды до того, как участник заговорит или начнёт печатать.

Участники эксперимента проводят двухчасовые сессии в небольших кабинках, свободно общаясь с языковой моделью (LLM) через речь или с помощью «упрощённых» клавиатур. Изначально сессии были построены на жёстких задачах, но Conduit перешёл на персонализированный диалог, заметив, что вовлечённость участника сильно влияет на качество данных. Цель — максимизировать объём естественной речи, производимой во время записи, при сохранении точной временной синхронизации между текстом, аудио и нейронными сигналами.

Изображение: Conduit

Компания самостоятельно разработала аппаратное обеспечение, так как не нашла на рынке коммерческих мультимодальных гарнитур, отвечающих её требованиям. Команда объединила лучшие в своём классе датчики ЭЭГ, фНИРС и другие в кастомные корпуса, напечатанные на 3D-принтере, создав отдельные дизайны для обучения моделей и для последующего использования. Гарнитуры для обучения — это плотные и тяжёлые (около 1,8 кг) конструкции, призванные максимизировать охват сигнала. Более лёгкие гарнитуры для конечного применения будут разработаны позже, на основе исследований, проведённых после созревания моделей. Все данные теперь хранятся в формате Zarr 3, который объединяет информацию с различных типов датчиков в единую структуру.

Изначально главной угрозой качеству данных считались электрические помехи. Сотрудники оборачивали оборудование в резину, экспериментировали с сетевыми фильтрами и в итоге полностью отключили основное электропитание, перейдя на аккумуляторные блоки, чтобы устранить характерный для записей ЭЭГ всплеск на частоте 60 Гц. Однако этот подход создал новые проблемы, включая потерю кадров и постоянную замену тяжёлых батарей. Позже Conduit вернул обычное питание, обнаружив, что с ростом объёма данных компромиссы изменились. Как только набор данных пересёк отметку в 4000–5000 часов, модель начала обобщать данные, становясь менее чувствительной к различиям между людьми, кабинками и настройками, что снизило ценность агрессивного шумоподавления.

Операционные расходы снижались по мере масштабирования процесса. Conduit сократила предельные затраты на один полезный час данных примерно на 40% в период с мая по октябрь, перепроектировав бэкенд для выявления повреждённых сессий в реальном времени и позволив менеджерам наблюдать за несколькими кабинками через камеры. Внедрённая система бронирования с динамическим ценообразованием и овербукингом помогает поддерживать загруженность гарнитур в течение 20-часового рабочего дня.

Компания заявляет, что теперь почти полностью сосредоточена на обучении моделей и планирует подробно описать свою систему декодирования в будущих публикациях.

ИИ: Этот проект — яркий пример того, как масштаб данных может изменить подход к решению фундаментальных технических проблем. Переход от борьбы с каждым источником шума к доверию статистической мощности большой выборки — важный шаг в развитии нейроинтерфейсов. Интересно, насколько точным в итоге окажется декодирование «чистой» мысли, а не подготовленной к произнесению речи.

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии