Guide Labs представила интерпретируемую языковую модель Steerling-8B
Стартап Guide Labs из Сан-Франциско представил языковую модель Steerling-8B с новой архитектурой, которая делает её работу легко интерпретируемой. Каждый токен, сгенерированный моделью, можно отследить до его источника в обучающих данных.
Основатели компании, генеральный директор Джулиус Адейбайо и главный научный сотрудник Ая Абдельсалам Исмаил, стремятся решить проблему «чёрного ящика» в больших языковых моделях (LLM). Их подход предполагает встраивание в модель концептуального слоя, который распределяет данные по отслеживаемым категориям.
То, что мы делаем, — это фактически проектируем модель с нуля так, чтобы вам не нужно было заниматься нейронаукой, — сказал Адейбайо.
По словам разработчиков, такая архитектура не исключает появления у модели новых, неожиданных способностей. Команда отслеживает так называемые «обнаруженные концепции», которые модель выявляет самостоятельно.
Интерпретируемость может быть полезна для блокировки использования защищённых авторским правом материалов, контроля вывода информации о насилии или злоупотреблении наркотиками, а также в регулируемых отраслях, таких как финансы или наука.
Guide Labs утверждает, что Steerling-8B демонстрирует около 90% возможностей существующих моделей, используя при этом меньше обучающих данных. Модель с открытым исходным кодом уже доступна на GitHub. Стартап, прошедший акселератор Y Combinator и привлёкший $9 млн (около 720 тыс. рублей) начального финансирования в ноябре 2024 года, планирует создать более крупную модель и предложить пользователям доступ через API.








0 комментариев