ИИ-стартапы переходят на собственный сбор данных для обучения моделей
Стартапы в области искусственного интеллекта всё чаще отказываются от автоматического сбора данных из интернета в пользу собственных, тщательно отобранных наборов информации. Как выяснило издание TechCrunch, компании готовы платить высокие гонорары за качественные данные, которые собираются вручную.
Одной из таких компаний является Turing Labs, которая нанимает фрилансеров для записи видео с помощью камер GoPro, закреплённых на голове. Художница Тейлор и её соседка по комнате неделю занимались творчеством и домашними делами, снимая синхронизированные видео с разных ракурсов.
«Мы просыпались, выполняли обычные дела, затем крепили камеры на голову и синхронизировали время, — рассказала Тейлор. — Потом готовили завтрак и мыли посуду. Затем расходились и работали над искусством».
По словам Тейлор, работа вызывала головные боли, а после снятия камер на лбу оставались красные следы. Целью Turing было не обучение ИИ созданию картин, а развитие навыков последовательного решения задач и визуального мышления.
Главный офицер по AGI Turing Садаршан Сивараман объяснил, что ручной сбор — единственный способ получить достаточно разнообразный набор данных:
«Мы делаем это для многих видов синего воротничка, чтобы иметь разнообразие данных на этапе предварительного обучения. После сбора всей этой информации модели смогут понять, как выполняется определённая задача».
Компания Fyxer, разрабатывающая ИИ для сортировки электронной почты, также делает ставку на качество данных. Основатель Ричард Холлингсворт заявил:
«Мы поняли, что качество данных, а не их количество, действительно определяет производительность».
На начальном этапе в Fyxer инженеров и менеджеров иногда в четыре раза превосходили по численности ассистенты руководителей, которые обучали модель. Холлингсворт считает, что сложность сбора данных является конкурентным преимуществом компании.
В Turing около 75-80% данных являются синтетическими, созданными на основе оригинальных видео. Но Сивараман подчёркивает, что качество исходных данных остаётся критически важным:
«Если данные предварительного обучения сами по себе некачественные, то всё, что вы делаете с синтетическими данными, также не будет качественным».
Эксперты отмечают, что по мере развития ИИ-индустрии компании всё больше ценят эксклюзивные, тщательно отобранные данные, которые невозможно просто скачать из интернета.
0 комментариев