Новый проект делает данные Википедии более доступными для ИИ

В среду Wikimedia Deutschland анонсировала новую базу данных, которая сделает богатство знаний Википедии более доступным для моделей искусственного интеллекта.

Система под названием Wikidata Embedding Project применяет векторный семантический поиск — технику, которая помогает компьютерам понимать значение и взаимосвязи между словами — к существующим данным Википедии и её родственных платформ, состоящим из почти 120 миллионов записей.

В сочетании с новой поддержкой Model Context Protocol (MCP) — стандарта, который помогает системам ИИ взаимодействовать с источниками данных, проект делает данные более доступными для запросов на естественном языке от больших языковых моделей.

Проект был реализован немецким отделением Wikimedia в сотрудничестве с компанией нейронного поиска Jina.AI и DataStax, компанией по работе с обучающими данными в реальном времени, принадлежащей IBM.

Wikidata уже много лет предлагает машиночитаемые данные из проектов Wikimedia, но существующие инструменты позволяли выполнять только поиск по ключевым словам и запросы SPARQL, специализированному языку запросов. Новая система будет лучше работать с системами генерации, дополненной извлечением (RAG), которые позволяют моделям ИИ получать внешнюю информацию, давая разработчикам возможность основывать свои модели на знаниях, проверенных редакторами Википедии.

Данные также структурированы для предоставления важного семантического контекста. Например, запрос в базу данных слова «учёный» выдаст списки известных ядерных физиков, а также учёных, работавших в Bell Labs. Также доступны переводы слова «учёный» на разные языки, одобренное Wikimedia изображение учёных за работой и экстраполяции на связанные понятия, такие как «исследователь» и «учёный».

База данных общедоступна на Toolforge. Wikidata также проводит вебинар для заинтересованных разработчиков 9 октября в 17:30 по московскому времени.

Новый проект появился в то время, когда разработчики ИИ активно ищут качественные источники данных, которые можно использовать для тонкой настройки моделей. Сами обучающие системы стали более сложными — часто собираются как сложные обучающие среды, а не простые наборы данных — но они по-прежнему требуют тщательно отобранных данных для эффективной работы. Для развертываний, требующих высокой точности, потребность в надежных данных особенно актуальна, и хотя некоторые могут смотреть на Википедию свысока, её данные значительно более ориентированы на факты, чем всеобъемлющие наборы данных, такие как Common Crawl, который представляет собой массивную коллекцию веб-страниц, собранных со всего интернета.

В некоторых случаях стремление к получению качественных данных может иметь дорогостоящие последствия для лабораторий ИИ. В августе Anthropic предложила урегулировать судебный иск с группой авторов, чьи произведения использовались в качестве обучающего материала, согласившись выплатить 1,5 миллиарда долларов (около 120 миллиардов рублей), чтобы прекратить любые претензии о правонарушениях.

В заявлении для прессы менеджер проекта ИИ Wikidata Филипп Сааде подчеркнул независимость своего проекта от крупных лабораторий ИИ или больших технологических компаний.

«Запуск этого проекта Embedding показывает, что мощный ИИ не должен контролироваться горсткой компаний, — сказал Сааде репортёрам. — Он может быть открытым, совместным и созданным для служения всем».

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

Топ дня 🌶️


0 комментариев

Оставить комментарий


Все комментарии - Технологии