Baidu выпустила PP-OCRv5 — компактную модель ИИ, которая превосходит крупных конкурентов в задачах распознавания текста

Китайская компания Baidu представила новую разработку в области искусственного интеллекта — модель оптического распознавания символов PP-OCRv5, которая уже доступна на платформе Hugging Face. Особенность этой модели в том, что она эффективно справляется с чтением текста, оставаясь при этом удивительно легковесной.

Крупные языково-визуальные модели, о которых мы так часто слышим, безусловно, впечатляют, но они могут испытывать трудности с точным распознаванием структурированного текста. Именно на решение этой проблемы и нацелена PP-OCRv5.

Модель работает в два основных этапа: сначала она находит расположение текста на изображении, а затем считывает, что именно там написано. Такой подход позволяет точно определять позиции текстовых блоков и обводить их рамками, что особенно полезно при извлечении данных из документов или анализе форм.

Эффективность модели впечатляет: она использует всего 0,07 миллиарда параметров — это очень мало по сравнению с гигантами в этой области. Тесты Baidu на мобильных конфигурациях показали, что на процессоре Intel Xeon модель может обрабатывать более 370 символов в секунду. Это означает, что её можно запускать на обычных компьютерах или даже на периферийных устройствах без необходимости в мощных серверных фермах.

В сравнительных тестах по OCR-задачам PP-OCRv5 обошла такие известные модели, как GPT-4o, Gemini 2.5 Pro и Qwen2.5-VL. Она хорошо справляется как с печатным, так и с рукописным текстом и поддерживает не только английский, но и упрощённый китайский, традиционный китайский, японский, пиньинь, а в общей сложности — более 40 языков.

Техническая реализация модели продумана и эффективна: она начинается с предобработки изображения — исправления поворотов, уменьшения искажений и т.п. Затем модель определяет расположение текстовых строк, их ориентацию и, наконец, преобразует символы в читаемый текст. Весь процесс обеспечивает точные координаты для каждого фрагмента текста, что критически важно при сканировании счетов-фактур или обработке форм, где важна компоновка.

Baidu сделала модель доступной для всех через Hugging Face. Для разработчиков и бизнесов, работающих с многоязычными документами или нуждающихся в надёжных возможностях OCR без избыточности крупных моделей, PP-OCRv5 может стать практичным выбором.

(Источник)

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии