Baidu выпустила PP-OCRv5 — компактную модель ИИ, которая превосходит крупных конкурентов в задачах распознавания текста
Китайская компания Baidu представила новую разработку в области искусственного интеллекта — модель оптического распознавания символов PP-OCRv5, которая уже доступна на платформе Hugging Face. Особенность этой модели в том, что она эффективно справляется с чтением текста, оставаясь при этом удивительно легковесной.
Крупные языково-визуальные модели, о которых мы так часто слышим, безусловно, впечатляют, но они могут испытывать трудности с точным распознаванием структурированного текста. Именно на решение этой проблемы и нацелена PP-OCRv5.
Модель работает в два основных этапа: сначала она находит расположение текста на изображении, а затем считывает, что именно там написано. Такой подход позволяет точно определять позиции текстовых блоков и обводить их рамками, что особенно полезно при извлечении данных из документов или анализе форм.
Эффективность модели впечатляет: она использует всего 0,07 миллиарда параметров — это очень мало по сравнению с гигантами в этой области. Тесты Baidu на мобильных конфигурациях показали, что на процессоре Intel Xeon модель может обрабатывать более 370 символов в секунду. Это означает, что её можно запускать на обычных компьютерах или даже на периферийных устройствах без необходимости в мощных серверных фермах.
В сравнительных тестах по OCR-задачам PP-OCRv5 обошла такие известные модели, как GPT-4o, Gemini 2.5 Pro и Qwen2.5-VL. Она хорошо справляется как с печатным, так и с рукописным текстом и поддерживает не только английский, но и упрощённый китайский, традиционный китайский, японский, пиньинь, а в общей сложности — более 40 языков.
Техническая реализация модели продумана и эффективна: она начинается с предобработки изображения — исправления поворотов, уменьшения искажений и т.п. Затем модель определяет расположение текстовых строк, их ориентацию и, наконец, преобразует символы в читаемый текст. Весь процесс обеспечивает точные координаты для каждого фрагмента текста, что критически важно при сканировании счетов-фактур или обработке форм, где важна компоновка.
Baidu сделала модель доступной для всех через Hugging Face. Для разработчиков и бизнесов, работающих с многоязычными документами или нуждающихся в надёжных возможностях OCR без избыточности крупных моделей, PP-OCRv5 может стать практичным выбором.
(Источник)
0 комментариев