DeepSeek представила модель, которая преобразует текст в изображения для экономии ресурсов

/ (Обновлено: ) / ТехнологииНовости / Технологии

Китайские разработчики компании Deepseek AI выпустили новую модель, которая использует мультимодальные возможности для повышения эффективности обработки сложных документов и больших объемов текста, предварительно преобразуя их в изображения. Визуальные энкодеры смогли преобразовать большие объемы текста в изображения, которые при последующем доступе требовали в 7-20 раз меньше токенов, сохраняя при этом впечатляющий уровень точности.

Deepseek — это китайская разработка в области искусственного интеллекта, которая произвела фурор в начале 2025 года, продемонстрировав возможности, аналогичные OpenAI ChatGPT или Google Gemini, несмотря на значительно меньшие затраты на разработку. Создатели продолжали работать над повышением эффективности ИИ, и с последним релизом, известным как DeepSeek-OCR (оптическое распознавание символов), ИИ может демонстрировать впечатляющее понимание больших объемов текстовых данных без обычных затрат токенов.

«С помощью DeepSeek-OCR мы продемонстрировали, что визуально-текстовое сжатие может достичь значительного сокращения токенов — в 7-20 раз — для различных этапов исторического контекста, предлагая многообещающее направление» для обработки длинных контекстных вычислений, — заявили разработчики.

Новая модель состоит из двух компонентов: DeepEncoder и DeepSeek3B-MoE-A570M, который выступает в роли декодера. Энкодер может преобразовывать большие объемы текстовых данных в изображения высокого разрешения, в то время как декодер особенно хорошо справляется с пониманием текстового контекста в этих изображениях, требуя при этом меньше токенов, чем при прямой подаче текста в ИИ. Это достигается за счет разделения каждой задачи на отдельные подсети и использования специальных экспертов-агентов ИИ для работы с каждым подмножеством данных.

Изображение: Deepseek/AI Engineering/Medium

Этот подход особенно хорошо работает с табличными данными, графиками и другими визуальными представлениями информации. Разработчики предполагают, что технология может найти особое применение в финансах, науке и медицине.

По заявлениям разработчиков, при тестировании при сокращении количества токенов менее чем в 10 раз DeepSeek-OCR может сохранять 97% точности декодирования информации. Если коэффициент сжатия увеличивается до 20 раз, точность падает до 60%. Это менее желательно и показывает, что у технологии есть эффект снижения отдачи, но даже при коэффициенте сжатия 1-2x с точностью, близкой к 100%, это может существенно повлиять на стоимость работы многих современных моделей ИИ.

Технология также позиционируется как способ создания обучающих данных для будущих моделей, хотя внесение ошибок на этом этапе, даже в размере нескольких процентов, кажется не самой лучшей идеей.

Для желающих поэкспериментировать с моделью самостоятельно, она доступна через онлайн-платформы для разработчиков Hugging Face и GitHub.

Интересный факт: Deepseek продолжает удивлять AI-сообщество своими инновациями — всего несколько месяцев назад их модель показала результаты, сопоставимые с GPT-4, но при этом была в 10 раз более эффективной с точки зрения вычислительных ресурсов.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

Топ дня 🌶️


0 комментариев

Оставить комментарий


Все комментарии - Технологии