Этические инструменты машинного обучения революционизируют транскрипцию раннемодерных текстов

/ НаукаНовости / Наука

В последние годы оцифровка сделала печатные книги XVI и XVII веков более доступными, чем когда-либо. Исследователи теперь могут искать ключевые слова в цифровых транскрипциях, не покидая своих рабочих мест и не посещая физические архивы. Однако, несмотря на простоту доступа, большая часть оцифрованных материалов остается без транскрипции из-за нехватки времени, рабочей силы и финансирования.

Иллюминированная рукопись, Антифонарий, Санта-Кьяра (Неаполь), XVI век. Автор: Yair Haklai / CC BY-SA 4.0

Новая статья, опубликованная в журнале «The Sixteenth Century Journal» Сереной Стрэкер и Кимберли Лифтон, затрагивает как технические, так и этические аспекты этой проблемы. Авторы обсуждают альтернативы традиционным методам транскрипции, которые часто полагались на аутсорсинг — например, привлечение аспирантов или наемных работников для ручного перевода исторических текстов.

Программное обеспечение для оптического распознавания символов (OCR), хотя и эффективно для текстов конца XIX–XX веков, плохо справляется с несоответствиями, характерными для раннемодерной печати. Поэтому исследователи все чаще обращаются к технологии распознавания рукописного текста (HTR). Transkribus — наиболее эффективное ПО для HTR — поддерживает как публичный доступ к моделям транскрипции, так и индивидуальное обучение, предлагая новое решение проблемы.

Стрэкер и Лифтон провели исследование с использованием Transkribus на примере четырех немецких сборников XVI века. Результаты показали, что даже общедоступные модели HTR могут генерировать высокоточные транскрипции раннемодерных печатных текстов. Кроме того, если исследователи используют публичные модели Transkribus для создания обучающих данных, они могут разработать собственные модели, адаптированные к их материалам, в пять этапов.

Почерк Вильгельма Морица Кеферштейна, около 1864 года. Примеры букв, извлеченных из рукописной хроники Зоологического музея Гёттингена. Автор: F. Welter-Schultes

Этот подход не только повышает точность транскрипции, но и гарантирует этическую корректность. Как утверждают авторы, «больше нет необходимости и желания» привлекать аутсорсинговых работников. Вместо этого они предлагают перейти к модели, где сами исследователи смогут создавать транскрипции, избегая усиления неравенства в академической среде и воспроизведения долгосрочных последствий колониальных трудовых практик.

Несмотря на перспективность HTR, авторы подчеркивают, что академическому сообществу необходимо обсудить, как эту технологию можно интегрировать в исследовательские процессы. «Теперь, когда точная и автоматизированная транскрипция раннемодерных текстов стала реальностью, — заключают Стрэкер и Лифтон, — необходимо определить, какое сочетание человеческого труда и машинного обучения будет принято, поддержано и в конечном итоге сформирует будущее исследований».

Они подчеркивают, что будущие транскрипции должны быть не только технологически эффективными, но и соответствовать этическим нормам труда. «Только настаивая на этичных трудовых практиках, ученые смогут избежать как усугубления неравенства в академической иерархии, так и сохранения долговременных последствий колониализма».

Источник: archaeologymag.com

Подписаться на обновления Новости / Наука
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.

Топ дня 🌶️


0 комментариев

Оставить комментарий


Все комментарии - Наука