Connect with us

DeepScribe AI Может Помочь Перевести Древние Таблички

Искусственный интеллект

DeepScribe AI Может Помочь Перевести Древние Таблички

mm

Исследователи из Восточного института Чикагского университета и кафедры компьютерных наук сотрудничали в разработке ИИ, который может помочь расшифровать таблички древних цивилизаций. По данным Phys.org, этот ИИ называется DeepScribe и был обучен на более чем 6 000 аннотированных изображениях, полученных из архива укреплений Персеполя, когда модель будет завершена, она сможет интерпретировать неанализированные таблички, что сделает изучение древних документов проще.

Эксперты, изучающие древние документы, такие как исследователи, изучающие документы, созданные во время Ахеменидской империи в Персии, должны переводить древние документы вручную, что является длительным процессом, подверженным ошибкам. Исследователи используют компьютеры для помощи в интерпретации древних документов с 1990-х годов, но компьютерные программы, которые использовались, были ограничены. Сложные клинописные символы, а также трехмерная форма табличек, ограничили полезность компьютерных программ.

Алгоритмы компьютерного зрения и архитектуры глубокого обучения привнесли новые возможности в эту область. Санджай Кришнан из кафедры компьютерных наук в ОИ сотрудничал с доцентом ассириологии Сюзанной Паулус, чтобы запустить программу DeepScribe. Исследователи курировали платформу управления базами данных под названием OCHRE, которая организовывала данные археологических раскопок. Цель состоит в том, чтобы создать инструмент ИИ, который будет как обширным, так и гибким, способным интерпретировать скрипты из разных географических регионов и периодов времени.

Как сообщает Phys.org, Кришнан объяснил, что проблемы распознавания скрипта, с которыми сталкиваются археологические исследователи, по сути, являются теми же проблемами, с которыми сталкиваются исследователи компьютерного зрения:

“С точки зрения компьютерного зрения это действительно интересно, потому что эти проблемы являются теми же, с которыми мы сталкиваемся. Компьютерное зрение за последние пять лет значительно улучшилось; десять лет назад это было бы невозможно, мы не продвинулись бы так далеко. Это хорошая задача машинного обучения, потому что точность объективна здесь, у нас есть помеченный обучающий набор, и мы хорошо понимаем скрипт, что помогает нам. Это не完全 неизвестная проблема.”

Обучающий набор в вопросе является результатом снятия табличек и переводов, выполненных за примерно 80 лет археологических исследований в ОИ и Чикагском университете, и создания высокоразрешительных аннотированных изображений из них. В настоящее время обучающие данные составляют примерно 60 терабайт. Исследователи смогли использовать набор данных и создать словарь из более чем 100 000 отдельно идентифицированных знаков, которые модель могла бы изучить. Когда обученная модель была протестирована на не виденном ранее наборе изображений, модель достигла примерно 80% точности.

Хотя команда исследователей пытается повысить точность модели, даже 80% точности может помочь в процессе транскрипции. По словам Паулус, модель могла бы быть использована для выявления или перевода высоко повторяющихся частей документов, позволяя экспертам тратить свое время на интерпретацию более сложных частей документа. Даже если модель не может с уверенностью сказать, что символ переводится, она может дать исследователям вероятности, что уже ставит их впереди.

Команда также стремится сделать DeepScribe инструментом, который другие археологи могут использовать в своих проектах. Например, модель могла бы быть переобучена на другие клинописные языки, или модель могла бы делать обоснованные оценки о тексте на поврежденных или неполных табличках. Достаточно прочная модель потенциально даже могла бы оценить возраст и происхождение табличек или других артефактов, что обычно делается с помощью химического тестирования.

Проект DeepScribe финансируется Центром разработки вычислительной техники (CDAC). Компьютерное зрение использовалось в других проектах, финансируемых CDAC, таких как проект, предназначенный для распознавания стиля в произведениях искусства, и проект, предназначенный для количественной оценки биоразнообразия морских двустворчатых моллюсков. Команда исследователей также надеется, что их сотрудничество приведет к будущим сотрудничествам между кафедрой компьютерных наук и ОИ в Чикагском университете.

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.