Новгородские ученые научили нейросеть читать берестяные грамоты

Новгородские ученые научили нейросеть читать берестяные грамоты
Новгородские ученые научили нейросеть читать берестяные грамоты. фото из телеграм-канала Новгородского музея-заповедника

В Новгородском государственном университете создали нейросеть, которая умеет распознавать и расшифровывать древнерусские грамоты. Этот проект стал победителем грантового конкурса «Студенческий стартап» Фонда содействия инновациям и получил финансирование в размере миллиона рублей, сообщает Naked-Science.ru.

Разработчик — магистрант Политехнического института НовГУ и ассистент кафедры информационных технологий и систем Иван Филиппов. Научным руководителем проекта выступила доцент кафедры физики твёрдого тела и микроэлектроники Ирина Телина.

Иван Филиппов пояснил, что распознавание букв в целом — задача стандартная для компьютерного зрения, однако древнерусская письменность создает некоторые трудности. Для работы с такими текстами необходимы новые инструменты. В Великом Новгороде обнаружили уже более 1200 берестяных грамот, и их число продолжает расти. Расшифровка каждой грамоты требует большого количества времени и усилий, поскольку одни и те же символы могут читаться по-разному, а устаревшие буквы и редкие знаки намного усложняют автоматическое распознавание.

На сегодняшний день готовых автоматизированных решений для этой задачи практически нет. Существующие аналоги грешат либо недостаточной точностью, либо недостаточной стабильностью, либо требуют огромных объемов данных, размеченных вручную. Новая система станет быстрым и удобным инструментом для палеографов, архивистов и исследователей.

Для обучения нейросети использовали небольшой, но тщательно отобранный набор данных — пять «эталонных» грамот, на которых все буквы были размечены вручную. При выборе грамот учитывали, чтобы они были целыми, содержали много текста и максимально разнообразные, четко написанные символы. Кроме того, в обучающий набор вошли автоматически вырезанные фрагменты букв, полученные с помощью специального детектора.

Процесс работы системы начинается с запуска этого детектора: он находит буквы на изображении и обводит каждую прямоугольной рамкой («боксом»). Поскольку модель не может обработать всю грамоту целиком, буквы сначала распознаются по отдельности, а затем собираются в строки. Далее система выполняет сегментацию, ищет контуры и объединяет близко расположенные рамки, учитывая расстояние между ними и соотношение площадей. Разработчики уже создали приложение, в котором можно загружать фотографии грамот, автоматически находить буквы, распознавать их и экспортировать результат.

Система умеет обучаться на новых данных: по мере ее использования база для обучения пополняется качественными примерами. В перспективе этот процесс планируют полностью автоматизировать.

По словам Ивана Филиппова, система показывает высокую скорость и надежность: обработка одного изображения занимает всего одну-две секунды. Точность распознавания достигает 98%. Разработка уже готова к внедрению в архивные и научные проекты. Кроме того, она открывает возможности для определения даты создания грамоты и ее авторства. Интересно, что модель, обученная на берестяных грамотах, хорошо справляется и с другими древнерусскими рукописями — а именно с ними связана основная цель проекта, ведь в архивах хранится множество документов, о которых известно очень мало.

Что еще почитать

В регионах

Новости региона

Все новости

Новости

Самое читаемое

...
Сегодня
...
...
...
...
Ощущается как ...

Автовзгляд

Womanhit

Охотники.ру