Источник фото: Michal Jarmoluk / Pixabay

Správa z oblasti ruskej vedy v pôvodnom znení (scientificrussia.ru)

Алгоритм поиска ключевых слов в рукописных документах предложили в МГУ

Ученые факультета вычислительной математики и кибернетики (ВМК) МГУ разработали алгоритм, позволяющий находить заданные слова и фразы в цифровых изображениях рукописных текстов. Подход может упростить работу с архивными документами, рукописями и историческими материалами, представленными в виде сканов и фотографий. Результаты исследования опубликованы в сборнике The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences.

Поиск по рукописным текстам остается сложной задачей: качество автоматического распознавания почерка до сих пор ограничено, а важная информация часто содержится не только в тексте, но и в структуре письма, особенностях почерка и расположении слов на странице. Поэтому исследователи продолжают развивать методы, которые позволяют работать с изображениями рукописей напрямую, без их полного перевода в печатный текст.

В предложенном подходе рукописный текст рассматривается как последовательность отдельных штрихов — базовых элементов письма, формируемых движением пера. Алгоритм включает сегментацию изображения на штрихи, их нормализацию и классификацию с использованием математических описаний формы. Далее выполняется сопоставление последовательностей штрихов запроса и документа, что позволяет находить совпадения и оценивать их точность.

Остальную часть статьи можно найти на сайте «Научная Россия» (scientificrussia.ru)