Anno OCR: Интеллектуальное распознавание текста и подготовка датасетов

Полное название проекта:
Anno OCR: Интеллектуальное распознавание текста и подготовка датасетов
Статус: 
Допущен к очному туру
Год: 
2026
Автор
Фамилия, имя, отчество:
Кожин Константин Дмитриевич
Место учёбы (работы):
Сибирский федеральный университет
Научный руководитель
Фамилия, имя, отчество: 
Пятаева Анна Владимировна
Место работы: 
Центр искусственного интеллекта Сибирского федерального университета
Проект
Номинация: 
Программирование
Сроки работы над проектом: 
2025-
Описание: 

Anno OCR — открытое программное обеспечение, предназначенное для распознавания текста на изображениях.
Система сочетает автоматическую детекцию слов с расшифровкой с возможностью ручной корректировки разметки, обеспечивая качественное распознавание.
Поддерживается распознавание рукописного и печатного текста, включая современные и исторические сканы с дореформенной орфографией.
Встроенный ИИ-модуль Manuscript-OCR обеспечивает высокое качество извлечения текста из сложных изображений.
Система реализует полный цикл обработки: автоматическую детекцию слов, их упорядочивание по строкам и блокам, распознавание и последующую коррекцию слов.
Результаты могут быть проверены пользователем и экспортированы в форматы PDF, JSON, COCO JSON.
Программа применяется как для обработки архивных и исследовательских материалов, так и для подготовки обучающих выборок в задачах машинного обучения.
Все вычисления выполняются локально на CPU; среднее время распознавания одного изображения составляет около 5 секунд.

Собственный компьютер: 
буду использовать собственный компьютер (ноутбук)
Адрес в Интернет: 
https://github.com/konstantinkozhin/Anno-OCR
Используемые технологии и инструменты
Языки программирования и разметки: 
Python
Среды разработки и текстовые редакторы: 
Visual Studio Code
Другие: 
SQLite, PySide 6, Manuscript-OCR, ReportLab, Shapely