top of page

КЛАССИФИКАЦИЯ СКАНИРОВАННЫХ ДОКУМЕНТОВ С ИСПОЛЬЗОВАНИЕМ СВЕРТОЧНОЙ НЕЙРОСЕТИ

  • 30 мая 2021 г.
  • 1 мин. чтения

Обновлено: 27 окт. 2021 г.

Аннотация:


В настоящее время одной из актуальных задач автоматизации документооборота организации в условиях поступления разнообразной документации от большого количества контрагентов является проверка и классификация сканированных материалов. В статье представлен анализ и основные характеристики существующих способов решения данной задачи.

Целью исследования является разработка программного модуля, позволяющего классифицировать документы с точностью не менее 97 % в режиме реального времени, что актуально для электронного документооборота в крупных и средних компаниях.

Приведено описание решения поставленной задачи на основе сверточной нейросети (CNN - Convolutional Neural Network). Входными данными для программного модуля является pdf-файл сканированного документа, выходными данными является xml-файл с классом документа.

Для повышения точности и скорости работы программы были решены задачи по кодированию сигнала для нейронной сети и определению ее структуры. Приведено описание этапов обработки сканированных документов и архитектуры разработанной нейросети.

Предложенный метод классификации позволяет классифицировать страницы с высокой точностью на небольшом датасете. Проведено тестирование программы на датасете из 9628 страниц и 22 возможных классов. Точность составила 99,1 %. Время классификации одной страницы без учета чтения файла и копирования в GPU составляет 2 мс на GeForce 780TI. Полное время классификации страницы составляет примерно 22,3 мс.



 
 
 

Комментарии


ООО «Нексус» ИНН: 6602013872, КПП 667101001

620014, Свердловская обл, г Екатеринбург, ул Куйбышева, д 41, помещ 7
620014, Свердловская обл, г Екатеринбург, ул Куйбышева, д 41, помещ 7

+7 (343) 217-01-36

office@nxpro.ru

bottom of page