top of page

СЕМАНТИЧЕСКАЯ СЕГМЕНТАЦИЯ ТЕКСТОВЫХ ПОЛЕЙ И ТАБЛИЦ В ДОКУМЕНТЕ НА ОСНОВЕ ПРИМЕНЕНИЯ АРХИТЕКТУРЫ UNETFORMER

  • Фото автора: Роман Кочеров
    Роман Кочеров
  • 3 апр. 2024 г.
  • 1 мин. чтения

Аннотация:

В статье рассматривается применение архитектуры UNetFormer для решения задачи семантической сегментации текстовых строк и таблиц в документах. Цель исследования – решение задачи семантической сегментации для документов, имеющих особенности, которые могут встречаться на одной странице документа: различные ориентации текста, таблицы, шумы и инородные объекты (печати, подписи). В качестве решения поставленной задачи была выбрана архитектура нейронной сети для семантической сегментации – UNetFormer, которая показывает высокую эффективность в других задачах: семантической сегментации спутниковых и медицинских снимков. Также для более эффективного обучения авторы предлагают использование метода аугментации данных в реальном времени с помощью генерации и преобразования реальных данных. Для определения ориентации текста в обучающих данных использовались карты, соответствующие различным ориентациям текста, а также карты для детекции таблиц (их ребер и узлов) и ядер строк для более точного вырезания текстовых прямоугольников с последующей обработкой моделью распознавания текста. Полученные результаты демонстрируют высокий показатель среднего значения индекса Жаккара (mIoU = 0,833) на датасете из 1230 размеченных документов, собранном авторами.



 
 
 

Комментарии


ООО «Нексус» ИНН: 6602013872, КПП 667101001

620014, Свердловская обл, г Екатеринбург, ул Куйбышева, д 41, помещ 7
620014, Свердловская обл, г Екатеринбург, ул Куйбышева, д 41, помещ 7

+7 (343) 217-01-36

office@nxpro.ru

bottom of page