Извлечение объектов из электронных таблиц
Аннотация
Бизнес-процессы являются источником большого количества документов, среди которых значительную долю занимают электронные таблицы, как наиболее удобный способ представления множества однотипных данных. Характерным примером таких документов выступают прайс-листы. По сравнению с неструктурированным текстом, электронные таблицы представляют информацию в относительно упорядоченном виде (с возможностью агрегации). Несмотря на это, сравнение и анализ таблиц со схожими данными, например ценовых предложений от разных компаний, остается трудоемкой задачей. Автоматизация процесса поиска информации минимизирует участие человека в рутинной задаче сопоставления представлений однотипных объектов в разных таблицах. Для решения поставленной проблемы разработан алгоритм извлечения объектов из табличных документов и программный модуль, реализующий предложенный алгоритм.