МЕТОД ПОИСКА ПОВТОРЯЮЩИХСЯ ФРАГМЕНТОВ ТЕКСТА В ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИИ
Аннотация:
Предложен метод, позволяющий искать повторы в технической документации, выполненной в формате DocBook/DRL или в виде «плоского» текста. Разработан алгоритм, основанный на технике поиска клонов в программном обеспечении (software clone detection). Алгоритм реализует фильтрацию стандартного поиска клонов: отбрасываются клоны, чья длина меньше 5 символов; выполняется устранение пересечения клонов, а также удаление несущественных клонов и клонов, состоящих только из XML-конструкций. Поддерживается поиск по остаткам. После нахождения клонов они устраняются из документации, и поиск повторяется. Доказывается достаточность одного шага. Реализована техника адаптированного повторного использования Бассета–Ерзабека. На основе предложенного алгоритма разработан программный инструмент, поддерживающий параметризацию поиска повторов, а также визуализацию полученных результатов. Инструмент интегрирован со средой разработки повторно используемой документации DocLine и реализует рефакторинг документов на основе найденных клонов. Инструмент использует утилиту Clone Miner для поиска клонов. Представлена апробация метода для документации к ядру операционной системы Linux (29 документов, 25 000 строк). Выделено 5 видов клонов: термины, гиперссылки, лицензии, описание функциональности, примеры кода. Всего найдено 451 содержательных групп клонов. Средняя длина клона – 4,43 токена. Среднее количество клонов в группе – 3,56. Предложенный подход может оказаться полезным в средах работы с документацией семейств программных продуктов.
Ключевые слова:
Постоянный URL
Статьи в номере
- ФОТОНИКА И ОПТОИНФОРМАТИКА В ЕВРОПЕ: ТРЕНДЫ 2003–2013
- ДВУМЕРНАЯ ЛОКАЛИЗАЦИЯ АТОМНЫХ НАСЕЛЕННОСТЕЙ В ЧЕТЫРЕХУРОВНЕВЫХ КВАНТОВЫХ СИСТЕМАХ
- РЕКУРРЕНТНЫЙ АЛГОРИТМ ОБРАБОТКИ ИНТЕРФЕРОМЕТРИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ МУЛЬТИОБЛАЧНОЙ МОДЕЛИ ПРЕДСКАЗАНИЯ
- ИССЛЕДОВАНИЕ БИОЛОГИЧЕСКИХ ОБЪЕКТОВ В ОПТИЧЕСКОЙ КОГЕРЕНТНОЙ ТОМОГРАФИИ С ОБРАБОТКОЙ ДАННЫХ ПОСЛЕДОВАТЕЛЬНЫМ МЕТОДОМ МОНТЕ-КАРЛО
- МЕТОД АВТОМАТИЧЕСКОЙ КАЛИБРОВКИ СТЕРЕОСКОПИЧЕСКОЙ СИСТЕМЫ
- МЕТОД ПОВЫШЕНИЯ КАЧЕСТВА СНИМКОВ КОСМИЧЕСКИХ ОБЪЕКТОВ
- РОБАСТНОЕ РЕГУЛИРОВАНИЕ СИСТЕМ С ПОЛИНОМИАЛЬНОЙ НЕЛИНЕЙНОСТЬЮ НА ПРИМЕРЕ БЫСТРЫХ ТЕРМИЧЕСКИХ ПРОЦЕССОВ
- НАНОСТРУКТУРИРОВАНИЕ КАК СПОСОБ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ТЕРМОЭЛЕКТРИКОВ
- СПЕКТРАЛЬНО-ЛЮМИНЕСЦЕНТНЫЕ СВОЙСТВА ИОНОВ ХРОМА В НАНОСТЕКЛОКЕРАМИКАХ НА ОСНОВЕ ФОРСТЕРИТА
- СПЕКТРАЛЬНО-ЛЮМИНЕСЦЕНТНЫЕ СВОЙСТВА ФТОРОФОСФАТНЫХ СТЕКОЛ, АКТИВИРОВАННЫХ ИТТЕРБИЕМ И ЭРБИЕМ
- ОПТИМИЗАЦИЯ ПАРАМЕТРОВ МЕТАЛЛ-ДИЭЛЕКТРИЧЕСКИХ НАНОСТРУКТУР ДЛЯ СЕНСОРНЫХ ПРИМЕНЕНИЙ
- ПРИМЕНЕНИЕ HLD-МЕТОДОЛОГИИ ДЛЯ ПРОЕКТИРОВАНИЯ РЕКОНФИГУРИРУЕМЫХ ВСТРАИВАЕМЫХ СИСТЕМ
- ТЕХНОЛОГИЯ СИНТЕЗА ЕСТЕСТВЕННОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ БАЗЫ ДАННЫХ НЕБОЛЬШОГО ОБЪЕМА
- ОПРЕДЕЛЕНИЕ КЛИППИРОВАННЫХ ФРАГМЕНТОВ В АКУСТИЧЕСКИХ СИГНАЛАХ
- ДВУХУРОВНЕВЫЙ МЕТОД ИЕРАРХИЧЕСКО-КООРДИНАЦИОННОГО ОБСЛУЖИВАНИЯ ОЧЕРЕДЕЙ НА УЗЛАХ ТЕЛЕКОММУНИКАЦИОННОЙ СЕТИ
- МЕТОДИКА ОЦЕНКИ ЭФФЕКТИВНОСТИ СИСТЕМЫ МЕНЕДЖМЕНТА ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ ПО ВРЕМЕНИ РЕАКЦИИ СИСТЕМЫ НА ИНЦИДЕНТЫ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ
- ИДЕНТИФИКАЦИЯ ДВИЖУЩЕГОСЯ ЧЕЛОВЕКА В СИСТЕМАХ ВИДЕОНАБЛЮДЕНИЯ
- ПРИМЕНЕНИЕ МУЛЬТИСЕНСОРНОЙ СИСТЕМЫ ДЛЯ АНАЛИЗА ГОРЬКОСТИ ПРЕПАРАТОВ КИТАЙСКОЙ НАРОДНОЙ МЕДИЦИНЫ
- ОПРЕДЕЛЕНИЕ ПОГРЕШНОСТИ БЕСКОНТАКТНОГО ИЗМЕРЕНИЯ ПЛОЩАДИ ДЕФЕКТОВ НА ПОВЕРХНОСТЯХ СЛОЖНОЙ ФОРМЫ ПРИ ВИДЕОЭНДОСКОПИЧЕСКОМ КОНТРОЛЕ
- СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ ЗАПАСАНИЯ ЭНЕРГИИ И ОПРЕДЕЛЕНИЕ ОПТИМАЛЬНЫХ ОБЛАСТЕЙ ПРИМЕНЕНИЯ СОВРЕМЕННЫХ СУПЕРМАХОВИКОВ
- МНОГОСЕТОЧНЫЙ МЕТОД УСКОРЕНИЯ СХОДИМОСТИ ПРИ РЕШЕНИИ ЗАДАЧ ГАЗОВОЙ ДИНАМИКИ НА НЕСТРУКТУРИРОВАННЫХ СЕТКАХ
- РАСШИРЕНИЕ ТЕНЗОРНОГО ПРОИЗВЕДЕНИЯ ОПЕРАТОРОВ НА ПРИМЕРЕ ОПЕРАТОРА ДИРАКА
- МОЛЕКУЛЯРНО-ДИНАМИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПЕПТИДНЫХ ПОЛИЭЛЕКТРОЛИТОВ
- ИДЕНТИФИКАЦИЯ ПАРАМЕТРОВ НЕЛИНЕЙНОЙ МАТЕМАТИЧЕСКОЙ МОДЕЛИ БЫСТРЫХ ТЕРМИЧЕСКИХ ПРОЦЕССОВ