AN APPROACH FOR CLONE DETECTION IN DOCUMENTATION REUSE
Аннотация:
The paper focuses on the searching method for repetitions in DocBook/DRL or plain text documents. An algorithm has been designed based on software clone detection. The algorithm supports filtering results: clones are rejected if clone length in the group is less than 5 symbols, intersection of clone groups is eliminated, meaningfulness clones are removed, the groups containing clones consisting only of XML are eliminated. Remaining search is supported: found clones are extracted from the documentation, and clone search is repeated. One step is proved to be enough. Adaptive reuse technique of Paul Bassett – Stan Jarzabek has been implemented. A software tool has been developed on the basis of the algorithm. The tool supports setting parameters for repetitions detection and visualization of the obtained results. The tool is integrated into DocLine document development environment, and provides refactoring of documents using found clones. The Clone Miner clone detection utility is used for clones search. The method has been evaluated for Linux Kernel Documentation (29 documents, 25000 lines). Five semantic kinds of clones have been selected: terms (abbreviations, one word and two word terms), hyperlinks, license agreements, functionality description, and code examples. 451 meaningful clone groups have been found, average clone length is 4.43 tokens, and average number of clones in a group is 3.56.
Ключевые слова:
Постоянный URL
Статьи в номере
- ФОТОНИКА И ОПТОИНФОРМАТИКА В ЕВРОПЕ: ТРЕНДЫ 2003–2013
- ДВУМЕРНАЯ ЛОКАЛИЗАЦИЯ АТОМНЫХ НАСЕЛЕННОСТЕЙ В ЧЕТЫРЕХУРОВНЕВЫХ КВАНТОВЫХ СИСТЕМАХ
- РЕКУРРЕНТНЫЙ АЛГОРИТМ ОБРАБОТКИ ИНТЕРФЕРОМЕТРИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ МУЛЬТИОБЛАЧНОЙ МОДЕЛИ ПРЕДСКАЗАНИЯ
- ИССЛЕДОВАНИЕ БИОЛОГИЧЕСКИХ ОБЪЕКТОВ В ОПТИЧЕСКОЙ КОГЕРЕНТНОЙ ТОМОГРАФИИ С ОБРАБОТКОЙ ДАННЫХ ПОСЛЕДОВАТЕЛЬНЫМ МЕТОДОМ МОНТЕ-КАРЛО
- МЕТОД АВТОМАТИЧЕСКОЙ КАЛИБРОВКИ СТЕРЕОСКОПИЧЕСКОЙ СИСТЕМЫ
- МЕТОД ПОВЫШЕНИЯ КАЧЕСТВА СНИМКОВ КОСМИЧЕСКИХ ОБЪЕКТОВ
- РОБАСТНОЕ РЕГУЛИРОВАНИЕ СИСТЕМ С ПОЛИНОМИАЛЬНОЙ НЕЛИНЕЙНОСТЬЮ НА ПРИМЕРЕ БЫСТРЫХ ТЕРМИЧЕСКИХ ПРОЦЕССОВ
- НАНОСТРУКТУРИРОВАНИЕ КАК СПОСОБ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ТЕРМОЭЛЕКТРИКОВ
- СПЕКТРАЛЬНО-ЛЮМИНЕСЦЕНТНЫЕ СВОЙСТВА ИОНОВ ХРОМА В НАНОСТЕКЛОКЕРАМИКАХ НА ОСНОВЕ ФОРСТЕРИТА
- СПЕКТРАЛЬНО-ЛЮМИНЕСЦЕНТНЫЕ СВОЙСТВА ФТОРОФОСФАТНЫХ СТЕКОЛ, АКТИВИРОВАННЫХ ИТТЕРБИЕМ И ЭРБИЕМ
- ОПТИМИЗАЦИЯ ПАРАМЕТРОВ МЕТАЛЛ-ДИЭЛЕКТРИЧЕСКИХ НАНОСТРУКТУР ДЛЯ СЕНСОРНЫХ ПРИМЕНЕНИЙ
- ПРИМЕНЕНИЕ HLD-МЕТОДОЛОГИИ ДЛЯ ПРОЕКТИРОВАНИЯ РЕКОНФИГУРИРУЕМЫХ ВСТРАИВАЕМЫХ СИСТЕМ
- ТЕХНОЛОГИЯ СИНТЕЗА ЕСТЕСТВЕННОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ БАЗЫ ДАННЫХ НЕБОЛЬШОГО ОБЪЕМА
- ОПРЕДЕЛЕНИЕ КЛИППИРОВАННЫХ ФРАГМЕНТОВ В АКУСТИЧЕСКИХ СИГНАЛАХ
- ДВУХУРОВНЕВЫЙ МЕТОД ИЕРАРХИЧЕСКО-КООРДИНАЦИОННОГО ОБСЛУЖИВАНИЯ ОЧЕРЕДЕЙ НА УЗЛАХ ТЕЛЕКОММУНИКАЦИОННОЙ СЕТИ
- МЕТОД ПОИСКА ПОВТОРЯЮЩИХСЯ ФРАГМЕНТОВ ТЕКСТА В ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИИ
- МЕТОДИКА ОЦЕНКИ ЭФФЕКТИВНОСТИ СИСТЕМЫ МЕНЕДЖМЕНТА ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ ПО ВРЕМЕНИ РЕАКЦИИ СИСТЕМЫ НА ИНЦИДЕНТЫ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ
- ИДЕНТИФИКАЦИЯ ДВИЖУЩЕГОСЯ ЧЕЛОВЕКА В СИСТЕМАХ ВИДЕОНАБЛЮДЕНИЯ
- ПРИМЕНЕНИЕ МУЛЬТИСЕНСОРНОЙ СИСТЕМЫ ДЛЯ АНАЛИЗА ГОРЬКОСТИ ПРЕПАРАТОВ КИТАЙСКОЙ НАРОДНОЙ МЕДИЦИНЫ
- ОПРЕДЕЛЕНИЕ ПОГРЕШНОСТИ БЕСКОНТАКТНОГО ИЗМЕРЕНИЯ ПЛОЩАДИ ДЕФЕКТОВ НА ПОВЕРХНОСТЯХ СЛОЖНОЙ ФОРМЫ ПРИ ВИДЕОЭНДОСКОПИЧЕСКОМ КОНТРОЛЕ
- СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ ЗАПАСАНИЯ ЭНЕРГИИ И ОПРЕДЕЛЕНИЕ ОПТИМАЛЬНЫХ ОБЛАСТЕЙ ПРИМЕНЕНИЯ СОВРЕМЕННЫХ СУПЕРМАХОВИКОВ
- МНОГОСЕТОЧНЫЙ МЕТОД УСКОРЕНИЯ СХОДИМОСТИ ПРИ РЕШЕНИИ ЗАДАЧ ГАЗОВОЙ ДИНАМИКИ НА НЕСТРУКТУРИРОВАННЫХ СЕТКАХ
- РАСШИРЕНИЕ ТЕНЗОРНОГО ПРОИЗВЕДЕНИЯ ОПЕРАТОРОВ НА ПРИМЕРЕ ОПЕРАТОРА ДИРАКА
- МОЛЕКУЛЯРНО-ДИНАМИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПЕПТИДНЫХ ПОЛИЭЛЕКТРОЛИТОВ
- ИДЕНТИФИКАЦИЯ ПАРАМЕТРОВ НЕЛИНЕЙНОЙ МАТЕМАТИЧЕСКОЙ МОДЕЛИ БЫСТРЫХ ТЕРМИЧЕСКИХ ПРОЦЕССОВ