Использование программ для сравнения документов в борьбе с плагиатом. • Система «Антиплагиат» • Программа Advego Plagiatus • Сервис Unplag • Сервис www.miratools.ru • Сервис


Чтобы посмотреть этот PDF файл с форматированием и разметкой, скачайте его и откройте на своем компьютере.
Анализ
алгоритмов
и
программных
средств
сравнения
документов
Выполнил
:
Студент
групы
ДА
-
32
Ищенко
Ярослав
Иванович
Научный
руководитель
:
доцент, кандидат
технических
наук
Капшук Олег
Алексеевич
Цель работы

Проанализировать алгоритмы которые используются для сравнения документов.

Протестировать программные средства для сравнения документов.

Проанализировать использование программных средств для сравнения документов в борьбе с
плагиатом.
Актуальность
Исследования показывают, что почти 60% офисных работников сталкиваются с задачей сравнения документов,
при этом каждый пятый сотрудник занимается такой деятельностью регулярно, например чтобы снизить риск
подписания некорректной версии договора из
-
за изменений, которые могли быть внесены контрагентом. В
78% случаев юристы, представители договорных отделов, логисты, менеджеры по продажам, финансисты и
другие офисные сотрудники сравнивают бумажные экземпляры документов с электронными, в 61%
-
файлы
Microsoft
Word
между собой, немного реже
-
копии в формате PDF с документами MS
Office
( 51%) и
отсканированные изображения документов с их электронными дубликатами (37%). В наличии сильная
разрозненность форматов данных, вкупе с низкой степенью автоматизации существенно усложняет процесс
поиска несоответствий в документах, особенно в случае их порядковой сверки. Неудивительно, что в
некоторых организациях закрывают глаза на подобные вещи, совершенно не подозревая, насколько
рискованным может быть такой подход к организации документооборота в компании.
Алгоритм
diff
Работа
diff
основана на нахождении наибольшей общей
подпоследовательности
(англ.
longest
common
subsequence
,
проблема LCS). Например, имеются две последовательности элементов:

a b c d f g h q z

a b c d e f g I j k r x y z
и
надо найти наиболее длинную последовательность элементов, которая представлена в обеих последовательностях
в одинаковом порядке. Это означает, что необходимо найти новую последовательность, которая может быть
получена из первой последовательности удалением некоторых элементов или из второй последовательности
удалением других элементов. В данном случае такой последовательностью будет являться.

a b c d f g j z
После получения наибольшей общей последовательности остаётся только небольшой шаг до получения похожего на
diff
вывода:
e h i k q r x y
+
-
+ +
-
+ + +
Алгоритм
шинглов

Канонизация
текста

Разбиение на
шинглы

Вычисление
хэшей
шинглов
с
помощью 84х статических функций

Случайная выборка 84
значений контрольных сумм

Сравнение, определение результата
Сравнение двух
W
ord
файлов
Данный параметр позволяет сравнить два документа и вывести на экран только несовпадающие фрагменты.
Сравниваемые документы не изменяются. При таком способе сравнения различия между документами всегда
отображаются в новом, третьем документе.
Если нужно сравнить исправления, сделанные несколькими рецензентами, не следует использовать данный
параметр. Выберите команду
Объединение исправлений от нескольких авторов в одном документе
.
1.
Откройте документы, которые нужно сравнить
.
2.
На вкладке
Рецензирование
в группе
Сравнить
нажмите кнопку
Сравнить
.
3.
Выберите пункт
Сравнение двух версий документа (юридическое примечание)
.
4.
В поле
Исходный документ
укажите документ, который будет использоваться в качестве исходного.
5.
В поле
Измененный документ
выберите документ, который нужно сравнить с уже открытым документом.
6.
Щелкните
Больше
, а затем укажите параметры сравнения документов. Рядом с
Показывать изменения
выберите
отображение изменений на уровне знаков или на уровне слов.
7.
Если результаты сравнения не требуется выводить в третьем документе, укажите документ, в котором должны
быть отображены изменения
.
8.
Нажмите кнопку
ОК
.
9.
Если какая
-
либо из версий документа содержит записанные исправления, на экране отобразится
соответствующее сообщение. Чтобы принять исправления и сравнить документы, нажмите кнопку
Да
.
10.
Откроется новый документ, в котором будут приняты исправления, записанные в исходном документе, а
изменения, отмеченные во втором из сравниваемых документов, отобразятся в виде исправлений.
11.
Сравниваемые документы не
изменяются.
Сравнение файлов в стандартном выпуске
Acrobat
DC
(
PDF
)
Для обнаружения различий между двумя версиями файлов PDF можно использовать функцию Сравнить документы.
После сравнения двух файлов
Acrobat
создаст подробный отчет обо всех различиях, включая различия в содержании
текста, в шрифтах, изображениях и даже в порядке страниц.
1.
Выбрать Инструменты > Сравнить документы.
2.
Выбрать документы для сравнения. Сравнение можно ограничить фрагментом документов, введя номера
страниц в поля «Первая страница» и «Последняя страница» под каждым именем файла.
3.
В разделе Описание документа выберите тип сравниваемых документов. Чтобы игнорировать
различия между
графическими элементами, выберите Сравнить только текст. Нажмите кнопку ОК.
Acrobat
отобразит результаты в
новом документе. Первая страница содержит сводку результатов сравнения файлов.
4.
Выбрать
способ просмотра различий
.
5.
Использовать панель
Сравнить
с левой стороны (по умолчанию).
1.
Страницы отображаются на панели
Сравнить
в виде миниатюр. Значок под миниатюрой обозначает
различие. Зеленая стрелка обозначает перемещенные или удаленные страницы. Пурпурная стрелка
указывает на наличие изменений на странице
.
2.
Вернитесь в первую страницу и щелкните ссылку
Начать
, чтобы перейти к первому различию
.
3.
Изменения выделяются на основном экране. Наведите указатель мыши на выделенный элемент, чтобы
просмотреть подробные сведения. В правом верхнем углу находится описание цветовых обозначений.
6.
Использовать параллельный просмотр документов.
1.
На панели
Сравнить
слева нажмите значок параметров и выберите
Одновременный просмотр
.
2.
Изменения выделяются на основном экране. Наведите указатель мыши на выделенный элемент, чтобы
просмотреть подробные сведения. В правом верхнем углу находится описание цветовых обозначений.
Сравнение документов
W
ord
с
PDF
Документ PDF можно сравнить с документом
Word
. Типичный сценарий имеет место, если из документа
Word
был
создан PDF
-
файл, после чего документ был изменен, и теперь нужно найти эти различия.
PDF
-
файл передается в программу
Convert
Assistant
для преобразования в документ
Word
. Сравнение двух
документов выполняется в
Word
, что позволяет выполнить визуальное или текстовое сравнение с результатом,
отображаемым во временном файле, который при желании можно сохранить.
1.
Выбрать пункты «Домой» > «Обработка» > Сравнение документов. Откроется диалоговое окно «Сравнение
документов».
2.
Применить открытый в данный момент документ PDF в качестве более старого или нажмите кнопку Обзор, чтобы
выбрать более новый файл в диалоговом окне «Открыть». В поле Редакция выберите любую из доступных
редакций документа.
3.
Нажмите кнопку Обзор и выберите в качестве типа файла документ
Word
(DOC или DOCX), а затем выберите
нужный документ
Word
в диалоговом окне «Открыть».
4.
Выбрать тип отчета для представления результата сравнения: Рядом или Совмещено.
5.
Нажмите кнопку ОК. Подтвердите преобразование из формата PDF и нажмите кнопку Преобразовать все в
программе PDF
Converter
Assistant
. Копия исходного PDF
-
файла, доступная только для чтения, будет отображена в
Microsoft
Word
с расширением PDF.
6.
При необходимости подтвердите преобразование файла из формата RTF в файл
Word
.
Программные средства для сравнения
документов
ABBYY
Comporator
Compare
Suite
Pro
WinMerge
Araxis
Merge
Использование программ для сравнения
документов в борьбе с плагиатом

Система «
Антиплагиат
»

Программа
Advego
Plagiatus

Сервис
Unplag

Сервис
www.miratools.ru

Сервис
www.istio.com

Программа Praide Unique Content Analyser
II

Система
Plagiatinform

Сервис
Copyscape
Программы для проверки на плагиат
Advego
Plagiatus
Etxt
Антиплагиат
Онлайн сервисы для проверки на плагиат
Content
-
watch.ru
Text.ru
В
ыводы
1.
Проанализированы распространенные алгоритмы, которые на сегодняшний день используются в
программных средствах для сравнения документов. В современных программных средствах для
сравнения документов используются всего несколько алгоритмов, а именно
Diff
и
шинглы
, а во
многих программных средствах рассмотренных в работе вообще не документированы.
2.
Алгоритм
Diff
реализован в MS
Office
, файлы с текстами программ (средства контроля версий CVS и
Subversion
, утилита UNIX
diff
) и т. д. Этот алгоритм используется в качестве составной части
алгоритмов слияния (
merge
) двух различных версий файлов в системах
версионного
контроля, при
синхронизации данных в системах с ограничениями на трафик, при объединении серверных и
клиентских данных (например, в случае обрыва соединения) и т. д. Однако при всей своей
популярности этот алгоритм имеет лимит на применение, главный из которых
-
удобная
визуализация результатов. Например, если попытаться воспользоваться функцией
diff
для
сравнения Word
-
документов, встроенной в
MSOffice
, то если сравниваемые документы немалые
(10 страниц и более), а сделанных изменений достаточно много, то принять такую ​​разницу
оказывается очень сложно
-
пользователь видит огромное количество выделенной информации,
среди которых и изъяты абзацы, и различия в правилах пунктуации.
3.
Проблема алгоритма
шинглов
заключается в количестве сравнений, ведь это напрямую
сказывается на производительности. Увеличение количества
шинглов
для сравнения
характеризуется ростом операций, что критически сказывается на производительности.
Выводы
4.
Функционал платных и бесплатных программ почти не отличается
.
Хотя
главной их преимуществом является то, что они
они
могут сравнивать
бумажные и электронные документы.
5.
На сегодняшний день среди программ проверки текстов на
уникальность (плагиат) можно выделить два лидера:
Text.ru
и
Content
-
watch.ru
.
6.
Text.ru
лучше всего подойдет редакторам, заказчикам сайтов,
преподователям
, так как позволяет провести максимально глубокую
проверку (пусть иногда и с ложными срабатываниями).
7.
А вот авторам статей, создателям сайтов лучше все
-
таки подойдет
Content
-
watch.ru
так как в нём гораздо меньше ложных срабатываний.
Анализировать уникальность технического
рерайта
в
Text
.
ru
-
почти
невозможно, так как сервис реагирует на малейшие совпадения по
поводу и без.
Спасибо за внимание

Приложенные файлы

  • pdf 6906594
    Размер файла: 2 MB Загрузок: 0

Добавить комментарий