Программа которая ищет совпадения в тексте

Содержание

Алгоритм опознавания и сравнения текстов предназначен для поиска плагиата и повторов в текстах. Реализован в Text::Distill.

1. Распознавание текста

Прямое сравнение текстов является крайне ресурсоёмким и алгоритмически сложным. Оно исключает возможность быстрого поиска похожего текста. Требуется механизм, который позволит, опираясь на индексированные поля в БД, найти похожий текст без длительных и сложных вычислений.

1.1 Стандартное, но негодное решение: хэш

Стандартным решением для ускоренного сравнения файлов является построение контрольной суммы (подписи), например CRC32, SHA256, MD5 и проч. Однако, у такого подхода есть очевидный недостаток: минимальные изменения в тексте полностью меняют подпись и два десятимегабайтных документа будут признаны разными, если в одном из них есть пустая строка в конце — а в другом нет.

1.2 Стандартное, но негодное решение: вектор

Стандартная чистка и преобразование текста в матрицу-вектор частотности слов позволяет сравнить тексты безотносительно к порядку слов. Однако такой метод страдает несколькими недостатками:

Аналог функции ВПР в Excel ➤ Поиск всех совпадений

Опознает “дубль” в двух очень близких по смыслу и набору слов, но совершенно отличных текстах
Не позволяет достоверно сравнить фрагмент с целым (опознать рассказ, входящий в сборник, например)

1.3 Стандартное, но негодное решение: Edit distance

В принципе, это то что нужно в плане сравнения. Но это совершенно не то, что нужно, в плане производительности — никаких возможностей проиндексировать тексты и сравнить их “по-быстрому”.

2. Эффективное решение Text::Distill

2.1 Нормализация символов строки

Прежде чем строить хэш текст следует “свернуть” текст, исключив все несущественные для поиска копий детали, которые в силу ошибок OCR или умышленной атаки на алгоритм сравнения могут быть добавлены в файл. Убираем знаки препинания, непонятные конструкции вида [стр56], нормализуем UTF8, приводим всё в нижний регистр и упрощаем сложные знаки, например преобразуем “ё” в “е”, а “й” в “й”. Замысел состоит в том, что два похожих текста, скорей всего, и после такой нормализации останутся похожими, а два непохожих — непохожими.

2.2 Удаление коротких слов

Следующим шагом мы убираем все короткие слова. Для кирилицы считаем короткими слова 6 букв и меньше, для латиницы 5 и меньше. Как правило тексты, даже посвященные одной теме и состоящие из приблизительно тех же слов, будут включать большие слова на разных позициях. При этом мелкие вариации мы опускаем, что радикально уменьшает объём сверяемого текста без заметной деградации уникальности.

2.3 Soundex

Для надежного опознания слова нам не нужны гласные. Более того, для большинства слов нам даже согласные не нужны, достаточно их классификации — звонкая, мягкая, шипящая. Так что следующим этапом сворачивания у нас идёт удаление гласных и приведение оставшихся согласных к их групповому эквиваленту. Аналогичный алгоритм называется Soundex и используется в английском для поиска слов с похожим звучанием. По прямому назначению использовать его в русском языке нельзя, он даёт слишком большие погрешности для единичного слова, но в нашем случае, когда мы хотим опознавать фрагменты текста, оставшейся информации более, чем достаточно.

Мульти-ВПР: ищем все совпадения

В итоге у нас получается строка из цифр 1-7, разбитая пробелами на слова. Вот таблица преобразования:

рrлйlбпфвbfpvтдdtжшщчсцзкгхcgjkqsxzмнmn
664441111111133337777222222222222225555

Для дальнейшего сокращения мы всем “словам” длинней 4-х знаков (слова с 5-ю или более согласными) обрежем лишнее, поставив им знак 8 на место отсеченного окончания. Т.е. знак 8 у нас отмечает особенно длинные слова.

Затем удаляем пробелы, получаем однородный “свернутый” текст. Мы отбрасываем существовавшую в изначальном тексте разбивку на абзацы, предложения, главы и проч — у нас остаётся от текста только длинная последовательность цифр 1-8. Полученная строка уже во много раз короче, чем исходный текст. Если нам требуется сравнение повышенной точности можно использовать её, это в любом случае будет намного эффективнее по вычислительным ресурсам, чем сравнение первичных текстов.

2.4 Рассечение на фрагменты

Для быстрого сопоставления текстов решение из 2.3, несмотря на преимущества, неприемлемо. Нам требуется какой-то слепок, имеющий размер в районе процента от исходного текста или меньше, который мы сможем проиндексировать и эффективно сравнивать. Для этого придется рассечь уже “свёрнутый” текст на фрагменты и с каждого фрагмента снять хэш. Размер фрагментов после рассечения надо подобрать так, чтобы каждый “представлял” ~2кб исходного текста.

При рассечении на фрагменты мы не можем опираться на структуру исходного текста, так как структура наиболее подвержена атакам: точки можно заменить на точки с запятой, какие-то абзацы разбить, а какие-то склеить без какого либо значимого ущерба для читаемости текста.

Поэтому мы проанализируем статистику встречаемости последовательностей на реальных книгах и выделим 4-х символьные последовательности, которые встречаются в текстах с заданной частотой и опираясь на которые мы сможем поделить текст на фрагменты заданного размера. Проанализировав имеющиеся у нас ~200000 текстов удалось выделить следующие последовательности, адекватно работающие для языков ru, en, it, de, fr, es, pl, be, cs, sp, lv: 3856, 6542, 4562, 6383, 4136, 2856, 4585, 5512, 2483, 5426, 2654, 3286, 5856, 4245, 4135, 4515, 4534, 8312, 5822, 5316, 1255, 8316, 5842.

2.5 Сравнение чексумм

Соответственно, имея в БД чексуммы по всем известным нам текстам, мы можем, выделив чексуммы из произвольного текстового файла, сравнить их с известными. Если между двумя текстами есть множество совпадений — значит тексты либо содержат массовые заимствования, либо являются “зашумленными” копиями. Боевые испытания выявили у алгоритма возможность выделения даже более-менее обширных цитат.

ebook
плагиат
сравнение текстов
поисковые технологии

Источник: habr.com

Сравнить тексты

Чтобы сравнить два текста, введите первый и второй текст в соответствующие поля. После этого нажмите кнопку сравнения, и внизу вы увидите статистику и различия.

ясно ВЕРХНИЙ РЕГИСТР строчная буква
Слова: 0, Символы: 0
ясно ВЕРХНИЙ РЕГИСТР строчная буква
Слова: 0, Символы: 0
Сравнивать
Levenshtein: —
Общий (%) Разница (%) Общий (символы) Разница (символы)

Удаленный Добавлен
Вставьте текст и нажмите кнопку Сравнить
Вставьте текст и нажмите кнопку Сравнить

Как сравнить два текста

Шаг 1

Вставьте или введите первый текст в первое окно

Шаг 2

Вставьте или введите второй текст во второе окно

Шаг 3

Сделайте все необходимые настройки и нажмите на кнопку

Искать совпадения в тексте или что такое плагиат

Этот сайт поможет вам сравнить два текста и найти отличия. Сайт работает по принципу сравнения знаков. Кроме того, вы также можете легко настроить результат отображения в зависимости от ваших предпочтений, включая изменение цвета сравнения. Часто бывает, что у вас есть два практически одинаковых текста, но нужно знать, чем именно они отличаются.

Был ли вам полезен AnyTextEditor?

Привет. Мы очень старались создать удобный сайт, которым будем пользоваться сами. Если вам понравился какой-либо из наших инструментов и редакторов, добавьте его в свои закладки, потому что он будет вам полезен не раз. И не забудьте поделиться в социальных сетях. Мы будем лучше для вас.

Источник: anytexteditor.com

Определение похожих текстов

Сервис сравнения схожести текстов необходимый и полезный инструмент для определения идентичности или похожести текстов. Вы сможете убедиться, что не будете наказаны поисковыми машинами за копирование текста, сравнив оригинальный и переписанный текст. Наш сервис определит точный процент похожести текста. Считается, что если переписанный текст похож больше чем на 50% на оригинальный текст, то поисковики считают это дублем. Думаю что истина где-то рядом.

Вы можете сравнивать как обычный текст, так и HTML форматированный текст.

Что такое дублированное содержимое?

Понятие дублированное содержимое в основном касается содержимого различных сайтов или страниц которые очень похожи. Поисковые машины очень не любят одинаковые или похожие страницы, потому что они не хотят показывать посетителям одни и те же результаты. Если у вашего сайта есть страницы идентичные страницам с других сайтов, поисковики могут наказать вас и полностью исключить из индекса не только отдельные страницы, но и даже весь сайт.

одинаковые страницы

У многих сайтов есть проблема со схожем содержимым. Когда поисковые машины находят одинаковые страницы, они выбирают одну для индексирования, а другие игнорируют. Обычно предпочтение отдается первым найденным страницам, а при равных условиях, наиболее авторитетным сайтам.

→ Вывод формулы расчета нормы изоляции.

Источник: www.sbup.com