Огляд програм для перевірки тексту на унікальність (плагіат)

Як і обіцяв в попередньому огляді сервісів перевірки контенту на унікальність , Представляю вашій увазі програми, які дозволять виявити дубльований контент в Інтернеті.

1) Double Content Finder (DC Finder) - одна з найвідоміших програм для перевірки тексту на унікальність. Розроблено програмістами біржі контенту TextBroker в 2007 році, програма періодично оновлюється. Останній реліз, який мені вдалося знайти, за 2008 рік.

Завантажити програмний продукт можна за цим засланні , Розмір дистрибутива зовсім невеликий, близько 400кб, великим плюсом є те, що не потрібно установка, програма запускається звичайним exe файлом.

Нижче наведено скрін програми, який ви побачите під час запуску.

Перевірити текст на унікальність можна будь-яким з трьох способів - з текстового файлу (працює тільки з .txt файлами), задавши потрібний вам url, де розташований матеріал або ручним введенням - скопіювавши частина тексту через буфер обміну.

У підсумку ви можете отримати два варіанти відповіді: або текст унікальний, або ви побачите список url - адрес, на яких знайдений перевіряється уривок.

У підсумку ви можете отримати два варіанти відповіді: або текст унікальний, або ви побачите список url - адрес, на яких знайдений перевіряється уривок

Мені сподобалися результати перевірки програми. Проводилось близько 10 експериментів, всюди результат виявлявся дуже і дуже схожим на правду.

2) Advego Plagiatus - програма, створена розробниками біржі контенту Advego для пошуку в інтернеті копій текстових документів. На відміну від попередньої розглянутої програми вона вимагає установки, що для мене є мінусом - ну не люблю я встановлювати на свій комп'ютер будь-яке неперевірене ПО.

Передбачена можливість перевірки тексту на унікальність як скопійованого через буфер, так і розташованого в Інтернеті. За результатами роботи програми видається результат у вигляді переліку ресурсів, на яких була виявлена копія, і процентного співвідношення знайдених сопаденій на цих ресурсах.

За результатами роботи програми видається результат у вигляді переліку ресурсів, на яких була виявлена копія, і процентного співвідношення знайдених сопаденій на цих ресурсах

Налаштувань у програми не дуже багато, безсумнівним плюсом є можливість з'єднання через проксі. Дістібутів програми має розмір близько 1,2 Мб. Завантажити програмний продукт можна на цій сторінці .

3) Praide unique content analyzer - найменш відома, але сама функціональна за своєю задумом програма для пошуку дубльованого тексту.

Завантажити її можна безпосередньо на сайті розробників , Дистрибутив важить близько 4 мб, а почитати історію появи і простежити процес вдосконалення програми - на всім відомому форумі про пошукових системах .

Як і в попередніх розглянутих програмах, є можливість перевірки скопійованого тексту через буфер обміну і за допомогою імпорту матеріалу з текстового файлу. Також ви можете перевірити текст уже розташований на веб-сторінці за допомогою Інтернет ... Як користуватися цією програмою?

В налаштуваннях можна вибрати два способи перевірки - або попассажно (текст розбивається на фрази довжиною від п'яти до десяти слів, які потім шукаються в пошукових системах), або шинглі (матеріал ділиться на фрази довжиною, рівній заданій довжині шингли, «внахлест», т. е. друге слово в попередній фразі є першим в наступній, і потім також здійснюється пошук в пошукових машинах). Наприклад, візьмемо текст з мого попереднього огляду:

«Останнім часом бізнес в Інтернет сфері розвивається семимильними кроками. Якщо раніше досить було просто створити сайт своєї організації або фірми, розмістити в Інтернеті - і ... »

і задамо перевірку тексту попассажно з довжиною пасажу в 5 слів (для спрощення стоп-слова будемо також вважати словами). Тоді об'єктами перевірки будуть:

- Останнім часом бізнес в;
- Інтернет сфері розвивається семимильними кроками;
- Якщо раніше досить було просто;
- створити сайт своєї організації або;
- фірми, розмістити в Інтернеті - і;

Якщо ми виберемо метод перевірки шинглі і задамо величину шингли що дорівнює 7, то цими самими шинглі будуть словосполучення:

- Останнім часом бізнес в Інтернет сфері;
- Останнім часом бізнес в Інтернет сфері розвивається;
- час бізнес в Інтернет сфері розвивається семимильними;
- бізнес в Інтернет сфері розвивається семимильними кроками;
- в Інтернет сфері розвивається семимильними кроками. якщо;
- Інтернет сфері розвивається семимильними кроками. Якщо раніше;

ну і так далі до кінця тексту. Для кожного шингли розраховується контрольна сума (або "сигнатура") - це унікальне число, поставлене у відповідність кожної унікальної фразі, яка становить шингл. Після цього зі всієї безлічі отриманих контрольних сум (а їх стільки, скільки слів в документі мінус величина заданого шингли, в нашому випадку сім, і плюс один) вибираються тільки ті, які діляться, наприклад, на 14.

Якщо є повтор навіть одного шингли, тобто що йдуть підряд семи слів - уже велика ймовірність скопійованого тексту. Якщо ж таких збігів багато - значить ви з дуже великою ймовірністю знайшли копію перевіряється тексту.

Відповідно, час перевірки за допомогою програми Praide unique content analyzer безпосередньо залежить від введених вами параметрів і розмірів тексту - чим більше тест і менше розмір пасажу або шингли, тим більше час пошуку.

Також в настройках програми є опція захисту вашого IP адреси - між кожним запитом програми до пошукових системах робиться пауза в кілька секунд, щоб при частому зверненні пошукові системи не вирішили, що ви робот і не занесли ваш IP в чорні списки. Особлива гордість розробників - можливість самостійно вибирати пошукові системи, включаючи велику кількість ПС буржуйнете, в яких буде проводитися пошук.

Після налаштування всіх необхідних вам параметрів, вибирайте «Виконати запит» і запасайтесь терпінням.

Після налаштування всіх необхідних вам параметрів, вибирайте «Виконати запит» і запасайтесь терпінням

Результати роботи програми представлені нижче:

Для того, щоб переглянути, де ж саме знаходяться матеріали, які програма порахувала подібними з заданим текстом, в таблиці результатів потрібно двічі клікнути на цікаву для вас осередок. У мене виділена комірка зі значеннями «Раді представити вашій увазі нашу розробку Doub ....» В пошуковій системі Google, з кількістю збігів 1820.

Двічі клікнувши по цьому осередку, ми автоматично переходимо в цікавий для нас пошуковик і бачимо результати збігів за обраною фразі.

Великою зручністю є можливість виведення результатів роботи програми на друк. Також, якщо під час роботи з програмою виникли якісь питання, можна скористатися вбудованою в програму допомогою.

Ось, мабуть, і все настільні програмні продукти для пошуку дубльованого контенту, які є у вільному доступі в Інтернеті на поточний момент. На мій смак, користуватися on-line сервісами набагато швидше і зручніше, хоча в програмах є такі плюси, як вбудована допомогу і можливість роздрукувати результати перевірки.

У висновку, хотілося додати, що метою даного огляду було протестувати всілякі настільні програми для пошуку плагіату, і що все думки з приводу зручності \ швидкості \ якості роботи програм - суто індивідуальні. Всі зауваження та пропозиції тільки вітаються. У будь-якому випадку, яким методом для пошуку дубльованого контенту користуватися, вирішувати тільки вам.

Корисно на замітку:

Як користуватися цією програмою?