Что такое алгоритм шинглов?

что такое алгоритм шинглов?
В этой статье я постараюсь дать более подробное определение шинглов и расскажу для чего он нужен и когда применяется поисковыми системами. Используя данный алгоритм шинглов, поисковые системы в значительной мере облегчают жизнь себе и пользователям. Себе они облегчают задачу при поиске не уникального контента, и последующей пессимизацией (понижение позиции сайта в выдаче поисковой системы) или баном сайта на котором это было зафиксировано. А пользователям благодаря этому популярному алгоритму, приходится меньше тратить время на поиск нужной информации, так как меньше попадается на глаза дубли текстов.
Изначально, алгоритм шинглов, был создан для обнаружения дубликатов текста. Дословно в переводе с английского языка, shingle означает черепичка или же чешуйка, в общем некая ячейка составляющий элемент чего-то. Разработчик по имени Уди Манбер в 94 году придумал идею поиска плагиата с помощью шинглов, а в 97 году некий Андрей Бродер доработал эту задумку, которой он и дал это название “алгоритм шинглов“.
Как работает этот алгоритм при поиске дублей?
К примеру какая-то поисковая система будь то Яндекс или Google находит N-ое количество текстов. Примечательно, что один и тот же текст на разных сайтах, может быть по разному оформлен. Т.е. с использованием разных шрифтов, размеров, тегов и т.д. Но поисковики не берут во внимание оформление текста, а учитывают только их содержание. Затем дробит все тесты на отрезки (которые и называются шинглами), состоящие из разного количества слов. В конце концов, если процент одинаковых отрезков (шинглов), зашкаливает за допускаемый порог, то текст считается не уникальным. В этом случае поисковая система или заносит в не уникальную базу индекса, как это делает google (база для supplemental выдачи). Или как это делает Яндек, просто банит или оставляет только малое количество страниц сайта в индексе поиска.


