Лемма — неизменная, исходная форма слова. Для существительных это именительный падеж и единственное число, для глаголов — форма слова, отвечающая на вопрос «что делать?».
Лемматизация — процесс выявления лемм, который применяется поисковиками при индексации сайтов. Она часто используется для морфологического анализа текстов и является одной из прикладных дисциплин языкознания.
Этот процесс позволяет хранить информацию о каждой странице у себя в индексе в виде набора слов, приведенных, по сути, к единому знаменателю.
Лемматизация применяется для ускорения индексации и формирования ответа на поисковый запрос, за счет сокращения словоформ, необходимых к изучению, анализу и разбору поисковиком. Вы можете ввести: «куплю футболку» или «купить футболку» — поисковик преобразует эти слово в «купить футболка», таким образом, выдавая один и тот же результат для разных по написанию и одинаковых по смыслу запросов.
Кроме ускорения индексации, поисковики используют лемматизацию для оценки уникальности контента разделяя содержимое страницы на шинглыи анализируя затем леммы в пределах каждого из них. Программа ищет выбранный набор лемм в других текстах, которые также прошли первый пункт. В случае нахождения совпадений, леммы второго текста признаются неуникальными.
Лемматизация в SEO помогает оптимизаторам подобрать семантическое ядро для сайта. Роль технологии в этом процессе в том, что:
Смотрите также: — пассаж
Нажимая кнопку вы даете информированное
согласие на обработку своих персональных данных