Кластеризация

Вы все начинаете свою работу с подготовки семантического ядра. СЯ – это совокупность фраз, по которым вы хотели бы получать трафик. Те запросы, которые вам нужны в зависимости от вашей отрасли. Хорошо бы, если бы эта семантика была маленькой. Но часто бывает так, что СЯ состоит из 1000 или даже тысяч запросов. Большие интернет-магазины обладают колоссальнейшим СЯ – это могут быть сотни тысяч запросов.

Обрабатывать их вручную сложно. Поэтому появился инструмент автоматизации – кластеризация. Но дело не только в автоматизации рутинной работы. Кластеризация позволяет дать ответ на вопрос, как правильно объединить запросы на одной странице. Иногда клиент или начинающий специалист пытается занести запросы на страничку и говорит: вот это страничка сайта (главная, услуги, категория и т.п.), и я хотел бы, чтобы все запросы вели именно туда. Но не всегда так срабатывает.

Человек бьется, но страница не попадает в выдачу, не растет в запросах, трафика нет. Почему так происходит? У поисковиков есть определенный алгоритм. Вы наверняка много раз встречались с тем, что поисковик подмешивает в выдачу свои аффилированные ресурсы. Например: «смартфон» и «смартфон купить». В первом случае выдача будет не на столько агрессивно коммерческая. Добавление транзакционного хвостика «купить» усиливает восприятие поисковиком запроса как коммерческого. Тогда сразу агрессивно появляются интернет-магазины, агрегаторы, проекты самого поисковика. Например, Яндекс подмешает туда обязательно Яндекс Маркет и Карту с ближайшими магазинами, особенно если у них проплачена выдача.

Это в общем-то нормально. Но нам нужно понять, как это работает. Если со смартфоном пример не очень-то наглядный, то с запросом «купить книгу» немного иначе. Если бы поисковик выдавал бы в выдаче только информационные сайты без возможности покупать, пользователь поисковика  был бы недоволен, ушел бы в другой поисковик. Поэтому поисковики стараются выдавать максимально релевантную выдачу.

Можно привести такие примеры как: «аптека», «аптека Москва», «аптека Владивосток», — каждую страничку поисковик выдает максимально релевантную. Почему важно делать кластеризацию? Она основана не на ваших предпочтениях или мнении о том, как это должно работать. Она основана на фактических данных, который собирается из поисковиков.

Как работает кластеризация? Некий сервис, которым вы пользуетесь, вбивает запросы в поисковик и собирает списки сайтов, которые выдаются на этот запрос. Например: «Мастер и Маргарита», «Мастер и Маргарита купить», «Мастер и Маргарита история создания» и т.п.

По каждому запросу составляется таблица сайтов в выдаче. И даже не просто сайтов – конкретных страниц. Когда в списках появляется соответствие, мы видим, что по сходным запросам «Мастер и Маргарита купить» и «Мастер и Маргарита заказать» скорее всего будет очень много совпадений – 8 из 10 сайтов будут совпадать. Можно сказать, что эти запросы одинаково ранжируются, у них одинаково релевантные страницы, и их можно объединять в одну группу. Эти группы, по которым их система объединяет автоматически, находя те запросы, которые имеют в выдаче высокую схожесть, называются кластерами.

Существуют методы кластеризации:
 Софт
 Хард

Теория кластеризации для нас не столько важна, сколько важно, как ее потом практически использовать. Т.к. на самом деле кластеризация – непростой инструмент. Что часто происходит? Собрали семантику, загнали в кластеризатор, получили группы и все. После этого бывает ступор на неделю и больше. Потому что система выдает очень большое количество групп.

Иногда бывает так, что 40-50% семантики ушло в крупные группы, а оставшиеся 50-60% разбились на микроскопические группы, состоящие иногда из 1-2 запросов. Работать с таким хвостом очень сложно, иногда вообще непонятно, что с ним делать. А иногда бывает так, что я не согласен с кластеризацией. Принципиально. Несмотря на то, что скрипт вроде бы объединил группы на основании реального анализа поисковиков, которые по факту именно так и ранжируют.

Вроде бы, следовало бы доверять. Но я как специалист иногда говорю, что я хотел бы кластер переделать немного по-другому. Почему? Потому что иногда бывает много очень сложных для объединения запросов. Позже покажу конкретные примеры, как бы я поменял кластер в сравнении с тем, как это сделала автоматическая система.

Во всех системах кластеризации есть параметр, который позволяет жесткость кластеризации изменять. Он определяет, сколько сайтов в выдаче должно совпасть, чтобы запросы объединить в 1 группу. Как правило, 10 – это очень точное совпадение, 3-4 – меньшее совпадение. В этой цифре кроется основной нюанс. Если поставить высокий параметр кластеризации, вы получите очень мало больших групп и большую семантику, потому что совпадения не часто встречаются с таким количеством.

А если вы получите очень низкое вхождение, вы получите миллиард мелких групп из 1-2 запросиков, с которыми работать невозможно. Вторая проблема – когда вы покажете результат клиенту, у него возникнет вопрос, а зачем все это делать. Простой пример, кейс из нашей практики – компания, которая занимается бухгалтерским аутсорсингом. Семантика очень широкая. Иногда бывает «аутсорсинг бухучета», «ведение бухучета», «аутстаффинг бухучета», «облачная бухгалтерия» и т.п. с точки зрения логики все эти запросы должны удовлетворять один и тот же спрос клиента и вести к одной и той же страничке. Но с точки зрения поисковиков, это отличающиеся сущности. Получается, что у клиента 8 услуг, 8 страниц под эти услуги, а кластеризация разбила семантическое ядро на 200 страниц. Что делать дальше?

Непонятно, что делать дальше. Чаще всего это бывает доказательство того, что нам нужны дополнительные страницы, а клиент не понимает, что делать. На этом ситуация зависает, быстрое решение не приходит, люди не знают, как договориться. Часто бывает такая проблема. В интернет-магазинах все проще: с товарами легче сделать автоматическую фильтрацию, поэтому, если у вас была товарная категория «Сапоги», а в результате автоматической кластеризации она разбилась на «мужские сапоги», «женские сапоги», «зеленые сапоги», «высокие сапоги», и т.п. – разбить их просто. И логику навигации сделать легко, и фильтровать товары легко, а вот для некоторых магазинов это сложно сделать.

Если вы сеошник и работаете с клиентом, важнейшим аргументом для заказчика или руководителя является то, что данные кластеризации  основаны на поисковиках. Если мы не послушаемся того, что говорит поисковик, мы не войдем по каким-то запросам в ТОП. Но при этом не нужно создавать большое количество низкокачественных страниц. Очень частой проблемой как раз и бывает, что в результате такой кластеризации на сайте появляется N-страниц низкого качества, с контентом, который отрерайтили копирайтеры на бирже, потому что нужно было создать 100 страниц, например.

Важно, что и поисковикам не нравится создание большого количества страниц для информационных сайтов и сайтов услуг. Как правило, это только для интернет-магазинов на ура проходит. Основная проблема – отсутствие возможности перейти по навигации на эти страницы. Они изолированы от навигации, на них пользователь попасть не может никак, кроме как по прямой ссылке. Это плохо, нет переходов по внутренним страницам сайта, страдают поведенческие факторы. Нет вообще физической навигации и нет переходов на эти страницы. Поисковики ставят галочку, говорят: «ай-ай-ай, это не пройдет» — страницы могут даже выпасть из индекса, т.к. они не несут в себе никакой ценности, а основные сущности, которые система может извлечь из текстов, фактически совпадают с сущностями другой страницы.