Способы генерации дорвеев

Основная сложность в массовом производстве дорвеев – это добыча контента. Ведь страниц требуется делать очень много, а значит требуются десятки мегабайт текстовки. Раньше все просто брали книги (в них текста много), перемешивали слова и втыкали свои ключи.

Сейчас такой топорный подход уже не работает. Хотя есть умельцы, которые по-прежнему клепают доры по старым схемам под гугл, но такие поделки с трудом лезут в индекс и быстро вычисляются и банятся.

Что рулит сейчас? Сейчас рулит качественная тематическая текстовка, подготовленная по определенным алгоритмам.

Где ее взять:
1. Некоторые серверные доргены (сеодор, СЕД) парсят текстовку с сайтов по конкретным ключам. После парсинга текстовка чистится и обрабатывается на лету, после чего загружается на страницу. В этом случае текстовку отдельно подготавливать не надо, дорген все сделает сам. Однако абсолютно все доргены несовершенны и зачастую в текстах попадается много мусора, не говоря уже о том, что сами сайты, найденные по НЧ ключам, могут содержать бредовый и не
тематический текст.

Основные алгоритмы, по которым парсится текстовка доргенами:

a. Копипаст всего текста, найденного на сайте. На сгенерированной странице он будет представлен в том же количестве, что был на сайте доноре. Обычно в конце статьи ставится ссылка на источник. Раньше (2012-13 гг.) этот способ хорошо работал, сейчас яндекс быстро отправляет такие доры в бан.
b. Мешанка из абзацев. Берется по абзацу с каждого сайта по ключу и вставляется в количестве, заданном в настройках (например, от 3 до 5 абзацев, по 3-5 предложений в каждом). Такие доры живут и сейчас. В яндексе – от 2 до 4 месяцев.
c. Мешанка из предложений. Берутся разные предложения с текстовки,  спаршенной по ключу, перемешиваются и вставляются на страницу дора, при необходимости разбиваются на произвольное количество абзацев с произвольным количеством предложений в каждом. Живут такие доры до 6
месяцев в яндексе.

2. Можно спарсить текстовку самому и автоматически ее обработать. В этом случае собираются отдельные информационные ключи, по которым сидят информационные контентные сайты и забиваются в парсер. Парсер вбивает каждый ключ в выдачу гугла, переходит на сайты из выдачи, находит на них контент и сохраняет.

В данном случае текстовка также автоматически чистится от мусора. Актуальные алгоритмы обработки текстовки:
a. Мешанка из предложений. По аналогии с пунктом 2c.
b. Стыковка по запятым. Берется мешанка из предложений. Далее, каждое предложение разбивается по запятым на отдельные части. После чего разные части предложений до и после запятой стыкуются друг с другом в новые предложения в произвольном порядке.

Было:
Виновата ли я, что мой голос пропал. Рюмка водки на столе, ветер плачет за окном.

Стало:
Виновата ли я, ветер плачет за окном. Что мой голос пропал, рюмка водки на столе.

Контент получается хоть и бредовым по смыслу, но читабельным, и главное уникальным. Такие доры живут в яндексе дольше всего.

c. Парсинг сниппетов. В парсер также вбивается список ключей. Но по ключам парсится не текст с сайтов из выдачи, а сниппеты по каждому ключу. Для тех, кто не знает, сниппеты – это короткое описание сайтов в результатах поиска.

Гугл в сниппетах обычно выводит наиболее релевантные (подходящие по смыслу) куски текстов с сайтов. В них часто попадаются вхождения ключа в различных вариациях. Поэтому контент на дорах получается хорошо оптимизированным. Доры на такой текстовке так же живут в обоих
поисковиках достаточно долго.

Если вы выбираете второй способ, то вам потребуется парсер Datacol. И мой скрипт для чистки текстовки с интегрированным алгоритмом стыковки по запятым. И то, и другое, идет в комплекте к курсу с инструкциями о том, как пользоваться и какие настройки ставить.

Несмотря на то, что на дворе 2015 год, сейчас можно делать доры без текста вообще (безконтентные доры). В шаблон вставляется только заголовок с ключом и в зависимости
от тематики какая-то статическая информация. Например, в случае с интернет-магазинами на странице выкладывается несколько карточек товаров, в каждой из которых присутствует генерированная информация о цене, наличии, артикуле, размере, весе и т.п.

В качестве контента на дорах могут выступать картинки, видео и аудио записи. Уже писал о таких дорвеях под адалт и mp3.