В статье используется WebBear 2.907 - работа с доменами
  • 01.07.2021

Запускаем WebBear 2.907, создаём новый проект. Берем ключи, в данном случае через Мутаген, заливаем в проект.

Этап 1, парсинг веб-архива.

В проекте у нас около 3000 ключей, обычно достаточно 1000, т.к. отдаёт в основном на ВЧ-запросы, а дальше либо мало доменов, либо они повторяют найденные на прошлых ключах.

Пока что это все домены из результатов поиска и мы не знаем, что из них дропы, а что живые. Сразу ремарка, представьте что это вручную делать, данный этап и всё, что ниже. Нереал.

Этап 2, первичка.

Архив пропарсили, плавно переходим к вычленению дропов. Я не стал доводить парсинг до конца, хватило как раз-таки одной тысячи ключей, дальше результаты пошли на спад. В итоге у нас собралось около 2 тысяч доменов. Сразу переходить к проверке по whois расточительно, у каждой зоны (не считая com net) есть лимиты. У ру-су-рф, например, подряд даёт 200 доменов пройти, после банит на минуту. Так вот, дальше мы проверяем (не мы, а софт) по первичке. Первичка означает что мы запрашиваем ip-адреса серверов этих доменов. Если ip вернулся, значит домен живой и на этом этапе мы его отметаем. Если нет - то помечаем "возможно свободным". Не факт, что он дроп, может не привязан. 

Этап 3, проверка по Whois

Всё, что не отдало ip сервера на прошлом этапе, будем сейчас проверять по whois. Каждый следующий домен выбирается в другой доменной зоне, нежели предыдущий. Тем самым минимизируем количество зарпосов к одному и тому же регистратору.

Этап 4, сбор ссылочного портфеля

И вот мы на последнем этапе. Через стороннее API, которое стоит 29$ за 25 тысяч проверок доменов, получаем данные по MOZ и Majesctic, а именно показатели DA, TF, CF и количество ссылающихся доменов, ip-адресов, ссылок суммарно и некоторые другие данные. 

Финальный результат 

В итоге за 20 минут мы нашли 202 свободных домена, 95% из которых соответствуют искомой нами тематике. Далее распоряжаемся полученной базой по своему усмотрению.