Боты на dxdt.blog

На dxdt.blog продолжают сыпаться десятки тысяч HTTP-хитов в сутки от ИИ-ботов, в том числе, повторные GET-запросы в течение одних суток на одни и те же URL.

Для особо надоедливых ботов я сделал отдельный HTTP-редирект (302), ведущий на специальную страницу, где с кодом статуса 503 возвращается краткая HTML-заглушка. В некоторых случаях это помогает – бот, во-первых, не идёт по редиректу (ну, это предположительно, судя, так сказать, по косвенным признакам), во-вторых – на какое-то время бот, наткнувшийся на редирект в сторону 503, перестаёт сканировать сайт. Но это именно что в некоторых случаях: многие боты так и продолжают тупо прыгать по редиректам, причём, при каждом соседнем запросе – превращая десятки тысяч GET-запросов в десятки тысяч последовательных редиректов. А если такого бота забанить уже на уровне сетевого стека, то он всё равно продолжает лить сетевые запросы. В целом, очень хорошо заметно, как распространение подобных ботов заливает веб – на dxdt.blog трафик ИИ-ботов, по HTTP-хитам с кодом 200, в десятки раз превысил всё остальное.

Ещё наблюдение по этой же теме: я некоторое время назад сделал на сайте специальную ссылку, которая, как я думаю, не должна использоваться при корректной работе с веб-сайтом, но если пройти по URL из неё, то это моментально приводит к блокированию IP-источника уже на уровне сетевого стека (netfilter в ОС, под которой крутится веб-сервер). Ссылку, по понятным причинам, здесь не указываю, но она есть в robots.txt – объявлена, как закрытая (Disallow), что, конечно, может и привлекать запросы. Однако по этой ссылке – совсем мало кто из ботов попадается: видимо, прямое указание в robots.txt – пока работает в сторону “отключения”.

Адрес записки: https://dxdt.blog/2026/04/27/18063/

Похожие записки:



Далее - мнения и дискуссии

(Сообщения ниже добавляются читателями сайта, через форму, расположенную в конце страницы.)

Комментарии читателей блога: 3

  • 1 <t> // 27th April 2026, 15:31 // Читатель Бот написал:

    Говорят вроде hhtp/1.1 нужно на сайте запретить, оставить только h2 или вообще h3.

  • 2 <t> // 27th April 2026, 16:31 // Александр Венедюхин:

    Вполне может быть, хоть я и сомневаюсь – на другие сайты, логи которых я могу смотреть, приходят боты по HTTP/2 и выше. А вот мне самому – станет не слишком-то удобно использовать веб-сервер.

  • 3 <t> // 28th April 2026, 07:55 // Читатель Аноним написал:

    Запрет HTTP1 – фигня, HTTP2 есть уже везде (ну кроме lynx), а HTTP3 – ну в libcurl есть, в новомодных либах для работы с HTTP из раста тоже есть. Не остановит это скрейперов, если они скрейпят по http 1 – значит они взяли какую-то куцую, неэффективную и неоптимизированную либу, это не может быть масштабным. Мне кажется, что тут надо не в сторону подкрутки настроек сайта делать, а посмотреть, откуда наиболее бесцеримонный скрейпинг идёт – и просто туда заведомый нейробред гнать, который предварительно нагенерить, но чтобы бредом был. От скрейпинга не спасёт, но когда они наскрейпленное в дело пустят – мне кажется отхватят таких убытков, что компания может и закрыться. Ну а после нейробреда – в бан по автономной системе. Подозреваю, что всё это можно автоматизировать. Главное чтобы предохранительный клапан для живых людей остался.

Написать комментарий

Ваш комментарий:

Введите ключевое слово "767UG" латиницей СПРАВА НАЛЕВО (<--) без кавычек: (это необходимо для защиты от спама).

Если видите "капчу", то решите её. Это необходимо для отправки комментария ("капча" не применяется для зарегистрированных пользователей). Обычно, комментарии поступают на премодерацию, которая нередко занимает продолжительное время.