Ресурсы: техническое описание TLS, LaTeX - в картинки (img), криптографическая библиотека Arduino, шифр "Кузнечик" на ассемблере AMD64/AVX и ARM64
Боты на dxdt.blog
На dxdt.blog продолжают сыпаться десятки тысяч HTTP-хитов в сутки от ИИ-ботов, в том числе, повторные GET-запросы в течение одних суток на одни и те же URL.
Для особо надоедливых ботов я сделал отдельный HTTP-редирект (302), ведущий на специальную страницу, где с кодом статуса 503 возвращается краткая HTML-заглушка. В некоторых случаях это помогает – бот, во-первых, не идёт по редиректу (ну, это предположительно, судя, так сказать, по косвенным признакам), во-вторых – на какое-то время бот, наткнувшийся на редирект в сторону 503, перестаёт сканировать сайт. Но это именно что в некоторых случаях: многие боты так и продолжают тупо прыгать по редиректам, причём, при каждом соседнем запросе – превращая десятки тысяч GET-запросов в десятки тысяч последовательных редиректов. А если такого бота забанить уже на уровне сетевого стека, то он всё равно продолжает лить сетевые запросы. В целом, очень хорошо заметно, как распространение подобных ботов заливает веб – на dxdt.blog трафик ИИ-ботов, по HTTP-хитам с кодом 200, в десятки раз превысил всё остальное.
Ещё наблюдение по этой же теме: я некоторое время назад сделал на сайте специальную ссылку, которая, как я думаю, не должна использоваться при корректной работе с веб-сайтом, но если пройти по URL из неё, то это моментально приводит к блокированию IP-источника уже на уровне сетевого стека (netfilter в ОС, под которой крутится веб-сервер). Ссылку, по понятным причинам, здесь не указываю, но она есть в robots.txt – объявлена, как закрытая (Disallow), что, конечно, может и привлекать запросы. Однако по этой ссылке – совсем мало кто из ботов попадается: видимо, прямое указание в robots.txt – пока работает в сторону “отключения”.
Адрес записки: https://dxdt.blog/2026/04/27/18063/
Похожие записки:
- Реплика: ретроспектива сетевого распада
- Техническое: изменение сетевых параметров dxdt.ru
- Записки за март 2026
- Заметки про искусственный интеллект
- Наложенные сети Chrome для размещения сервисов
- Дальнейшее сокращение допустимого срока действия TLS-сертификатов
- X25519Kyber768 в браузере Chrome 124
- Быстрые, но "нечестные" подписи в DNSSEC
- Аварии facebook.com
- Публикации на сайте ТЦИ
- Реплика: история с сертификатом Jabber.ru и "управление доверием"
Новый
Комментарии читателей блога: 3
1 <t> // 27th April 2026, 15:31 // Читатель Бот написал:
Говорят вроде hhtp/1.1 нужно на сайте запретить, оставить только h2 или вообще h3.
2 <t> // 27th April 2026, 16:31 // Александр Венедюхин:
Вполне может быть, хоть я и сомневаюсь – на другие сайты, логи которых я могу смотреть, приходят боты по HTTP/2 и выше. А вот мне самому – станет не слишком-то удобно использовать веб-сервер.
3 <t> // 28th April 2026, 07:55 // Читатель Аноним написал:
Запрет HTTP1 – фигня, HTTP2 есть уже везде (ну кроме lynx), а HTTP3 – ну в libcurl есть, в новомодных либах для работы с HTTP из раста тоже есть. Не остановит это скрейперов, если они скрейпят по http 1 – значит они взяли какую-то куцую, неэффективную и неоптимизированную либу, это не может быть масштабным. Мне кажется, что тут надо не в сторону подкрутки настроек сайта делать, а посмотреть, откуда наиболее бесцеримонный скрейпинг идёт – и просто туда заведомый нейробред гнать, который предварительно нагенерить, но чтобы бредом был. От скрейпинга не спасёт, но когда они наскрейпленное в дело пустят – мне кажется отхватят таких убытков, что компания может и закрыться. Ну а после нейробреда – в бан по автономной системе. Подозреваю, что всё это можно автоматизировать. Главное чтобы предохранительный клапан для живых людей остался.
Написать комментарий