Шаблоны скребков сильно отличаются от шаблонов пользователей, поэтому вы сможете относительно легко их замедлить.
Да, если полностью избавиться от одного IP и с такими же заголовками. Позвольте мне дать вам способы обхода блоков:
* Изменение TLS (один из способов, с помощью которого Cloudflare пытается остановить парсинг, — это след TLS)
* Прокси/Ротация IP (а с IP6 проще или придется блокировать полностью/64…какими блокирует)
* Измените заголовки, чтобы они соответствовали текущим браузерам. Ака, вы не парсите с пустым базовым заголовком, а соответствуете тому, что ожидает сайт.
* Безголовые браузеры, если кто-то пытается запустить трюки JS
* Виртуальный профиль (создавайте виртуальные клиенты, которые повторяются, т. е. отображаются как настоящие клиенты, а их заголовки и т. д. остаются прежними, но следуют шаблону многопоточности/повторной очистки)
* Профили учетных записей (см. выше, но где создавать учетные записи и отменять каждую учетную запись по определенным интересам каждый день). Их очень сложно идентифицировать вне случайных сканирований.
* И читайте github, где люди включают антискрейпинг в свое программное обеспечение, а затем делают обратное (например, в некоторых браузерах есть ошибки/функции, которые можно использовать для предотвращения парсинга, но если вы это знаете, вы имитируете это поведение. Или вы просто используете безголовый браузер)
Имейте в виду, что после того, как вы соберете контент с сайта, вы будете искать новый контент, т. е. скрейпинг не потребует дополнительных десятков миллионов звонков, чтобы получить все. Проблема с сайтами, которые перестают парсить, заключается в том, что им приходится все больше и больше искать особые случаи, чтобы распознать парсинг-ботов.
В то время как парсер может после создания хорошей системы продолжать повторно использовать одну и ту же систему на всех веб-сайтах (при условии, что здесь и там есть обновления, если кто-то найдет новый трюк).
Это война, в которой автоматизация проигрывает, потому что парсерам не нужно беспокоиться о клиентах. Как администратор веб-сайта, вы должны быть осторожны, чтобы программное обеспечение для защиты от скрейпинга не убивало реальных пользователей, таких как люди, которые не используют стандартные браузеры Chrome или имеют другой стиль, чем обычно. Скребок может обойти блок с меньшими усилиями.
А копать тоже большой бизнес. Есть компании, которые специализируются на удалении контента, платя 500 долларов за миллионы звонков в месяц. И они делают это, когда исправляют, если сайт что-то блокирует. Правда в том, что если им нужны ваши данные, они у них будут. И по гораздо более низкой цене, чем многие компании предлагают собственный API. По иронии судьбы, защита вашего веб-сайта от очистки на самом деле обходится дороже, потому что вам нужно отображать целые страницы с вашего сервера, а парсер извлекает только небольшие части. Если вы будете дешево отображать эти данные через API, люди будут просто использовать API, и ваши серверы будут меньше стонать.
Правда в том, что существует целая индустрия, которая занимается этим, и само по себе парсинг не является незаконным, проблема заключается в том, что вы делаете с данными. И если эти данные перерабатываются в модели ИИ, наслаждайтесь этим.
Единственный способ остановить парсинг — это платные сервисы (и тогда будет еще и нелегальный сервис из украденных аккаунтов/украденных PayPal и т. д., который будет обеспечивать парсинг). Но создавать платные сервисы очень сложно, потому что у людей не так много бесплатных денег каждый месяц. И затем они дают эти деньги только за критические/важные услуги… Spotify, Youtube (если они действительно остановят блокировку рекламы) и потоковые сервисы. И нет больше денег на другие услуги. Это своего рода проблема в наши дни. Как только все становится слишком платным, вы теряете пользователей, и люди возвращаются к непрочитанной дорожке. И… привет скребкам.
Это действительно цикл, который большинство компаний не понимают. Люди не банки с безграничными деньгами и это возможно, если вы как компания выстроите монопольное положение в сегменте рынка, а все остальное, ну…
«Создатель. Дружелюбный к хипстерам социальный медиа-голик. Интернет-фанат. Страстный фанатик алкоголя».
More Stories
Брюссель, вероятно, начнет с выжидательной позиции после результатов Nvidia
2 крупнейшие компании, предпочитаемые крупными инвесторами
Intel анонсирует процессоры Xeon W-3500 и W-2500 для рабочих станций с числом ядер до 60 — Компьютер — Новости