請登錄后使用快捷導航
沒有帳號？立即注冊

使用爬蟲采集網站時，解決被封IP的幾種方法

2022-9-27 09:23| 查看: 2242 |來源: 互聯網

方法1.之前由于公司項目需要，采集過google地圖數據，還有一些大型網站數據。經驗如下：1.IP必須需要，像@alswl 說的非常正確，ADSL。如果有條件，其實可以跟機房多申請外網IP。2.在有外網IP的機器上，部署代理服務

方法1.
之前由于公司項目需要，采集過google地圖數據，還有一些大型網站數據。
經驗如下：
1.IP必須需要，像@alswl 說的非常正確，ADSL。如果有條件，其實可以跟機房多申請外網IP。
2.在有外網IP的機器上，部署代理服務器。
3.你的程序，使用輪訓替換代理服務器來訪問想要采集的網站。
好處：
1.程序邏輯變化小，只需要代理功能。
2.根據對方網站屏蔽規則不同，你只需要添加更多的代理就行了。
3.就算具體IP被屏蔽了，你可以直接把代理服務器下線就OK，程序邏輯不需要變化。
方法2.
有小部分網站的防范措施比較弱，可以偽裝下IP，修改X-Forwarded-for（貌似這么拼。。。）即可繞過。
大部分網站么，如果要頻繁抓取，一般還是要多IP。我比較喜歡的解決方案是國外VPS再配多IP，通過默認網關切換來實現IP切換，比HTTP代理高效得多，估計也比多數情況下的ADSL切換更高效。
方法3.
ADSL + 腳本，監測是否被封，然后不斷切換 ip
設置查詢頻率限制
正統的做法是調用該網站提供的服務接口。
方法4.
8年多爬蟲經驗的人告訴你，國內ADSL是王道，多申請些線路，分布在多個不同的電信區局，能跨省跨市更好，自己寫好斷線重撥組件，自己寫動態IP追蹤服務，遠程硬件重置（主要針對ADSL貓，防止其宕機），其余的任務分配，數據回收，都不是大問題。我的已經穩定運行了好幾年了，妥妥的！
方法5.
1 user agent 偽裝和輪換
2 使用代理 ip 和輪換
3 cookies 的處理，有的網站對登陸用戶政策寬松些
友情提示：考慮爬蟲給人家網站帶來的負擔，be a responsible crawler :)
方法6.
盡可能的模擬用戶行為：
1、UserAgent經常換一換；
2、訪問時間間隔設長一點，訪問時間設置為隨機數；
3、訪問頁面的順序也可以隨機著來
方法8.
網站封的依據一般是單位時間內特定IP的訪問次數.
我是將采集的任務按目標站點的IP進行分組通過控制每個IP 在單位時間內發出任務的個數,來避免被封.當然,這個前題是你采集很多網站.如果只是采集一個網站,那么只能通過多外部IP的方式來實現了.
方法9.
1. 對爬蟲抓取進行壓力控制；
2. 可以考慮使用代理的方式訪問目標站點。
-降低抓取頻率，時間設置長一些，訪問時間采用隨機數
-頻繁切換UserAgent（模擬瀏覽器訪問）
-多頁面數據，隨機訪問然后抓取數據
-更換用戶IP

本文最后更新于 2022-9-27 09:23，某些文章具有時效性，若有錯誤或已失效，請在網站留言或聯系站長：[email protected]

·END·

站長網微信號：w17tui，關注站長、創業、關注互聯網人 - 互聯網創業者營銷服務中心

免責聲明：本站部分文章和圖片均來自用戶投稿和網絡收集，旨在傳播知識，文章和圖片版權歸原作者及原出處所有，僅供學習與參考，請勿用于商業用途，如果損害了您的權利，請聯系我們及時修正或刪除。謝謝！

下一篇：一句話木馬后門在防注入中的重生上一篇：淺談史上最大DDoS攻擊的本質與防范

17站長網微信二維碼

始終以前瞻性的眼光聚焦站長、創業、互聯網等領域，為您提供最新最全的互聯網資訊，幫助站長轉型升級，為互聯網創業者提供更加優質的創業信息和品牌營銷服務，與站長一起進步！讓互聯網創業者不再孤獨！

掃一掃，關注站長網微信

精品免费在线观看-精品欧美-精品欧美成人bd高清在线观看-精品欧美高清不卡在线-精品欧美日韩一区二区

使用爬蟲采集網站時，解決被封IP的幾種方法

大家都在看

相關分類

熱門排行

最近更新