CND加速器對(duì)蜘蛛抓取會(huì)有影響?




百度的官方文檔里有過(guò)說(shuō)明CDN的動(dòng)態(tài)IP會(huì)引起爬蟲(chóng)的抓取下降;確實(shí)這次通過(guò)自己的網(wǎng)站實(shí)踐到網(wǎng)站抓取量確實(shí)受到CDN的影響。
1、動(dòng)態(tài)IP會(huì)影響爬蟲(chóng)的抓取;
2、如果CDN對(duì)爬蟲(chóng)沒(méi)有影響,CDN的商家不會(huì)推出搜索引擎線路的服務(wù);
3、換域名的DNS并不難,為什么不換呢;
4、從1萬(wàn)多降到1000多,已經(jīng)很能說(shuō)明問(wèn)題了;
5、百度的抓取機(jī)制是:第一次訪問(wèn)后,為了快速抓取,會(huì)把域名對(duì)應(yīng)IP給緩存起來(lái),第二次就不訪問(wèn)域名的DNS解析了,直接訪問(wèn)緩存的IP;CDN的ip節(jié)點(diǎn)是動(dòng)態(tài)變化的,這就會(huì)造成第二次訪問(wèn)了原先的IP,會(huì)報(bào)錯(cuò)
6、用戶訪問(wèn)的時(shí)候:瀏覽器通過(guò)DNS查找用戶輸入網(wǎng)址對(duì)應(yīng)的服務(wù)器IP地址。如果IP存在嘗試與服務(wù)器建立TCP連接。
7、爬蟲(chóng)訪問(wèn)的時(shí)候:通過(guò)第一次緩存的域名對(duì)應(yīng)IP的關(guān)系,直接訪問(wèn),而不經(jīng)過(guò)DNS查詢;這樣就可能出錯(cuò),因?yàn)榈谝淮卧L問(wèn)的IP和第二次訪問(wèn)的IP是不一樣的,就會(huì)抓取不了;
而用戶訪問(wèn)是每次都查詢了DNS解析,所以不會(huì)出錯(cuò);造成的情況就是,用戶訪問(wèn)沒(méi)問(wèn)題,爬蟲(chóng)抓取會(huì)報(bào)錯(cuò);