SEO網(wǎng)站日志分析




自從自己從事SEO網(wǎng)站優(yōu)化以來(lái),自己慢慢的去關(guān)注網(wǎng)站日志。網(wǎng)站日志分析成為自己每天工作的第一件事情,每天一到公司第一時(shí)間就是對(duì)昨天的網(wǎng)站日志進(jìn)行分析。也許部分站長(zhǎng)們還不會(huì)分析網(wǎng)站日志,這個(gè)可以參閱下之前皇冠網(wǎng)小編發(fā)表過(guò)的《略懂網(wǎng)站日志分析,網(wǎng)站更安全》,但也有少部分覺(jué)得分析網(wǎng)站日志就是在浪費(fèi)時(shí)間,天天看著那些數(shù)據(jù)有什么作用。這里皇冠網(wǎng)小編覺(jué)得至少有三點(diǎn)我們可以了解到。
第一、 確定是否有蜘蛛過(guò)來(lái)爬行
如何確定是否有蜘蛛過(guò)來(lái)爬行:
1、 通過(guò)觀看網(wǎng)站日志代碼進(jìn)行觀看,這個(gè)針對(duì)分析高手2、 通過(guò)網(wǎng)站日志分析工具進(jìn)行觀看,這個(gè)比較適合新手使用通過(guò)網(wǎng)站日志分析工具可以直接查看站點(diǎn)有哪些頁(yè)面已經(jīng)被蜘蛛爬行抓取了。
第二、 客戶ip便知蜘蛛類型。
1、220.181.108.*ip段的百度蜘蛛(提權(quán)蜘蛛)2、123.125.71.*ip段的百度蜘蛛(劣質(zhì)文章捉取蜘蛛)3、123.125.68.*ip段的百度蜘蛛(考察蜘蛛)4、117.28.255.*ip段的百度蜘蛛(假冒蜘蛛)5、。。。。。。
第三、 檢測(cè)頁(yè)面狀態(tài)正常與否
通過(guò)網(wǎng)址日志我們可以直接的服務(wù)器響應(yīng)代碼看出我們的頁(yè)面哪些有問(wèn)題,哪些正常的。一般情況下返回的狀態(tài)碼是200的話說(shuō)明正常,出現(xiàn)404的話,說(shuō)明頁(yè)面出現(xiàn)問(wèn)題。
第四、 搜索引擎對(duì)站點(diǎn)的友好程度
從網(wǎng)站日志,我們可以直接的看出蜘蛛來(lái)我們站點(diǎn)的爬行次數(shù),爬行次數(shù)越多說(shuō)明蜘蛛對(duì)我們的站點(diǎn)越友好。
通過(guò)上圖我們可以直接的看出蜘蛛對(duì)我們站點(diǎn)的爬行次數(shù)了,但是這里面的爬行次數(shù)里面也存在冒牌的蜘蛛,所以我們還需要通過(guò)客戶ip進(jìn)行確認(rèn)哪些是真正的蜘蛛,哪些是冒牌的。這個(gè)可以參閱《略懂網(wǎng)站日志分析,網(wǎng)站更安全》里面有圖文教程,介紹如何區(qū)別真假蜘蛛,這里就不再介紹了。
通過(guò)上面三點(diǎn)的了解,皇冠網(wǎng)hg-seo.com小編對(duì)以上四點(diǎn)進(jìn)行進(jìn)一步的探知:
針對(duì)上面第一、我們可以直接的查看哪些頁(yè)面被爬行抓取了,哪些沒(méi)有。隨著算法的不斷更新,新站的考察期越來(lái)越長(zhǎng)了,以至于好多新站長(zhǎng)更新的文章通過(guò)site:域名,查收錄都沒(méi)有顯示。這大部分是因?yàn)樗阉饕鏈袅藳](méi)有及時(shí)釋放。
針對(duì)上面第二、我們可以通過(guò)客戶ip辨別站點(diǎn)安全信息及文章內(nèi)容質(zhì)量怎樣根據(jù)不同的IP我們可以分析網(wǎng)站是個(gè)怎樣的狀態(tài),以下常見的百度蜘蛛IP:
1、123.125.68.*常來(lái),別的來(lái)的少,那么站點(diǎn)進(jìn)入沙盒,或被者降權(quán)的可能性非常高。
2、220.181.68.*每天只增加沒(méi)有減少,則是進(jìn)入沙盒或者被降權(quán)的預(yù)兆。
3、220.181.7.*、123.125.66.* 搜索引擎開始要抓取東西。
4、121.14.89.*擺脫了新站考察期。
5、203.208.60.*站點(diǎn)開始不正常。
6、210.72.225.*這個(gè)ip段不間斷巡邏各站。
7、220.181.108.*高質(zhì)量文章內(nèi)容頁(yè)或首頁(yè)抓取。
一般成功抓取返回代碼都是 200 0 0返回,若返回狀態(tài)顯示304 0 0代表網(wǎng)站沒(méi)更新,蜘蛛來(lái)過(guò),但沒(méi)抓取。如果是 200 0 64,那么也別擔(dān)憂,這只不過(guò)是一些動(dòng)態(tài)頁(yè)面的抓取。
針對(duì)上面第三、如果服務(wù)器返回狀態(tài),比如200 表示正常訪問(wèn)。404 表示頁(yè)面不存在。304代表網(wǎng)頁(yè)還沒(méi)更新。這些都可以通過(guò)網(wǎng)站日志里面的代碼直接看出來(lái)的。如果大量的出現(xiàn)404的話,那么非常有必要對(duì)這些404的頁(yè)面進(jìn)行采取措施。我們可以用robots.txt協(xié)議來(lái)屏蔽這些頁(yè)面,不讓搜索引擎來(lái)爬行這個(gè)頁(yè)面。
針對(duì)上面第四、真的蜘蛛來(lái)的次數(shù)越多越好!
好了,對(duì)網(wǎng)站日志就介紹里面。網(wǎng)站日志可以通過(guò)以下兩種方式獲得:
1、 ftp空間log文件夾
2、 登入你站點(diǎn)的服務(wù)器,通常網(wǎng)站日志位置C:\WINDOWS\system32\LogFiles