又狂又色又刺激又爽的视频,国产精品VA在线观看无码不卡,唐三?小舞18禁污污,香蕉大战欧美一级理论片,性爱国产,色国产色无码色综合,欧美强奸在线,超碰人人欧美,2016亚洲国产网址,欧美综合亚洲日韩精品二区

幫助

屏蔽國外垃圾無用蜘蛛,防止大量抓取導致網站崩潰浪費帶寬

2024-12-13 09:34 技術文檔

最近(jin)發現(xian)一些(xie)國(guo)外垃圾(ji)蜘蛛頻繁抓我網站頁面(mian),白浪費消耗服(fu)務(wu)器性能。所(suo)以要屏蔽他們這(zhe)些(xie)垃圾(ji)蜘蛛抓取,這(zhe)里介紹兩種方法一同操作進行屏蔽:


第一種方法:直接(jie)在(zai)根目錄下(xia)robots.txt文(wen)件里面(mian)屏(ping)蔽掉相(xiang)關垃圾蜘蛛:


User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: BLEXBot

Disallow: /

User-agent: ZoominfoBot

Disallow: /

User-agent: ExtLinksBot

Disallow: /

User-agent: hubspot

Disallow: /

User-agent: leiki

Disallow: /

User-agent: webmeup

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: googlebot-image

Disallow: /

User-agent: googlebot-mobile

Disallow: /

User-agent: yahoo-mmcrawler

Disallow: /

User-agent: yahoo-blogs/v3.9

Disallow: /

User-agent: Slurp

Disallow: /

User-agent: twiceler

Disallow: /


User-agent: AhrefsBot

Disallow: /

User-agent: psbot

Disallow: /

User-agent: YandexBot

Disallow: /


第二種方法,寶塔面板網站設置——配(pei)置文件(jian),將(jiang)需要(yao)屏蔽的蜘蛛(zhu)寫進配(pei)置文件(jian)代碼里:


#屏蔽垃圾蜘蛛

if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {

return 403;

}


第三(san)種方法防(fang)火墻里加過濾規則    再來抓就送你吃(chi)403!


常見的搜索引擎爬蟲


1、Googlebot(屏蔽!沒毛(mao)用)


Googlebot是(shi)(shi)谷歌(ge)的網(wang)絡爬(pa)(pa)蟲,其UA標識為“(compatible;Googlebot/2.1;+//www.google.com/bot.html)”。對大部分網(wang)站,Googlebot應該是(shi)(shi)爬(pa)(pa)取最(zui)勤快的爬(pa)(pa)蟲,能給優質博(bo)客(ke)帶(dai)來大量流量。


除了(le)爬(pa)(pa)取網頁的(de)Googlebot,常見(jian)的(de)還(huan)有圖片爬(pa)(pa)蟲(chong)Googlebot-Image、移(yi)動廣告爬(pa)(pa)蟲(chong)Mediapartners-Google等(deng)。


2、Baiduspider


Baiduspider是百(bai)度的網頁爬蟲,中(zhong)文(wen)站很(hen)常見。其UA標識為“(compatible;Baiduspider/2.0;+//www.baidu.com/search/spider.html)”。


除(chu)了(le)網(wang)頁(ye)爬(pa)蟲,手機百度爬(pa)蟲Baiduboxapp、渲染抓取Baiduspider-render等。


3、bingbot


bingbot是微(wei)軟bing搜索的爬蟲(chong),其(qi)UA標識為(wei)“(compatible;bingbot/2.0;+//www.bing.com/bingbot.htm)”。


自(zi)微軟推廣bing搜索品(pin)牌(pai)后,微軟原來(lai)(lai)的爬蟲MSNBot越(yue)來(lai)(lai)越(yue)少見到了(le)。


4、360Spider


360Spider是(shi)360搜索的爬蟲(chong),其UA標識(shi)為“Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/71.0.3578.98 Safari/5 37.36;360Spider”。


目前360搜索份額較(jiao)少,這個爬蟲(chong)不是很常見。


5、Sogou web spider


Sogou web spider是搜狗搜索的網(wang)頁爬蟲,其(qi)UA標識(shi)為“Sogou web spider/4.0(+//www.sogou.com/docs/help/webmasters.htm#07)”。背靠騰訊,搜狗目(mu)前市場份額(e)在(zai)上升,因此其(qi)網(wang)絡爬蟲比較勤快,經常能看到(dao)。


訪問日志搜索Sogou,除了Sogou web spider,還常(chang)見SogouMSE、SogouMobileBrowser。這是搜狗手機瀏覽器的UA標識(shi),不是爬(pa)蟲。


6、YisouSpider


YisouSpider是(shi)(shi)神馬(ma)搜索的爬蟲,UA標識是(shi)(shi)“Mozilla/5.0(Windows NT 6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36”。


神馬成立初期太瘋狂(kuang)抓取(qu)網頁導致一(yi)些小網站(zhan)崩潰(kui)而惹的天(tian)怒人怨。隨著市(shi)場份額提升和數據完善(shan),目(mu)前YisouSpider還算克制,不再瘋狂(kuang)抓取(qu)。


從名字上看(kan),神馬搜(sou)索(suo)的發音類似于(yu)宜(yi)搜(sou),但和(he)專(zhuan)注(zhu)小說搜(sou)索(suo)的“宜(yi)搜(sou)(//easou.com/)”不是(shi)(shi)同(tong)一家(jia)公司。神馬搜(sou)索(suo)是(shi)(shi)UC合(he)并到阿里(li)后推出的移動搜(sou)索(suo)引擎,而宜(yi)搜(sou)在(zai)2G wap時代就已經名聲在(zai)外。


7、YandexBot(屏蔽!沒毛用)


YandexBot是俄羅斯最大搜索引擎和互聯(lian)網(wang)(wang)巨頭Yandex的網(wang)(wang)頁爬蟲,其UA標識是“(compatible;YandexBot/3.0;+//yandex.com/bots)”。


Yandex提(ti)供中(zhong)文(wen)界面和中(zhong)文(wen)搜索(suo),也是少數(shu)目前能(neng)直接(jie)打開的國外(wai)搜索(suo)引(yin)擎。隨著越來(lai)越多中(zhong)國人知道(dao)Yandex,YandexBot在(zai)中(zhong)文(wen)網站日志里越來(lai)越常見。


8、DuckDuckGo


DuckDuckGo是DuckDuckGo的網頁爬蟲,其UA標識是“Mozilla/5.0(Linux;Android 10)AppleWebK it/537.36(KHTML,like Gecko)Version/4.0 Chrome/81.0.4044.138 Mobile Safari/537.36 DuckDuckGo/5”。


DuckDuckGo主打隱(yin)私、安全(quan)、不(bu)監控用戶(hu)記錄,界面(mian)簡潔,也提供中文搜索界面(mian)。


除了上(shang)述搜(sou)索引擎(qing)爬(pa)(pa)蟲,WordPress等提供(gong)feed訂閱的網站(zhan)還常見(jian)newblur和feedly的訪(fang)問(wen)記錄。這兩個不是爬(pa)(pa)蟲,而是訂閱軟件,也能(neng)給網站(zhan)帶來流量。


常見(jian)的(de)網(wang)絡惡意垃圾爬蟲(chong)蜘蛛


上面說(shuo)的搜索引(yin)擎爬蟲能給網站帶來(lai)流(liu)量(liang),也有許多(duo)爬蟲除了增加服務器負擔(dan),對網站沒任(ren)何(he)好處,應該屏(ping)蔽掉。


1、MJ12Bot


MJ12Bot是英國著名SEO公司Majestic的網(wang)(wang)絡爬蟲,其抓取網(wang)(wang)頁(ye)給(gei)(gei)需要(yao)做(zuo)SEO的人用,不會給(gei)(gei)網(wang)(wang)站帶來流(liu)量(liang)。


2、AhrefsBot


AhrefsBot是知名SEO公司(si)Ahrefs的網頁爬蟲。其(qi)同(tong)樣抓取網頁給SEO專業人士用,不會給網站帶來流(liu)量(liang)。


3、SEMrushBot


SEMrushBot也是(shi)SEO、營銷公(gong)司的(de)網絡爬蟲。


4、DotBot


DotBot是(shi)Moz.com的網(wang)頁(ye)爬蟲,抓取數據用來支持Moz tools等(deng)工(gong)具。


5、MauiBot


MauiBot不(bu)同于其他爬蟲,這個(ge)(ge)爬蟲連(lian)網站都沒有,UA只顯(xian)示一(yi)(yi)個(ge)(ge)郵箱:”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的(de)是(shi)(shi)這個(ge)(ge)看(kan)起來(lai)是(shi)(shi)個(ge)(ge)人爬蟲,竟然遵循robots協議(yi),算得上垃圾爬蟲的(de)一(yi)(yi)股清流。


6、MegaIndex.ru


這是一個提供反向鏈接查詢的(de)(de)網(wang)站的(de)(de)蜘蛛,因此(ci)它爬網(wang)站主要是分(fen)析鏈接,并沒有什么作用。遵循robots協議。


7、BLEXBot


這個(ge)是(shi)webmeup下(xia)面的(de)蜘蛛,作用是(shi)收集網站上面的(de)鏈接,對我們來說(shuo)并沒有用處。遵循robots協(xie)議。


SemrushBot,這是semrush下面的(de)一(yi)個蜘(zhi)蛛,是一(yi)家做搜索引(yin)擎優化的(de)公(gong)司,因此它抓取網(wang)頁的(de)目的(de)就很明(ming)顯(xian)了(le)。這種蜘(zhi)蛛對網(wang)站沒(mei)有任(ren)何(he)用處,好在(zai)它還(huan)遵循robots協議,因此可以直接在(zai)robots屏蔽(bi)。


DotBot,這是moz旗下(xia)的,作用是提供seo服務的蜘蛛,但是對我們并沒(mei)有什么用處。好在遵循(xun)robots協議,可以使用robots屏蔽


AhrefsBot,這是ahrefs旗(qi)下的蜘蛛,作(zuo)用(yong)是提供seo服(fu)務(wu),對我們沒有(you)任何用(yong)處,遵(zun)循robots協(xie)議(yi)。


MJ12bot,這是英國的一個搜索引擎(qing)蜘蛛,但是對中文站(zhan)站(zhan)點就沒有用(yong)處(chu)了(le),遵循robots協議(yi)。


MauiBot,這個不太清楚是什么,但是有(you)時候很瘋狂,好在遵循(xun)robots協(xie)議(yi)。


MegaIndex.ru,這(zhe)是一個提供(gong)反向鏈(lian)接查詢的網(wang)(wang)站的蜘蛛,因此它爬網(wang)(wang)站主要是分(fen)析(xi)鏈(lian)接,并沒有什么(me)作用(yong)。遵循robots協議。


BLEXBot,這(zhe)個是webmeup下面(mian)的蜘(zhi)蛛,作用是收(shou)集網站上面(mian)的鏈接(jie),對我們來說并沒有用處。遵循robots協議(yi)


等等……………


主要是(shi)將從(cong)網(wang)站日志中發現(xian)的一(yi)些(xie)(xie)異常抓取(qu)的蜘蛛(zhu)屏蔽掉(diao),我上面列舉的是(shi)一(yi)些(xie)(xie)常見(jian)的對我們(men)網(wang)站沒啥用處的蜘蛛(zhu),將這(zhe)些(xie)(xie)蜘蛛(zhu)屏蔽掉(diao)就好了。


第二種方法屏蔽的效(xiao)果:


谷歌(ge)一個ip來(lai)不了(le),沒毛用!一天來(lai)抓幾千次,浪費寬帶。



相關推薦

工作日 8:30-12:00 14:30-18:00
周六及部分(fen)節假日提供值班服(fu)務

易小優
轉人(ren)工 ×