将本站设为首页
收藏出品官网,记住:www.chposuiji.com
账号:
密码:

出品书屋:看啥都有、更新最快

出品书屋:www.chposuiji.com

如果你觉得好,恳请收藏

您当前的位置:出品书屋 -> 此生应无憾 -> 第279章 未雨绸缪

第279章 未雨绸缪

温馨提示:如果本章属于内容错误等情况,请点击下面的按钮发送报告,我们会在一分钟内纠正,谢谢

盛在国内面对的搜索引擎除了自家的寻知,就剩下百度,未来可能会有360搜索引擎,如果自己没来得及彻底剿灭周教主的话。

不论是百度搜索引擎还是360搜素引擎,在陆道升看来都不是什么好鸟,提前防范一下很有必要。

要提供搜索引擎服务,需要解决数据的搜集和数据的组织两个大问题。

其中数据的搜集即指的是使用爬虫来对互联网网站内容进行爬取,搜集到自家的后台中。

数据的组织即如何将爬取下的海量数据进行处理,以使得用户能通过搜索快速获得高相关性的结果。

陆道升要提前做好针对准备的就是百度的数据搜集过程,即通过反爬虫机制来限制百度对嘉盛旗下网站的内容爬取。

这并不是对百度的进攻性策略,而是一种自保的防御手段。

前世曾爆出国内某搜索引擎大量采用快照的形式来承接用户的点击跳转,大量屏蔽了用户对原网站的访问的事件。

快照本来是搜索引擎为了应对一些网络连接或是网站失效等问题,将网站内容缓存在搜索引擎服务器上提供给用户,以保障用户搜索体验的方式。

但是刻意的滥用,就会变成对原网站的剥削吸血,用了你的内容还不给你流量,把流量带来的各类收益(例如业务推广、广告收入等)全部拦截。

也许有人会问,那既然这样,能不能就不让搜索引擎爬取网站内容,这样就没有快照,用户也只能来到网站进行访问。

这么干不是不行,可以采取robots协议实现。

简单来说,在搜索行业里存在一种robots协议,按照协议规范在网站的目录下部署xt文件,告知搜索引擎的爬虫哪些内容不应被爬取。

即便有robots协议,爬虫还是可以爬取网站内容,但是搜索引擎服务却不能将爬取到的内容进行展现,否则就可以直接去法院把搜索引擎公司告得灰头土脸。

但由于在PC互联网时代的中后期,搜索引擎就是最大的互联网流量入口,拥有互联网上最强大的话语权。

中小网站如果拒绝搜索引擎的爬取,其实和自绝于互联网没啥两样。

如果网站的拥有者还希望网站能被人们访问到的话,就只能乖乖接受搜索引擎的爬取,并祈祷搜索引擎公司足够讲道理,不过分使用快照等方式进行截流。

其实robots协议里存在白名单的机制,看上去嘉盛可以只允许自家的搜索引的爬虫


  本章未完,请点击下一页继续阅读!

看了《此生应无憾》的书友还喜欢看

长空战旗
作者:康斯坦丁伯爵
简介: 3000小时空战游戏时长的王礼被扔到了一个气态巨星表面的世界,这是个所有人都生活在飞...
更新时间:2026-03-03 23:00:00
最新章节:第87章 可怕的约瑟芬(求月票)
我能演化仙神道图
作者:鱼龙飞度
简介: 有诸圣高高悬,有神魔掌着生死权。天地也,莫要把清浊分辨,咱也趁乱成个仙!
<...
更新时间:2026-03-03 23:33:00
最新章节:第93章 铺子煞星,目标通宝月中拍卖会
他乱撩又貌美,阴湿病娇被钓成狗
作者:打呼噜的猫
简介: 【双男主+快穿+微强制爱+病娇+强取豪夺+囚禁定位】\n郁尧,胆小又爱撩,撩完又爱跑...
更新时间:2026-03-03 23:34:53
最新章节:第335章 苗疆蛊26
连麦犯罪现场,全警局蹲我直播间
作者:灯下锦鲤
简介: 姜炽,冥界最嚣张的小殿下,被三生石碰瓷欠下百亿巨债,惨遭冥王老爹踹去人间。
...
更新时间:2026-03-03 23:38:11
最新章节:第八十八章 张家再次伟大~
家父刘备,望父成龙
作者:周府
简介: 汉室衰弱,群雄逐鹿。徐州陶谦、兖州曹操、扬州袁术,窥探中原。刘公初居小沛,深陷纷争,...
更新时间:2026-03-03 22:54:19
最新章节:第24章我胜则曹忧,我败则曹喜
[全职]再不败家就要被迫继承家业的我决定买下嘉世
作者:雾隐千川
简介: 阅文集团《全职高手》同人,原著作者:蝴蝶蓝
更新时间:2026-03-03 23:28:54
最新章节:144 Chapter.144