谷歌为何开源robots.txt？这家搜索巨头有怎样的打算？

外媒 VentureBeat 报道称，谷歌希望将发展数十年的 robots.txt 解析器开源，以推动 REP 成为搜索引擎爬虫的行业标准。

机器人排除协议（REP）是荷兰软件工程师 Martijn Koster 于 1994 年提出的一个标准，几乎已经成为了网站不希望被搜索引擎收录的注释的事实标准。

（截图 via VentureBeat）

比如谷歌爬虫（Googlebot）就会在索引某个网站时扫描 robots.txt 文件，以确定其应该忽略掉哪些部分。如果根目录中未包含该文件，那搜索引擎就会默认索引（index）全站内容。

值得一提的是，，该文件不仅可以用于提供直接的爬虫索引，还可以被用来填充一些关键字，以实现“搜索引擎优化”（SEO）。此外，并非所有抓取工具都会严格遵从 robots.txt 文件。

比如几年前，互联网档案光就选择了为其“时光机”（Wayback Machine）归档工具提供支持，另外一些恶意抓取工具也会有意忽略 REP 。

不过需要指出的是，即便 REP 已经成为了默认的实施标准，但它实际上从未成为真正的互联网标准，正如互联网工程任务组（IETF - 一家非营利性开放标注组织）所定义的那样。

为了推动这项转变，谷歌正在积极参与行动。这家搜索巨头表示，当前的 REP 可以被“解释”，但并不总是涵盖边缘化的案例。

作为补充，谷歌提出了更全面的“未定义场景”。比如在执行一次“扫描已知内容”的任务时，爬虫该如何处理“服务器出现不可访问故障”的 robots.txt 文件、或者有拼写错误的规则？

谷歌在一篇博客文章中写到：“对于网站所有者来说，这是一项极具挑战性的问题。因为模糊的事实标准，让他们很难恰当地编写规则”。

我们希望帮助网站所有者和开发者在互联网上创造出令人惊叹的体验，而无需担心如何对抓取工具加以限制。

于是谷歌与 REP 原作者 Martijn Koster、网站管理员、以及其它搜索引擎合作，向 IETF 提交了一份关于《如何在现代网络上适用 REP》的提案。

该公司尚未公布该草案的全貌，但却是提供了一些指引。比如任何基于 URI 的传输协议，都可以适用 robots.txt 。且其不再局限于。

据悉，开发者必须至少解析 robots.txt 的前 500 KB 内容。定义文件的大小，可确保每个连接的打开时间不会太长，从而减轻不必要的服务器压力。

另外，新的最大缓存时间被设置为 24 小时（或可用的缓存指令值），使得网站所有者能够随时灵活地更新他们的 robots.txt，且爬虫不会因此而让网站超载。

例如，在文件由于服务器故障而变得不可用时，则会在相当长的时间段内不再检索该网站。

这里需要点明的是，抓取工具可以用不同的方式去解析 robots.txt 文件中的说明，这可能会导致网站所有者的混淆。

为此，谷歌特地推出了 C++ 库，其支持 Googlebot 在 GitHub 上给出的解析和匹配系统，以供任何人访问。

根据 GitHub 上的发布说明，Google 希望开发者构建自己的解析器，以更好地反映 Google 的 robots.txt 文件的解析和匹配。

开源科技新闻搜索行业标准协议解析器

既然Android免费，那Google是靠什么赚钱的？

既然Android免费，那Google是靠什么赚钱的？，谷歌,百度谷歌,广告业，谷歌公司位于美国的跨国科技企业，业务包括物联网搜索、云计算、广告技术，同时开发并提供大量基于互联网的产品与服务，主要利润来自于Adwords等广告服务。1999年下半年谷歌网站正式启用，当时国内还没有百度等其他搜索网站！2010年3月宣布关闭在中国市场的搜索服...

2023-04-23 14:00:09
为什么现在百度一下很难搜到想要的结果了

为什么现在百度一下很难搜到想要的结果了？，谷歌,百度谷歌,百度,广告，百度在goole没有离开中国时，还有点上进心，Google是2010年3月23日关闭Google.cn，到2012年12月12日,谷歌关闭在中国大陆市场购物搜索服务,搜索服务由中国内地转至香港。随着Google离开中国，LYH并没有真正的把握住机会，只能说格局的问题了。...

2023-04-23 13:59:13
北爱尔兰边境问题的根源是什么？

北爱尔兰边境问题的根源是什么？，脱欧,国际社会，爱尔兰与北爱尔兰边境问题，是英国梅首相心心念的问题，更是脱欧的最大障碍，现在留给英国梅首相的时间是真的不多了！1.英国当初在欧盟的时候就拒绝加入申根公约从而保留自己的边境检查，脱欧之后与爱尔兰的"共同旅行区”协议（CTA）就无法继续执行下去，也就是要设立实体边界，人、物必须必须接受实体通关手...

2023-04-23 13:40:41
找工作网站有哪些（招聘人才去哪个网站）

找工作网站有哪些（招聘人才去哪个网站），求职，年初正值招聘找工作旺季，明明各个公司缺人才，为什么还是有很多人都在找工作？其实无外乎信息差的原因，现在的招聘软件五花八门，很多人（求职者或者招聘者皆有）已经开始用垂直度高的招聘软件进行找工作或者招聘。但也有部分人依然在用传统招聘平台，导致求职者无企业可选，招聘者无人才可用的尴尬局面。今天班妹儿...

2023-04-23 12:37:41
dnf纹章怎么镶嵌？

dnf纹章怎么镶嵌？，徽章,地下城与勇士，首先，你要了解徽章镶嵌的基本常识，那就是对应颜色的控只能镶嵌对应颜色的徽章，比如胸甲绿色，就只能镶嵌绿色徽章。双重徽章的话可以镶嵌两种颜色，以徽章的颜色为准。然后你需要在拍卖行搜索镶嵌栏开启装置，购买下来。或者你在西海岸找到达芙妮，在她的商店也可以购买镶嵌栏开启装置。然后你要镶嵌到哪个装备上就给哪...

2023-04-23 12:11:59
清华大学研究报告：近四成省份政府门户网站

清华大学研究报告：近四成省份政府门户网站无市民注册登录网页，大学,清华大学,政府治理,省份，北京。图/unsplash 新京报讯（记者柯锐）在省级数字政府治理效果得分中，北京、上海、浙江位列前三名。值得注意的是，最高得分和排名靠后的省份得分相比较为悬殊，差距明显较大，这体现出各省份在治理效果方面存在一定程度的不均衡性。近日，清华大学数...

2023-04-23 11:29:52
那个网站或者APP可以看比较全面的纪录片？

那个网站或者APP可以看比较全面的纪录片？，腾讯视频,纪录片，纪录片是个获取新知的好方式，作为一个纪录片爱好者，从哪里可以了解值得观看的纪录片，又有哪些渠道能第一时间看到好的纪录片？赶快跟随少数派来一起了解一下值得收藏的纪录片网站。腾讯视频纪录片频道说到纪录片，一般大家都会首先想到 BBC、国家地理和 NHK 这些著名厂牌。如果你想在国内...

2023-04-23 09:38:56
什么是现实交付？

什么是现实交付？，，现实交付，简易交付，占有改定，指示交付应从发生情形方面来区分： 1、简易交付，发生的前提是买受人基于某种原因，已经事先占有了要出卖的标的物，买卖合同一生效，标的物就视为已经交付。举例：张三租用李四的手机，张三即依据租赁合同取得了对手机的占有，而后张三又与李四达成协议，购买这部手机。这处情况下，动产物权的交付已经在事...

2023-04-23 09:19:27
《剑来》讲的是什么故事？与《雪中悍刀行》

《剑来》讲的是什么故事？与《雪中悍刀行》比如何？，比如,故事,严武,遮光罩,徕卡镜头，《剑来》我感觉老剑条是守护小镇的.原剑灵主人可能是为守卫小镇而力竭而死,护住了这千万年的小镇小天地,也可能死前跟三教天下达成了一些协议.三教势大是因为剑气长城！在此之前是剑道一家独大，后来因为剑气长城的出现，俗世的剑道气运大部分被剑气长城里的剑仙蚕食，练...

2023-04-23 08:41:10
网站关键词怎样布局才是合理的？

网站关键词怎样布局才是合理的？，市场营销网站关键词关键词排名优化关键词分类，网站关键词怎样布局才是合理的？如何布词呢？布词就是把词选好后，进行合理的分布，通常网站标题以核心关键词、主词为主;分类目标、栏目以目标关键词为主;文章页面以长尾词为主，注意要进行合理的分配。1、网站标题(title)+网站描述标题是网站优化的重中之重，布局一定要严...

2023-04-23 07:11:40
《指环王》中矿洞里的矮人死了全是尸体，在

《指环王》中矿洞里的矮人死了全是尸体，在《霍比特人》里面却是石化形态，为什么？，霍比特人,魔戒，我搜索了一遍《霍比特人》电影，没有发现孤山中有被石化的矮人。不知道是否题主指的是被阳光石化了的食人魔（Troll）图二：想把冒险队做成BBQ的3个食人魔，被甘道夫的阳光大招反杀，成为3尊石像；这一幕在《指环王》中又出现了一次*（注：从电影而言，...

2023-04-23 06:40:33
视频

视频，，下载视频啊,其实很多网站的视频都是不能下载的,土豆网可以，不过要下载一个iTudou,这也没什么,很安全,如果想简单了事就这样最好了,不过土豆的资源也是有限的,还有就是用迅雷下载,打开迅雷下载器,然后最小化,把视频的画面拖拽到迅雷最小化后的窗口,这是迅雷会自动弹出窗口,选择目标地址后可以下载,不过很多网站的视频资源都是保护的,...

2023-04-23 03:48:14
中欧贸易协定未来的变数依旧很大，你怎么看

中欧贸易协定未来的变数依旧很大，你怎么看？，贸易协定,欧洲议会,欧盟，《中欧贸易协定》经过历时七年的30多轮谈判，中国和欧盟27国终于全部取得共识，由欧盟领导人、法国德国和中国领导人共同宣布宣布结束谈判。接下来还有两项程序。①，欧盟和中国分别对《投资协定协议》文本签字。②，分别送交欧洲议会和中国人大批准。这两项程序圆满完成后，《中欧投资议...

2023-04-23 02:55:20
明星阳光指数排行，王源垫底，关晓彤第二，第一

明星阳光指数排行，王源垫底，关晓彤第二，第一高达91.9分，关晓彤,王源,朱一龙，明星阳光指数排行，王源垫底，关晓彤第二，第一高达91.9分。（文章由有才情的女子原创，严禁，侵权必究，全网搜索，无处藏身。）5、王源其实明星们这个阳光指数排行，就是一个正能量的排行榜，对于明星们而言也是另一种认可，但是很多当红的明星都没有上榜，而上榜的其实都...

2023-04-23 02:28:51

谷歌为何开源robots.txt？这家搜索巨头有怎样的打算？

相关推荐