文章分类 | 推荐文章 | 最新文章 | 热点文章 | 最新软件 | 国产软件 | 国外软件 | 汉化补丁 | 设为首页 | 加入收藏
业界资讯 | 图形图像 | 操作系统 | 网络冲浪 | 工具软件 | 办公软件 | 媒体动画 | 精文荟萃 | 认证考试 | 网站建设 | 技术开发 | 专栏
当前位置:abcdown网络学院专栏Baidu用robots.txt探索Google Baidu隐藏的秘密
精品广告
推荐TOP10
·新站如何被百度快速的收录
·网站让百度(Baidu)天天更新、收录的更多的方法
·新站注意:百度(Baidu)收录新站的研究
·baiduspider常见问题解答
·baidu给友情链接站长们的一些指南
·什么都能搜到 将Google和百度合二为一
·百度地图伴我走遍全天下
·百度主题封杀以下十四种特征行为
·上网了解知识:百度知道四大提问技巧
·用百度实现站内搜索的Javascript代码
阅读TOP10
·百度的 hao123.com被黑
·教你轻松破解验证码 - 解读百度贴吧杀手v2.0源代码
·一个都不能少 IE7 beta2中添加百度搜索引擎
·新站注意:百度(Baidu)收录新站的研究
·百度联盟:如何有效的与百度联盟沟通
·感悟:百度(baidu)给你一个努力的平台
·baidu给友情链接站长们的一些指南
·百度小声?剖析真假消息的十大因素
·百度张海龙:设计思维是以人为本的创新
·让谷歌与百度快速收录您的网站

用robots.txt探索Google Baidu隐藏的秘密

日期:2006年12月6日 作者: 查看:[大字体 中字体 小字体]


搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。但是,如果网站的某些信息不想被别人搜索到,可以创建一个纯文本文件robots.txt,放在网站根目录下。这样,搜索机器人会根据这个文件的内容,来确定哪些是允许搜寻的,哪些是不想被看到的。

  有趣的是,这种特性往往用来作为参考资料,猜测网站又有什么新动向上马,而不想让别人知道。例如通过分析Google的robots.txt变化来预测Google将要推出何种服务。

  有兴趣的读者可以看一下Google的robots.txt文件,注意到前几行就有“Disallow: /search”,而结尾新加上了“Disallow: /base/s2”。

  现在来做个测试,按照规则它所隐藏的地址是http://www.Google.com/base/s2,打开之后发现Google给出了一个错误提示:“服务器遇到一个暂时性问题不能响应您的请求,请30秒后再试。”

图1

  但是把s2最后的数字换成1、3或者别的什么数字的时候,错误提示又是另一个样子:“我们不知道您为什么要访问一个不存在的页面。”

图2

  很显然“/base/s2”是一个特殊的页面,鉴于Google曾表示过今年的主要焦点是搜索引擎,我们推测一下,所谓的“s2”是否表示“search2”,也就是传说中的第二代搜索引擎? 出于好奇,尝试了一下百度的robots.txt,比密密麻麻的Google简洁了许多,只有短短几行:

  User-agent: Baiduspider
  Disallow: /baidu

  User-agent: *
  Disallow: /shifen/dqzd.html

  第一段就不用说了,第二段也遇到了同样打不开的错误,不过,按以前的资料来看,这是百度曾经的竞价排名的区域核心代理一览表以及地区总代理一览表,出于某些可以理解的原因做了模糊处理。

图3



上一篇:WinZip 11新玩法 6步"变身"自动备份软件

下一篇:用工具搞定PP点点通中的广告


相关软件: 相关文章:
·女大学生宿舍里的情色秘密
·《突袭2:秘密行动2》详尽攻略
·XP的秘密武器 可完整清除垃圾文件
·《秘密潜入IGI》秘籍
·《携带电兽2》秘密电话号码(GBA) - 其他电视游戏攻略秘籍 - 其他电视游戏
·信用卡号的秘密
·[QQ幻想]矿石价格100%成功秘密

特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
[打印本页] [关闭窗口] 转载请注明来源:http://www.abcdown.net
首页 | 本站声明 | 下载帮助 | 发布软件 |
中文版权所有:ABC学院 浙ICP备05000717号