Google过滤技术描述

[33890] 主题： Google过滤技术描述

	作者： leaflet (Leaf闭关中…)
	标题： Google过滤技术描述
	来自： 61.165..
	发贴时间： 2002年12月21日 17:50:19
	长度： 3419字

	撰文：岑之巍这是一整套相当完善的技术。是一个讨论他的价值仅在于对其双向过滤技术的探讨。因此本文不讨论如何破网，只是对其进行探讨以及描述。我们先从几个试验开始：首先是用户，在不加载任何代理的情况下，搜索敏感关键字。结果可想而知。Google的搜索网页连显示都没有显示就直接跳掉了。用户不死心。加载一道国外普通代理如何？结果是刚显示一个Google的LO GO就读不下去了，也是跳掉了。这是为什么呢？第一个例子中，用户碰上的是对于发出数据的过滤，而第二次用户碰到的则是对返回数据的过滤，也就是双向过滤。这套过滤系统建立在国家的出口网关上。他的重点是对于返回数据包的过滤。接下来的试验可以让我们发现一些更为有趣的问题：加载国内普通代理，也许在返回的搜索网页上有包含某些某些关键字的时候不会跳掉。而加载看起来更安全的国外普通代理却更容易跳掉。这是为什么呢？好吧，解答这个问题之前，我们可以再做一个试验。我们可以将Google的搜索结果页面上传到一个国外的主页空间上，直接去浏览如何？没问题。但明显可以感受到一定的延迟。用国外代理呢？跳掉了。在使用Google搜索时都会感受到的一定的页面读取延迟，当然我向你保证，这不是Google 服务器的错。而是过滤设备在工作的缘故。下面可以推出来的结论就是，这套系统只对国外数据包进行过滤，原因很自然，因为国内服务器，比方主页提供商的内容总是相当容易控制的。但他是如何知道哪个数据包才是Google的呢？这很容易，下面是google申请的ip地址段： 216.239.32.0 - 216.239.63.255 Google Inc. 2400 E. Bayshore Parkway Mountain View CA 94043 U S -------------------------------------------------------------- ------------------ Google Inc. arin-contact@google.com +1-650-318-0200 呵，接下来的事情就很容易了。其实只要对来自这个IP段的数据包，简单的policy based forwarding就可以了。因此他的/s数据处理量并没有我们想像的那样大，换句话说，他们并没有强大到拥有我们并不知晓的设备的程度。事实上，大部分对于网络访问依然在国内，而对国外的访问中，网吧的访问，更有安装在网吧主机上的过滤系统进行了过滤，从而很大程度上减轻了对于国外网段访问的压力。过滤设备的处理能力依然有限，不然我们在目前的搜索过程中就不会感觉到延迟了，当然如果增加设备，对处理能力进行增强，或者推广到省网关，市网关则另当别论。那么我们如何解释把Google的搜索页面放到国外服务器上，却依然会产生读取延迟的问题呢？（也就是被过滤检查过了。）也许是这样一个公式： google（过滤系统抓取网页上的某个特定的只有Google才有的特殊标示，比方“Google搜索”）+来自国外的地址＝触发过滤机制。这一层过滤，与发出的数据包过滤类似，属于简单的过滤，对系统负载并不大。而这个机制是对于所有国外网段的，这样就有效的避免了封杀不彻底的问题。也就避免了在第一次封杀过程中产生使用IP进行访问的漏网之鱼的问题。也就是说即使你在国外另一个网段建立一个Google服务器的话。如果你不是动态IP+SSL的组合，依然可能被封杀，如果是这样的组合，你的服务器也会不堪重负。（极端的想，即使动态IP+SSL，依然可能被域名劫持）事实上，在近一段时间的搜索中，我们可以发现。过滤似乎比以前少了，某些以前网页中因为不幸的包括敏感关键字而跳掉的网页，不再跳掉了。这说明了这套系统已经调试完毕，进入了运行期。可以更替对某些关键字的屏蔽，更可以在搜索效果与过滤效能上做一定程度的平衡了。我们还会发现一个问题，那就是Google的搜索结果，变得越来越差，而其中我们可以发现，只是国内网页的搜索结果越来越差，而且还会越来越少。这是为什么呢？呵呵，注意观察某些会记录访问者IP的网页。我们就会发现其中的秘密。“crawler.googlebot.com”，是的，正是googlebot的机器人。googlebot机器人的某些特征被抓到后，就可以对其进行有限量的抓取或者不让其进行抓取,例如只对几个官方网站进行更新，其它的网页信息都抓不回去。进一步的去想，利用这个机器人甚至还可以发现潜藏在国内网站内部的不良信息。
	========== * * * * * ==========