“HillTop”论 - 探索Google排名新算法(三) |
发布时间:2006-12-25 11:37:00 浏览次数:2077 |
以该关键词进行一次普通查询找专家文档"文集"。"专家文档"的定义有严格标准,因该"文集"应是数量上易于管理的一组网页。 从返回的专家列表中把成员站点(见下注解*)和镜象站点去掉。 根据所获得的上述专家文档对其投票的数量和质量,网页被分配以一个“局部分数”(LocalScore)。然后按网页的“局部分数”进行排名。 *注解:成员站点指来自同一个域,或域相同而后缀不同的站点,如ibm.com,ibm.co.uk,ibm.co.jp等等,或指来自相邻的IP地址的站点 (前三位IP地址相同,形如64.129.220.xxx) 此外,若两个站点均为相同IP地址下的宿主,则认为其中一个是另外一个站点的成员站点。(即:若ww.abc.com www.ibm.com 均为相同IP地址下的宿主,则认 www.abc.com 是www.ibm.co.uk的成员站点) Hilltop算法的一个极其重要的特征在于:若没有找到搜索引擎 认为数量足够的“专家文件”(要求至少需有两票),则该算法失效,即返回结果为零。换言之,对于高度明确化的查询条件(查询词语),Hilltop算法的结果很可能为“0”。这是该算法的一个独特特性。如此一来,造成了SEO一族中的大部分人都深信Google的确在用“商业词”过滤名单来过滤掉商业网站。 事实上,在Hilltop算法无法奏效时,将显示“旧”Google的搜索结果。这些查询条件的集合就是SEO一族所收集并称之为的“商业词名单”。这一效果无意中却提供了一个强有力的证据,表明Google确是采用了Hilltop算法。2003年11月15号,Google基于新算法的更新之后, 某分析家就指出:在进行查询时,若对某一查询条件加上一些“不包含”的无意义字符,如“car rental – ghjkl”,则Google将会显示以往(算法变化前)的搜索结果,而绕过所谓的“商业词”过滤名单。 例如,若查找“real estate –hdfkdhgk”,则Google将试图返回所有关于“real estate”,同时内容中又不包含“hdfkdhgk”的页面。又由于包含“hdfkdhgk” 这种字眼的网页几乎没有,所以按道理来讲,Google返回的查询结果应该和“real estate”的查询结果是相同的。然而结果却出人意料:Google所显示的查询结果和采用新算法之前的搜索结果的排名是相同的。事实上,Scroogle.org这个网站就是捕捉Google的搜索结果在排名上的不同,并以此得出一个所谓的“商业词”过滤名单。 在所谓的“商业词”背后到底是什么? 我们相信,“商业词”过滤式效果只是Hilltop算法的一个衍生症状。每当用户进行类似“real estate –hdfkdhgk”的查询时,Google都会对整个查询词语进行Hilltop运算,当无法找到足够的包含这种查询词语的“专家文件”时,该算法将返回一个零值(即零效果)。 这就意味着我们通过这种多少有些滑稽的特殊排除词语绕过了Hilltop算法, 这时候Google的其它算法就该出头发挥作用了,而它们所提供的查询结果明显地和算法更新前的查询结果是一样的! 后来Scroogle.org的声名鹊起让Goolge发现了这个bug。后来Google为了防止此类漏洞,索性把查询分成两步走,先把排除条件词语放一边,将查询条件送至Hilltop进行运算,如此一来,由于Hilltop不再同时对排除条件进行解析,所以可保证其正常发挥效用,并提供相应的搜索结果,然后再将此结果传递给Google算法,Google根据最初查询中的排除条件从Hilltop提供的结果中将符合排除条件的网页剔除,然后再将结果显示给用户。这也就是为什么我们现在用上面的法子再也无法看到“旧Google”的搜索结果的原因了。 Google新算法意义何在 Hilltop算法与Google的页面等级算法及页面相关性算法的结合看起来是超佳组合,几乎无懈可击。其联姻对于链接流行度/页面等级和来自专家文件(LocalScore)的链接对你网站的排名的影响程度有着深远的意义。 我列了一个简单的公式来说明新算法的效果和影响 (谨供参考): “旧”Google排名公式 = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)} “新”Google排名公式 = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)} *{(1-f)+c (LS)} 其中: RS = 相关性得分:基于网页标题(Title)。元标识(Meta tags), 正文标题(Headlines),正文(Body text)。URL,图片Alt文字,锚文字(Anchor Text)等元素中出现的关键词得出的分数。 PR = 页面等级:(基于链接至你网站的网页数量及其PR值得出的分数。原始公式为PR (A) = (1-d) + d (PR (t1)/C (t1) + …+ PR (tn)/C (tn)),其中D为阻尼因子,一般设为0.85; 公式可描述为:A网页的其PR值等于链向该页面的所有链接页面的PR值分别除以各自的外部链接数量的总和。 LS = 行业得分(LocalScore):根据专家文件计算得出的分数。 a,b,c = 调节控制比重:Google用于精工调整查询结果 d,e,f = 阻尼控制:Google用于精工调整查询结果。目前“f”值可能为“0”。
上一篇: “HillTop”论 - 探索Google排名新算法(二)下一篇: “HillTop”论 - 探索Google排名新算法(四)
返回栏目: 谷歌(Google)优化推广
|
【声明】:
以上文章或资料除注明为 中国站长之家 自创或编辑整理外,均为各方收集或网友推荐所得。以上内容以共享、参考、研究为目的,不存在任何商业目的。
未注明作者或出处的文章,并非不尊重作者及出处网站,而是有些资料来源不规范。如果您发现有涉及版权等问题请及时联系我们,本站确认后将立即更正或予以删除。 |
|