Unbending Notes

向Alexa借箭(3)主域名是Alexa数据采集依据

sz1961sy 发表于 2006/1/10 12:45:00 阅读全文() | 回复(1) | 引用通告() | 编辑

       [引子]
      《ALEXA改算法了,开始强奸中国网站了》是Donews.com在2005-09-13上一位署名“东城牧人”(业内专业人士)的讲法。
        2006年01月09日 13:06 刘建《博客网排名被清为零,竞争对手所为?》(http://home.donews.com/donews/article/8/89878.html)一文介绍“今天早上发现,博客网的ALEXA日排名被清为零,三个月的总排名降到了47万多。”认为:“博客网的这次排名变化有三个可能性,一:博客网作弊被惩罚,二:ALEXA数据出错.三,竞争对手所为. 排除前两种可能,我来分析下第三种可能性. 做为资深的ALEXA人士,如果要将任何一个ALEXA排名100左右的站的数据清理为零是一件很容易的事情.我知道国内至少有三个团队能做到这个地步....... ”
         2006年01月09日王晨昀《醒醒吧!世界排名alexa的神话!!》(http://home.donews.com/donews/article/8/89889.html )则把公众当天关注到Bokee.com和Hexun.com的Alexa数据改变:用“Alexa作弊并不难,要排名在1万名以内真的是很容易的事情,我不是技术高手都可以做到,何况那些个达人们呢?差不多懂点儿行情的,都知道哪些个网站是作弊的,哪些个网站的排名是有水份的。不过可以说一句,国内网站进入前10万名的,有3成以上是作弊的。作弊范围不限于中小型网站。.....我自己也还有一个网站是作弊的,俗话说“己所不欲,勿施于人”,我自己都做不到,怎么能要求别人做到呢。”作了总结。
        2006年01月9日 星期一 13:43 方兴东《博客网alexa数据再度出现异常:因为切换域名》认为“这个alexa,实在能折腾。搞得一点风吹草低,就惊动不少人,尤其是起哄者。作为一个越来越有影响的统计网站,alexa有些低级错误实在不应该。”(http://column.bokee.com/113042.html )却招来下文攻击:
        《被alexa强奸 方兴东同学的反应实在笨蛋》(http://forum.techweb.com.cn/index.php?showtopic=7777 作者--匿名Guest  1月9日, 20:26 发表)。
        看了网络上这些有趣文章,发现都有些“盲人摸象”之说。下面作一些小释疑。

        [Alexa数据可信度问题]
        很多人认为Alexa数据是全球权威数据(包括咱们www.gov.cn 开网的公关稿也拿Alexa数据说事),其实这是一个对Alexa数据可信度问题是否准确表达问题。
        首先,Alexa数据可信度是“相对值”,即Traffic Details 以“Traffic Rank ”及“Reach per million users”、“Page Views per user”还有“Where do people go on bokee.com?”四组数据作为参数,用机器人“相对值”给对此感兴趣的人作为一种参考。
        其次,Alexa数据可信度与CNNIC当年网站访问排位也不是一回事,这个问题讲下去太长,只讲一个结论。
        最后,Alexa数据采集依据是主域名,而不是多域名,这是一个十分关键的技术定位原则。
 
        [Alexa数据采集依据是主域名]
        它是指:Alexa数据采集只认一个主域名,其他域名指向主域名的Alexa数据会被合并到主域名的Alexa数据中,在不更改主域名的时候,网页切换主域名的做法,Alexa数据不予理采。
       附图A是笔者2005年Nov.18把homeway.com.cn Vs Hexun.com域名排名Alexa数据作对比时,Alexa显示不予理采Hexun.com证据。

 

  附图A

       附图B是笔者2005年1月10日用homeway.com.cn Vs Hexun.com域名排名Alexa数据作对比时,Alexa显示不予理采homeway.com.cn证据。

附图B

        [Bokee和Hexun换主域名]
        回头讲一下这次Bokee和Hexun网Alexa数据排名下降一事。
        1、准确事实:
        分别由6日的Traffic Rank for homeway.com.cn:  145位跌至7日的Traffic Rank for hexun.com:  386,331位 及6日的Traffic Rank for blogchina.com:  85位跌至7日的Traffic Rank for bokee.com:  470,929位事件。
        2、更正信息:
        在中国,公众看到的Alexa数据只显示48小时(2天)前的信息,因此 2006年01月09日 13:06 刘建等人看到的是 2006年01月07日Alexa数据而己。
        3、Bokee和Hexun换主域名:
         2006年01月10日再看Bokee.com和Hexun.com 第一次出现在Alexa数据中“一飞冲天事”曲线(图一),BlogChina.com及Homeway.com.cn 第一次退出Alexa数据中(http://www.alexa.com/data/details/traffic_details?&range=3m&size=medium&compare_sites=homeway.com.cn&y=r&url=bokee.com )大家便可以明白Alexa数据采集依据是主域名的技术依据。

(图一)

        [其他证据:天涯切换域名]
        再举一个旁证:天涯社区由于11月8日主域名tianyaclub.com切换为tianya.cn 主域名,也是出现了类似现象曲线变化(图二)。

(图二)

        [技术可骗但数据难假]
        从2005年7月28日以来,笔者把自己使用的sz1961sy.com/cn/com.cn/net.cn/org.cn及www.w.org.cn 各个Blog域名在Alexa中变化情况每天数据作了采集分析,也有bokee.com、hexun.com、anyp.cn、Donews.com、rmblog.com、tianyaclub.com、tianya.cn 等等的Alexa每天4大类数据,本人相信Alexa技术可骗,但是数据难假。因为Alexa的4大类数据相关性远不是用Web2.0行骗那么简单,如果一个网站不是作了很多手脚,要一口气把Alexa的4大类数据都骗了,不太容易,这些是本人用相关分析的一个小结论。

       [结论]
        本文根据笔者从2005年7月28日以来采集好多个Blog网站近万个Alexa数据证明:Alexa数据采集依据是主域名,这次Bokee和Hexun换主域名出现Alexa数据重排不是作蔽行为,是Alexa机器人数据重构仍然依据主域名这一原则。

         想了解笔者其他文章,请访问http://w.org.cn 网站。本文作者文责自负。       

         沈阳 sz1961sy  2006-1-10  12:33  写于北京家中
       
         [本文作者为《中国域名经济(2002-2003年版)》主编、《中国域名经济(丛书)》总策划兼编委之一、中国版权协会(CSC)个人会员] 

Re:向Alexa借箭(3)主域名是Alexa数据采集依据

nana(游客)发表评论于2006/1/10 13:41:00 个人主页 | 引用 | 返回 | 删除

呵呵.有意思

发表评论:

    昵称:
    密码: (游客无须输入密码)
    主页:
    标题:
  收藏此页到365Key