Unbending Notes

分析二:搜狐《中文博客调查报告》另十个漏洞

sz1961sy 发表于 2005/10/16 13:33:00 阅读全文() | 回复(0) | 引用通告() | 编辑

        [引言]
        拙文搜狐《中文博客调查报告》的“十大漏洞”提法有朋友提出不同看法:
        *  未注册网友 (IP:221.220.16.*)2005-10-15 11:34:15 写下评论:
哥们,质疑搜狐的调查报告可以,但好歹也得把报告读懂了再说。大部分“漏洞”都是鸡蛋里挑骨头,最可笑的是第四条:“天涯博客总体满意度(S)********(10分)。和讯博客排名第十(仅1分)”--人家报告里面那是排名,不是积分,所以顺序正好相反,没见到和讯自己吹嘘自己评选夺冠吗??把这种文章放专栏首页,也是博客网的耻辱。
         *  满龟网友2005-10-14 19:30:21 写下评论:毛病越多,有个时候也说明东西越多。不知道怎么的,吃了“肉”,却不觉得油腻,原因似乎是以前太少机会吃肉了!
        * caniggia网友2005-10-14 19:03:32 写下评论:哥们,“天涯博客总体满意度(S)********(10分),和讯博客排名第十(仅1分)”看清楚了再说话,和讯才是第一名。
       * 未注册网友网友2005-10-14 18:56:59 Re [漏洞四:使用评价最多的前十位天涯排第一]写下评论:---老兄,你仔细看看报告再说话好不好,天涯是倒数第一,和讯是第一,你刚好搞反了。
         * 付亮 网友2005-10-14 18:14:31 写下评论:搜狐博客调查报告确实不完美,但别人辛辛苦苦做了,还会有很多收获,你就偷着乐吧。要挑毛病,我比你还多!看我的分析“搜狐博客调查结果简单分析”http://blog.hexun.com/fjliang/1167172/viewarticle.html

        换句话说,这一份以权威面孔向公众公布的《中文博客调查报告》,受到笔者挑了一些对统计学专业很普通的“常识性”(几乎专业人士一看就发笑的)错误,竟然引来这么多不同质疑声。本文将再找此报告另十个漏洞问题,作进一步举证(论证)。并且愿意与关心这份报告的朋友继续讨论这一份报告的问题。

         [漏洞一:“天涯博客”为何不是第一]
         附上二个图作说明:
    
         图一:从调查的链接http://it.sohu.com/s2005/bob.shtml 中找出
         33、请描述您对您目前所在Blog服务商的满意程度:(从1分-5分,满意度由低到高),本处“满意程度”说明--->满意度由低到高。
 

          图二:从《我国博客群体的现状和特点——基于首届搜狐IT频道中文Blog大型摸底调查》“第一部分 四、关于blog服务商”附表犯了二个严重“常识性”错误,一是无一项“表数据说明” ,二是如果“天涯博客”不是第一,则与调查的“满意程度”说明矛盾。由此造成了多位网友批评笔者结论“老兄,你仔细看看报告再说话好不好”。
        换句话说,设计调查的人与写《我国博客群体的现状和特点——基于首届搜狐IT频道中文Blog大型摸底调查》的人根本是“两张片”在工作。笔者填过“调查”,因此遵循“满意程度”说明判读“天涯博客”是第一,和讯是第十符合调查设计数据说明逻辑,尽管明明知道它与实际有差距,但是“就数据说事”是符合专业态度,而不是给“报告”发布方故意挑剌。

         [漏洞二:调查样本、样本分布可信度]
         笔者把《中国博客用户研究报告》、《搜狐IT第一届中文Blog大型摸底调查报告》、《我国博客群体的现状和特点——基于首届搜狐IT频道中文Blog大型摸底调查》全部打印出来,今天己第三天认真学习、研究。发现本次报告的诸多结论自相矛盾或者让人质疑的原因是统计学中称之为“调查样本、样本分布可信度”问题。
         以调查的链接http://it.sohu.com/s2005/bob.shtml 中找出“提供支持的Blog服务商 ”名单分别是:
        ·BlogCN(中国博客网) ·博客中国 ·Donews ·和讯博客·BlogBus
·部落格男孩·中国播客网·博客先锋·爱家房产家居·中华部落阁
·oblog程序官方站·天涯博客·博客之家·中国教育人博客·Blogkumedia·好博客·背包客·炎黄博客中文网·播客天下·TeeTa中文移动博客·歪酷博客 共21家,见不到之前调查报告,例如 时代财富科技公司于2005年8月隆重推出《2005中文博客排名报告》排列的名单,整份报告更找不到“网易部落”、BlogBus 、Tom的Blog贡献记录,就更加让人觉得调查样本、样本分布可信度不高。

         [漏洞三:破绽百出的十项指标排位]
         回头“第一个”问题,“稳定可靠、访问速度快、空间大、功能强大、界面简洁、没有广告、个性化做得很好、较多的附加功能、和我有联系的人较多使用、可以找到较多的新朋友、人气最旺、牛人最多、用久了习惯了不打算换其它的、其它”共14项评价中,“调查样本”、“样本分布”同样存在“可信度”问题,即主观性太高,填写十项指标的人作假(攻击竞争对手)也是举手之劳。
        此外,“前十”之间“调查样本”“满意程度”得分是否存在有“显著性差异”,报告未给出说明,这是欠缺严谨性的。

         [漏洞四:不同样本不能有同一推论]
        《中国博客用户研究报告》全文有好几项推论注明“标本描述:N=7999”即占有效问卷9639份的82.99%,把“我已经开始写Blog了(66.01%)”+“没有写过Blog,但是我浏览过别人的Blog(16.97%)”=82.98%(与82.99%差异不显著)。同时也有“标本描述:N=6363(66.01%)”推论,给人一种很混淆的感觉。详细项目见下面再补充说明。

         [漏洞五:其他的Blog服务商样本分布]
         《搜狐IT第一届中文Blog大型摸底调查报告》“31、主要使用的Blog服务商”说明--- “其他的Blog服务商”项目中填写的有blogsome.com,mblogger.cn等博客网站,也有一些英文博客服务网站,有的被调查者填写的则是自己开发的网站或工具。
         由于此项占有6.62% 比例,但是它却比之后各家比例都高,分别是:自己独立的空间6.54%,和讯博客6.22%,博客动力5.15%,中国教育人博客1.84%,天涯博客1.67%。
        换句话说,Blog服务商(BSP)在此项中有8项是指“独立提供共同空间”的“一个BSP”,而“其他的Blog服务商”和“自己独立的空间”这二项则是指由“多个Blog混合(成一个统计单位)”或者“一个BSP混合(成一个统计单位)”进行对比。
        这是在正规统计学设计及报告中难得一见的一种“可比性”结论。按照正常统计学数据处理,只有按样本分布及同一归类(计算单位)才能进行比较,否则结论是不可信的。也许《搜狐IT第一届中文Blog大型摸底调查报告》撰写人可以不顾这个惯例,另外创新,不过不作说明却又会让人“丈二和尚---摸不着头脑”。
         此外,它与“漏洞一”中出现10个排位又不尽相同,让人怀疑数据大小之间差异太大造成不可比。
 
         [漏洞六:博客公社与博客动力分为二]
         在实施列举“Blog服务商”名单时,“博客动力”己被Bokee.com收购了半年多,“博客公社”也早己采用“博客动力”同样后台,换句话说,“博客动力”与“博客公社”是同一个BSP提供相同后台、发布环境只是采用不同域名登陆而己,“使用最多的前十位”中博客公社19.80%、博客动力5.15%及由此出现“漏洞一”排位的不合理(尽管“博客动力”与“博客公社”分别积分居7和8分相近)。
         [漏洞七:博客用户行为数据一半是学生]
         《搜狐IT第一届中文Blog大型摸底调查报告》指出本次调查的6363个Blogger群体的职业状况“学生49.66%”,同时统计来自“无收入(22.69%)”及“收入500元以下(20.43%)”二项的群体只有43.12%,换句话说,把“学生49.66%”减去43.12%尚有6.54%的学生Blogger群体收入达到“501-1000元”或者更高水平。
        再看Blogger群体的受教育程度:初中以下 0.39%、初中 2.64%、中专高中技校14.36%、大专16.22%、大学本科56.48%、硕士8.72%、博士及以上1.19%。显然,大专加上大学本科生是Blogger群体主力,问题是这中间6363个Blogger群体的有6.54%(416个)的学生Blogger群体(月)收入达到“501-1000元”或者更高水平是否有可能。这是数据间误差出现的一个值得怀疑“可信度”情况。如果再加上“已经开始写Blog”类型的年龄层次”中“20岁以下(含20岁)25.98%”、“21—25岁(含25岁)51.20%”两项己高达77.18%,那么可以肯定地说,上述数据间矛盾十分典型。难以自圆其说。
        此外,《中国博客用户研究报告》博客用户行为分析推论数据有一半样本取自“学生”,笔者认为“可信度”同样值得质疑。
 
         [漏洞八:仅用写Blog的人对Blogger信任度]
         《中国博客用户研究报告》“6博客用户行为深入挖掘-对博客的信任度分析”
        6.1博客的总体信任度情况
        在对Blogger的信任度上,本次调查发现:比较信任Blogger的居多,其比例占调研中博客用户的64.8%;但是“完全相任”Blogger的博客用户较少,仅占调研中博客用户的6.9%。
        对Blogger半信半疑的仅占调研中博客用户的11.9%,“不太相信”的仅占调研中博客用户的4.5%,“完全不信”仅占调研总体的1.5%。
        此项说明为“标本描述:N=6363(66.01%,即写Blog的群体数)”,即只用“我已经开始写Blog了(66.01%)”群体去描述他们对Blogger信任度,而不是至少包括“没有写过Blog,但是我浏览过别人的Blog(16.97%)”的群体去描述他们对Blogger信任度,己出现典型的人为(主观)处理“调查样本”及“样本分布”,造成结论“可信度”因欠缺了“没有写过Blog,但是我浏览过别人的Blog(16.97%)”数据而“可信度”极低(几乎不可信)。
        
         [漏洞九:写Blog地点与时间及职业矛盾]
         《搜狐IT第一届中文Blog大型摸底调查报告》二、Blogger群体分析 说明是专门针对“已经开始写Blog的用户”的,因此,回答这些问题的被调查者数量为6363个。
        8、通常在什么地点写Blog?住所61.05%、办公室23.49%、网吧网校网络咖啡厅11.63%、公共场所2.68%、其它1.15%。
        9、通常在什么时间段写Blog?0:00-早上8:0占9.76%、早上8:00-中午12:00占8.82%、中午12:00-下午2:00占6.86%、下午2:00-下午6:00占7.56%、下午6:00-晚上9:00占10.65%、晚上9:00-晚上12:00占30.58%、不确定占25.77%。
        6.Blogger群体的职业状况:国家机关党群组织工作人员2.59%、企事业单位管理人员5.59%、专业技术人员(工程师律师医生各类专家等)17.76%、教师4.01%、办事员等协助人员1.65%、商业服务业人员4.42%、农林牧渔工作人员0.08%、生产运输设备操作人员及有关人员(工人等)0.80%、军人0.27%、学生49.66%、自由职业者5.91%、无业(包括离/退休、下岗等) 1.18%、其它6.08%。
        把“自由职业者+无业+其它”合计为:13.17%,余下86.83%为有“固定工作者”。
        通常在什么时间段写Blog“下午6:00-晚上9:00占10.65%、晚上9:00-晚上12:00占30.58%、不确定占25.77%。”合计为67%。
        通常在什么地点写Blog“住所61.05%”。
        把这3个指标互为匹配,便发现这次网上填表人员的真实性差距很大,可能有相当大一部分人随意填写了一些数据所致。

        [漏洞十:未写Blog也能有使用行为结论]
        《中国博客用户研究报告》“3.3 Blog使用的行为分布情况”
        本次调查发现,比较符合用户的行为情况如下:
        “知道有人关注自己Blog时产生坚持的动力”、“我的Blog原创的贴子多过转载的帖子”、“我希望我的博客能够引起共鸣”、“希望我的blog对别人有意义”都比较符合博客用户的情况,分别有64%,63%,55%,55%的博客认为这些行为符合自己的实际情况。
        本项注明“标本描述:N=7999”即“我已经开始写Blog了”群体加上“没有写过Blog,但是我浏览过别人的Blog”群体数。
        实际上,不应该有“没有写过Blog,但是我浏览过别人的Blog”群体出现本项调查行为数据。即统计中存在“无行为群体(16.97%)”出现了“Blog使用的行为分布情况”,不知数据从何而来,令人如坠云雾中。

        [小结]
        前后二文,仅仅是用很普通的统计学常识便找出了不少《中国博客用户研究报告》、《搜狐IT第一届中文Blog大型摸底调查报告》、《我国博客群体的现状和特点——基于首届搜狐IT频道中文Blog大型摸底调查》的问题,尽管它用去了笔者3天约20个小时的研读、写成分析文章时间,不过相信对关注此次报告结论的人来说,多少有一些“另类”参考价值。

        欢迎对本文有不同观点朋友交流。

         本文可以不删节转载,作者对文责自负,有任何不明之处请与作者联络:shenyang@sz1961sy.com
 
         沈阳 2005年10月16日 AM 1时33分 写于北京家中

          [本文作者为《中国域名经济(2002-2003年版)》主编、《中国域名经济(丛书)》总策划兼编委之一、中国版权协会(CSC)个人会员]    

发表评论:

    昵称:
    密码: (游客无须输入密码)
    主页:
    标题:
  收藏此页到365Key