2005全球中文搜索引擎质量对比(2)
网页死链率 死链指搜索结果中指向已不存在(或无法访问)的互联网资源的链接。死链受时间、地域、网络状况等多种因素影响。 图3 平均死链率(3个词不达意表的平均值) 结论: 死链率测试受网络和服务器状态影响,死链与评测样本选择有关系但不明显。3个评测样本数据显示,死链率从低到高前3名分别是一搜、百度、搜狗,爱问相对于其他搜索引擎有差距。 作弊率评估 网页作弊率是指网页通过程序或人工的手段,非法地提升自己在搜索引擎中的排序,提高自身的点击率等非法获益行为。评测样本选取与相关性评测相同,抓取6个搜索引擎结果,汇总后多个评测者根据作弊评测标准对每个结果进行标记,统计结果中的作弊数据比率。 图4 作弊率统计结果 结论: 搜索结果作弊数据比率中搜最低,百度、爱问次之,这3家在作弊数据比率上与其他搜索引擎相比有一定优势。 结果重复率 重复是影响网页质量的一个重要因素。重复内容多不但影响用户感受,还很耗费系统资源,影响检索效率。本次重复率评测只做了Google、百度、中搜三家搜索引擎前5页重复率评测。评测样本选取方法与相关性评测相同,共160个评测样本,每页取10条结果,不包括付费数据。 图5 前5页总重复率 结论: 评测结果显示,百度的重复最低。在而重复数据中,转载重复占大多数,而转载主要又表现为新闻转载。 中文分词 中文分词,是指把输入计算机的汉语语句自动切分为词的序列的过程。特定情况下分词结果中也包括一些词组和词素。本次中文分词评估是针对搜索引擎将连续性的中文检索词序列进行切分的处理结果进行的评估。前几项评测为搜索引擎的常规评测,检索中得分词评测带有探索性质,测试点较多。本次中文分词测评分为两部分:中文分词总体测评和中文分词单项测评。 图6 中文分词综合测评结果 说明: 可接受指分词结果完全正确和部分正确,纵轴是可接受结果占全集的比率。 结论: 中文分词总体测评正确率统计,百度占优,中搜其次。用户可接受横向对比中,百度、中搜、Google相对较好。 中文分词单项测评召回率/精确率统计结果显示,中外人名自动辨识仍然是搜索引擎中文分词部分的难点;而新鲜词汇的识别和区分方面,6家搜索引擎做得都很好。横向测评中,歧义字段分词部分,搜狗和中搜的正确率相对较高,Google和一搜需要进一步改进;中外人名识别部分,中搜,百度和爱问表现相对较好;中国地名识别部分,爱问和百度精确率较高,一搜需要改进。总体上,中文分词单项测评中,本地搜索引擎表现要占有较大优势。
首页 上页 | 1 | 2 | 3 | 下页 尾页 共 3 页