搜索代理工具及应用
2000-09-05 10:33:46
一、前言
当WWW最终以多媒体的优势超越Gopher、Archie等传统服务一跃成为国际互联网的主要应用服务方式之后,Web搜索引擎也随之成为互联网的常用必备服务之一,一些成功的互联网搜索引擎屡屡成为关注的焦点。 虽然发展速度很快,但是到目前为止,国内外的搜索引擎仍然存在许多不足之处,而其中最突出的问题莫过于搜索结果的精确度太低。常规的网络搜索都是用户在客户端提交搜索关键词,搜索引擎在服务器端进行查询运算,然后将结果通过网络发送到客户端,在整个搜索过程中,客户端的计算机只是起着一个终端的作用,其强大的运算能力和存储空间无法发挥作用,从而造成如下问题: 1.搜索结果很难精确匹配。 2.无法在本地保存和组织搜索结果。 3.无法对多次搜索结果进行综合逻辑运算的提炼。 4.无法对不同搜索引擎的结果进行综合比较与提炼。 5.各搜索引擎使用方法不同造成用户理解和使用困难等等。 6.搜索引擎分页面提交结果引起搜索结果手工下载效率低下,从而增加了用户的网络通讯费用。 7.搜索结果中的匹配文档不可能快捷地下载。 解决这些问题的根本思路在于将客户端的计算机作为一个搜索结果的存储、管理、组织和后处理智能工具,充分利用客户端计算机的运算能力和存储空间,对服务器提交的搜索结果进行深加工。要做到这一点,就需要在客户端安装搜索代理工具。 COPERNIC是一个智能化的搜索代理工具软件,能够同时访问多个搜索引擎,在各个分类中快速查找网站、新闻组、电子邮件等信息。 COPERNIC能够保存用户查找的历史纪录,从而将找到的信息更有效地管理和组织。免费的COPERNIC仅仅提供三个类别的查找,商业版本的Copernic 99 Plus,包括了21个类别,能访问125个搜索引擎,提供广告、商业与金融、体育运动、健康医疗、生活、电影、音乐、报纸、科学、软件下载等搜索服务。
二、COPERNIC的主要功能 COPERNIC的主要功能有: 1.通过分步引导方式简单快捷地建立搜索任务。 2.查找的文档能够按照关联程度来排列和显示。 3.在查找结果中高亮度显示查找关键词。 4.自动删除重复的匹配结果。 5.非法和无法访问的文档连接将会被删除。 6.匹配的文档能够被下载以便离线浏览。 7.能够使用逻辑运算符(AND, OR, EXCEPT)对下载搜索结果进行精选。 8.搜索结果能够以Web页面格式进行浏览,能够对文档进行排序和过滤。 9.能够对搜索结果进行更新,或按照文件夹进行分类管理。 10.能够以多种文件类型导出或者通过电子邮件邮寄搜索报告,这些类型包括HTML、Text、XML、Comma Separated、dBASE,支持多种标准文档格式将有利于利用其它软件对搜索结果进行加工处理。 11.支持对IE4.0以上的完全集成:可以通过结果浏览窗口浏览搜索结果、对文档进行快捷的过滤和排序、能够作为IE4.0的默认搜索窗口、能够从快速工具栏打开。经过实验,COPERNIC对Netscape的支持也很完善。
三、COPERNIC的安装与设置 由于COPERNIC支持对IE4.0以上的完全集成,因此在安装时需要选择两个选项(图1),分别是:
(图1) 1.是否通过结果浏览窗口来察看搜索结果。 2.是否替换IE4.0的搜索工具栏。
四、使用COPERNIC进行搜索 (一)丰富的操作手段 COPERNIC提供了四种遵循Windows风格习惯的、相互等价的操作手段,供不同熟练程度的用户随意选择: 1.功能键:对于追求速度的高级用户,功能键是最好的选择。COPERNIC的大多数功能键很好使用,如Ctrl+N是新建一个任务,F2是修改查询任务,F3是本地查询等等。 2.主菜单:包含了所有的功能,以及帮助信息。 3.快速工具栏:浏览器风格的快速工具栏是用户可以很快地入门。 4.右键快捷菜单:在COPERNIC的不同部分单击鼠标右键,可以弹出不同内容的右键快捷菜单。 在下面的叙述中,对操作手段不再详细解释。 (二)新建一个搜索任务 该功能用来指定搜索类别、关键词、搜索方式、搜索计划。COPERNIC提供了分布智能引导方式和传统方式两种方法供用户新建搜索任务。可以通过新建窗口左下角的按钮来切换这两种方式。 1.传统方式: 传统方式的参数选择共分为两个标记页,第一页是Query页,如图2,其内容有:
(图2) Category:选择搜索类别,比如主页、电子信箱、新闻组。 Keywords:搜索关键词,用户在此输入目标文章中包含的关键词,作为搜索的主要条件,可以输入多个词语,这些词语的关系由下面的选项决定: Search for all words:搜索包含所有关键词的文件,多个词语的顺序不限。 Search for any words:搜索包含任意关键词之一的文件。 Search for exact phrase:搜索精确包含关键短语的文件,多个词语按照顺序构成短语作为搜索条件。 第二页是Detail页,如图3,其内容有: Search scheme:搜索计划决定了各个搜索引擎返回匹配结果的最大数目。共有四个可供修改的默认选项,每个搜索引擎返回最大结果数目和总结果数目分别为: Quick search:快速搜索,10/100。 Normal search:普通搜索,20/200。 Detailed search:细节搜索,30/300。 Custom (user defined):定制搜索,数目由用户制订,每个搜索引擎的最大结果数目可以达到300个,总结果数目可以达到1000个。
(图3) 2.分步智能引导方式: 智能引导方式比较适合初学者使用,共分为四个步骤,用户只需在每一步选择输入必要的参数,然后点击“下一步”即可: (1)Selecting a Category:选择搜索类别,含义同上。 (2)Search Words:输入搜索关键词,含义同上。 (3)Search Mode:选择搜索所有关键词、任意关键词、关键短语,含义同上。 (4)Search Scheme:设定搜索计划,即搜索结果数目,含义同上。 (三)开始一个搜索任务 1.开始一个新的搜索任务: 在新建一个搜索任务后,点击“开始搜索”(Search Now)按钮即可。 2.开始一个旧的搜索任务: COPERNIC能够存储和分类管理所有的搜索任务与结果,用户任何时候都可在相应的类别文件夹中选择一个旧的搜索任务,点击工具栏上的“开始搜索”(Search)按钮。 在搜索的过程中,将会显示一个搜索进度窗口(图4),报告各个搜索引擎的进展情况。
(图4) (四)修改一个搜索任务 用户任何时候都可在相应的类别文件夹中选择一个旧的搜索任务,然后单击快速工具栏上的“修改”(Modify)按钮,就可以在图2、图3的页面中修改。 (五)下载匹配文档 COPERNIC不但能够快速地在互联网上进行检索,而且能够将所有的匹配文档下载到本地硬盘供用户进行离线浏览,这一功能使得COPERNIC成为一个功能完备的代理搜索工具。 搜索任务完成后,单击快速工具栏上的“下载”(Download)按钮,就可将选中结果或者所有结果下载到本地硬盘,并能删除不可访问的搜索结果。 (六)提炼搜索结果 当在线搜索任务完成之后,用户仍然可以离线对初步搜索结果进行提炼(Refine)。如果在线搜索结果数量很大,可以使用各种逻辑运算(AND、OR、EXCEPT)对在线搜索的结果进行进一步的加工处理。 一般在经过提炼之后,用户可以选择下载精确的匹配文档,这样能够显著缩小结果的数量,并节约网络费用。 (七)分类搜索文件夹 COPERNIC能够将搜索任务和结果通过文件夹进行分类保存,供用户进行修改、提炼、下载、更新。分类文件夹将使搜索任务和搜索结果的维护和管理更加条理化,工作效率也更高。 安装COPERNIC之后,只有一个默认文件夹,此时新建的所有搜索任务都将存放在该文件夹中。选择某个文件夹后,当前文件夹的搜索任务将显示在搜索任务列表中;在搜索任务列表中选择某个搜索任务,该任务的搜索结果将会显示在下面的搜索结果列表中(图5)。 用户利用“文件”(File)菜单中的“文件夹”(Folder)子菜单能够新建、删除、改名、压缩一个文件夹。 而使用“搜索任务”(Search)菜单中的各项功能可以在文件夹之间移动、拷贝选中的任务,也可以在当前文件夹中新建、修改、复制、更新、停止一个搜索任务。
(图5) (八)导出搜索结果 COPERNIC支持将搜索结果以超文本、纯文本、数据库等多种格式导出,以便使用其他分析工具进行深加工,并支持将搜索结果通过电子邮件发送给其他收信人,这也是COPERNIC的独特之处。 选中某个搜索任务,在“文件”菜单中选择“导出”(Export)或者“发送”(Send),选择文件类别即可。
五、总结 使用搜索代理工具,能够充分利用客户端计算机的运算能力和存储空间,将客户端计算机变为一个智能搜索终端,而对服务器搜索结果的存放、整理和提炼都是一个离线操作过程,又节省了可观的网络通讯费用,提高了搜索任务的精确度和效率,确实是一个重要而不可缺少的互联网工具。 摘自《软件世界》 吴博 杨志宏/文 |
404 Not Found
404 Not Found
nginx
|
|