政府门户垂直搜索引擎的典范——中央人民政府门户搜索引擎
央网搜索引擎建设背景
截止到2004年底,我国以gov.cn命名的站点数达到了10260个,93%的部委拥有部门网站,73%的地方政府拥有门户网站,这对我国政府职能转变和创新管理方式的推动起到了重要作用,但也凸显了各地政务信息分散,缺乏有效的分类组织和整合等问题,影响了政府的政务决策水平和政务信息公开效率的进一步提升。
那么如何有效整合政务信息资源,发挥政务信息资源的效力? 中央决定建立权威、集中的中央政府门户网站来改变这种现状,中央人民政府门户(简称央网)的建成将成为各部委及各地方政府信息资源的汇聚点,并最终成为政务信息发布和提供在线支持的综合服务平台。而在央网中搭建专业的政务垂直搜索引擎无疑是有效的解决方式之一。
央网搜索引擎功能简介
通过http://sousuo.gov.cn进入央网搜索引擎主页,搜索主页包含了国网网站搜索、国务院公报搜索、政府网站搜索、图片搜索、文档搜索、服务搜索等搜索分类。国网网站搜索是指对国家门户网站http://www.gov.cn自身发布内容的搜索功能;国务院公报搜索是指对国务院公报内容进行搜索;政府网站搜索是指对各级政府网站的网页内容搜索;图片搜索是指对各级政府网站上的图片进行搜索;文档搜索是指对各级政府网站上的文档内容进行搜索,比如WORD、PDF、Excel、PPT等;服务搜索是指搜索国内相关政府网站上所提供的服务。通过这样的分类,可以方便公众有针对性地选择搜索目标。
对于每一种分类搜索,系统都提供“高级搜索”功能,在高级搜索界面上,用户可以根据来源、日期(范围)、标题、作者、正文等属性进行搜索,并且可以指定结果的排序方式是按照网页的时间排序,还是按照内容的相关度进行排序。
在搜索性能方面,基于目前的服务器配置,国家门户搜索引擎能够支持瞬间300个并发用户的搜索请求,并可平滑进行硬件扩展,满足今后应用扩展的需求。
国家门户网站站内搜索界面
央网搜索引擎的应用特点和优势
垂直专业搜索----整合政务网络信息
央网搜索引擎实现了对全国副省级以上政府网站(350家)内容和服务的采集;实现了包括按信息分类、条件组合、文件类型、图片、区域等多种检索方式,同时实现了对多语种、多文种的检索。
与政府网站标准化建设紧密结合----实现更好的搜索效果
如果搜索引擎能够更好地“理解”网页内容,那么相信会提供更好的搜索服务。在央网搜索引擎系统的建设过程中,TRS制定了政府网站内容格式规范,把搜索引擎建设和各级政府网站的标准化建设紧密结合在一起。央网门户搜索引擎对于符合政府网站内容格式标准的网页,能够按照标准进行内容分析,提高了网页分析的准确性,实现了更好的搜索效果。
实时更新搜索信息----第一时间获取一手信息
央网搜索引擎所提供的搜索内容,必须能够及时反映政府网站的内容变化,各级政府网站上新发布的政务信息和办事指南应能及时搜索。目前各级网站发布的新网页一般在30分钟之内就可在央网门户搜索引擎中搜索到。
分类搜索----方便用户的搜索过程
央网搜索引擎对公众提供了方便的政务信息、办事指南搜索,合理的分类可以方便用户的搜索过程。央网门户搜索引擎按照服务的类型将搜索内容细分为站内搜索、国务院公报搜索、图片搜索、文档搜索、政府网站搜索等几种类型。央网门户搜索引擎在采集到的搜索各个环节都需要进行细致的分类工作。
深度精准搜索----获得互联网搜索不能提供的满意体验
央网搜索引擎是对各级政府网站的全部网页内容进行采集和索引;央网搜索引擎对网页的全部内容建立索引,进行检索;央网搜索引擎能够为用户提供完整的搜索结果集,搜索到的所有网页都是可浏览的,采用的是精确检索技术。
多种文档搜索----整合内部对象信息资源
《国务院公报》集中准确地收集了国家法规、声明、任免等重要文件,是国家最重要的政务信息资源之一。基于TRS Database Server 的全文数据库服务器平台,为其提供了精准的搜索手段。包括简单检索,以及针对于内容分类、发文单位、文号、期号、文件类别等元数据的组合检索手段。满足了不同层次的用户对国务院公报的精确检索。
应用服务搜索----创新的政务服务搜索功能
系统整合了部委和各省市的政务服务,以及相关的政策资源。用户通过输入关键词,就可以在页面上一并获得网上办事的链接入口和相关政策信息,大大方便了用户的同时,提高了政府的办事效率和服务水平,凸显电子政务价值。
什么是垂直搜索引擎
垂直搜索引擎的定义
搜索引擎的出现,整合了互联网上众多的网页资源,并提供信息导航和信息查询服务,使信息的价值得到了网民和厂商的普遍认可。但是,搜索引擎的发展格局是多方面的,市场需求的多元化也导致了搜索引擎的行业化和细分化,从而“垂直搜索引擎”成为了搜索引擎发展的必然趋势之一。
TRS认为:垂直搜索引擎是针对某一个行业或组织,满足行业专业需求、或者组织某项业务需求的专业搜索引擎,是搜索引擎的细分和延伸,是对某类网页资源和结构化资源的深度整合,并为用户提供符合专业用户操作行为的信息服务方式。
政府相关的垂直搜索引擎
主要表现为面向内部的垂直搜索和面向外部的垂直搜索,面向内部的垂直搜索主要是指政府内部专网网站群的搜索,同时集成数据库搜索功能,为政府工作人员和领导提供快速定位信息的方式,为日常工作和领导决策提供支持;面向外部的垂直搜索主要是指政府门户网站群搜索,同时集成法律法规等数据库搜索功能,整合政务服务资源,为民众和企业提供更好的服务,最大的发挥政务资源的效用。
垂直搜索、企业搜索、互联网搜索的区别
信息采集:融合了互联网搜索和企业搜索的特点
从采集方式看,互联网搜索以被动方式为主,搜索引擎和被采集的网页没有约定的、标准的格式;企业搜索以主动方式为主,被采集的办公文档、CRM和ERP中的数据等都和企业搜索引擎有着约定好的采集接口和安全接口;垂直搜索则采用被动和主动想结合的方式,通过主动方式,有效采集网页中标引的元数据,整合上下游网页资源或者商业数据库,提供更加准确的搜索服务。如:中华人民共和国中央人民政府网站垂直搜索引擎,它通过规范副省级政府门户网站网页的表达方式,达到有效采集网页元数据的目的,为企业和个人提供更精准的政务信息搜索服务。
从对采集深度、动态网页采集的优先级、结构化数据库信息采集来看,互联网搜索采用广度为先的策略,所以对采集深度要求不高,而垂直搜索和企业搜索需要挖掘出行业内所有相关的网页信息,所以往往采用深度为先的策略,同时由于行业内的一些有商业价值的信息采用动态发布的方式,如:企业数据库、供求信息等,所以垂直搜索对动态网页的采集优先级别较高。另外,在实际应用中,垂直搜索和企业搜索都需要集成和采集关系数据库中的结构化信息,如:垂直搜索中政府需要集成法律法规库、企业搜索中需要采集ERP、CRM中的信息等。
信息加工:非结构化信息和结构化信息是垂直搜索的特色
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,而垂直搜索是以结构化数据为最小单位。
垂直搜索的结构化信息提取和加工主要包括两种:网页元数据的提取,标题、作者、发表时间、版权所有等等;内容中结构化实体信息的提取,人名、地名、组织机构名、电话号码等等。同时,这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
目前,从垂直搜索的应用情况看,大部分垂直搜索的结构化信息提取都是依靠手工、半手工的方式来完成,面对互联网的海量信息,很难保证信息的实时性和有效性,因此对智能化的,结构化信息提取技术的需求非常迫切。同时国内非结构化信息的智能提取技术目前也取得重大进展,在一些领域得到有效应用,智能化是垂直搜索引擎的发展趋势。
信息检索:结构化和非结构化相结合的检索方式
从信息检索看, 垂直搜索不但能够对网页信息中的结构化信息进行检索,而且能够提供结构化和非结构化信息相结合的检索方式。比如我们找工作关注的:职位信息: 软件工程师;公司名称:软件公司;地点:北京海淀。
从检索结果的排序方式看,互联网搜索通过PageRank算法来实现,企业搜索大多采用检索内容和检索词的相关度进行排序,相对于互联网搜索和企业搜索,垂直搜索的排序需求更加多样化,如:按时间排序、按相关度排序、按某个结构化字段排序(如:购物搜索中的按价格排序等等)。
垂直搜索引擎在政府门户中的应用价值
整合政务资源,有效提升政务资源价值
门户技术中的“网站群技术”和“全文检索技术“有效的整合了行政领导关系比较紧密地部门内部的信息资源,垂直搜索技术则有效整合了行政领导关系比较松散地机构间的信息资源,使得政务信息资源的聚拢和整合得以最大化,政务资源的可挖掘能力得到提高,从而有效地提升了政务资源的价值。
一站式检索和导航服务,提高政府门户的公众服务水平
面对多如繁星的政府门户网站,用户查询信息和网上办事时往往无所适从,政务垂直搜索引擎的建设恰恰解决了这个问题,用户可以通过搜索引擎的各种检索方式,方便的获取过去需要访问多个网站才能查全的信息,同时也可以通过检索获取网上办事的入口,例如:在央网搜索引擎的规划中将继续开发服务搜索这个模块,通过检索您就可以轻松获取副部级网站上的办事链接网址。一站式检索和导航服务,大大方便了市民和企业,提高了政府门户网站的服务水平。
政治体制改革环境下,“凝聚”组织机构的有效手段
市场格局的变化,按照“大社会、小政府”的思维模式,政府介入微观经济领域越来越少,国家各个行业的部分机构由事业型机构转为企业。部委和下面的机构之间已经没有了行政领导职能,但是业务上还是存在千丝万缕的联系,两者还存在业务指导关系。垂直搜索引擎将两者有效的“凝聚在一起”,通过“信息的关联”把大家联系在一起,有利于行业内的交流和协作。
垂直搜索引擎在政府门户中的应用展望
“门户+搜索”将会成为政府门户网站建设的新模式
正如上面所述,门户技术(网站群和内容管理技术)只是解决了行政领导关系比较紧密的政府机构的信息资源整合,对于行政领导关系比较松散的政府机构的信息资源整合,则必须采用被动搜索的方式。随着地市级、县级政务门户的普及,省级门户首先考虑采用搜索技术整合下属门户网上资源,为民众、企业提供便捷的信息获取手段和导航服务。实践证明很多省级、部委门户已经展开了政府门户垂直搜索引擎的建设,并取得了很好的效果, “门户+搜索”正在成为政府门户网站建设的新模式。
联合搜索将会成为政府门户垂直搜索的特色
随着政府门户中垂直搜索引擎的建设,当下级政府部门已经建立了自身职责范围内的信息资源的整合和搜索以后,上级部门则可不采用被动抓取的方式来整合这部分资源,可以通过联合搜索的方式搜索这部分资源,即:将用户的关键词发送到下级政府部门的搜索引擎,对结果集合并后返回给用户。联合搜索的方式具有下面两个优点:第一,省时省力,节约资金,防止重复建设;第二,和被动的抓取方式相比,获取的信息比较全面和及时。
浅析垂直搜索引擎在政府门户中的应用
2006-08-29 10:08 来源: 电子政务工程服务网 查看: 次
免责声明:除非特别注明,国脉电子政务网所载内容及图片来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流之目的。转载的稿件及图片版权归原作者或机构所有,如有侵权,请联系删除。
关注国脉电子政务网,政府CIO的思想阵地与交流平台,5000位政府CIO在这里读懂“互联网+政务”
