网络环境下主题语言的应用

张彩莲
( 医学院图书馆, 浙江温州 325035)

摘要:本文主要论述了网络环境下主题语言在计算机检索中的地位和作用,指出了主题语言在网络环境下的发展趋势。

关键词:网络环境 主题语言 计算机检索

中图分类号:G254 文献类型编号:B

The Application of Subject Language under the Internet Environment Zhang Cai-lian
Abstract: This article introduces briefly the function and station of subject language under the internet environment in computer retrieval,indicating the direction of subject language under internet environment.

Key words: Internet environment Subject language Computer retrieval

 

1.网络环境对传统主题语言的冲击
       随着现代信息技术的飞速发展,人类逐渐步入网络时代,信息资源也逐步实现网络传输,电子信息资源占据了主导地位。信息资源组织的对象趋于多样化,组织的方式也发生了根本性的变化,由传统的对文献特征的描述深入到知识单元、信息单元。因此,如何对混沌无序的网络信息资源进行组织与提示,便于人们根据实际需要准确快速的检索信息,已成为全球网络信息用户共同面临的课题。在目前的网络环境下,面对如潮的信息量,人们已无法为其进行全面的人工检索语言整合。众多的用户也不需要接受专业训练,随意输入自由词作为检索词,便可实现检索。自由词检索已成为网上检索不可逆转的潮流。甚至国外有人预言,人工检索语言将被取代。

  1.1 信息种类繁多、内容复杂
       随着信息资源网络化、数字化的发展,网络信息资源从数量到内容都有了突破性增长,呈现出多类型、多媒体、非规范、无时限、跨地域、多语种等特征。除传统的图书、报刊、图片等印刷型文献之外,也有电子报纸、期刊、书目数据库、自由文本、网络新闻组等类型的文献并存。而且由于其存储形式为文本--超文本--多媒体--超媒体,致使信息的组织方式发生了巨大的变化。它不仅以知识和信息为基本单元,而且充分展示这些单元之间的逻辑关系,为网络环境下不同形式的信息资源的管理和开发提供技术支持,利用数字化存储技术,由传统的顺序、线性排列,发展到超文本、超媒体技术,使得信息可按照自身的逻辑关系组成相互联系的、直接的、非线性的网状结构。

  1.2 用户成份和检索行为的变化
       随着网络信息资源的发展和全文数据库的大量出现,以查全查准为衡量标准的检索观念正受到强烈冲击,使得浏览检索成为一种必然的趋势,自然语言的全文本检索技术也成为一种实际需要。用户要求信息组织方式透明化、直观化、易用化,网络信息资源组织方式简便实用,普通用户能用自己熟悉的语言检索到所需信息,满足自己不同的需要。

2.主题检索不可取代的地位和作用

2.1自然语言检索和主题检索的比较
      (1)自然语言检索的弊端是漏检和误检
       自由词是人们日常使用的未经规范的词汇。使用自由词检索属自然语言检索。目前,我国有几个较有影响的数据库,均使用了自由词检索。如《中文期刊题录数据库》(简称CNKI)、《中文科技期刊文摘数据库》(简称维普数据库)、《万方数据》、《国务院发展研究中心信息网》(简称国研网)。
       在检索词的概念中,可分为非隐含概念、非完全隐含概念、完全隐含概念。非隐含概念为检索词的概念被完全揭示,表现为检索字词与被检索字词在字面上完全一致;非完全隐含概念为检索词的概念未被完全揭示,表现为检索字词与被检索字词在字面上有部分相同;完全隐含概念为检索词的概念被完全隐藏着,表现为检索字词与被检索字词在字面上没有一个字相同。在自由词检索中,使用的是非隐含概念检索。这时,仅能命中与字面上完全一致的被检索字词;使用非完全隐含概念或完全隐含概念检索,其检索结果为零。一旦检索结果为零,将误导检索者认为没有相关的文献。在自然语言检索中,计算机技术只能实现字词的机械切割和组合。计算机使用自然语言,其智能水平在信息检索上尚无法析出信息的完全隐含概念。目前检索途径虽然众多,如模糊检索、条件组合检索、二次检索、全文检索、布尔逻辑运算符的"and"、"or"、"not"检索等。以非完全隐含概念为检索词,尚可机械地切割和组合检索词,使其中个别概念因素转换为非隐含概念来检索;而以完全隐含概念为检索词,无论采用何种自然语言检索方法,无论自然语言检索手段何等先进,都不可能使检索命中。

     (2)主题检索之精髓是能揭示信息的隐含概念,在信息检索中具有重要的地位和重要的地位和作用
       主题检索以人工语言作为检索标识,采用语言揭示和描述信息主题内容,满足用户对特定事物、特定主题的检索需要而产生的检索工具。主题检索之精髓是能揭示信息的隐含概念。它能从各种途径和手段充分揭示词间的等同、等级、相关等语义网络。不但可实现非隐含概念,还可实现非完全隐含概念的检索,乃至隐含概念的检索。这是无论自然语言如何先进都难以做到的。自然语言有着广阔的发展前景,但它不可能取代主题检索。主题检索在今天乃至未来的信息检索中具有重要的地位和作用。

2.2网络环境下主题检索的重要地位和作用

主题语言在传统的文献管理和手工检索中一直起着举足轻重的作用,这是其它任何一种检索语言所无法替代的。主题语言采用概念组配,以最能反映某学科领域的核心词汇为基础,全面地反映文献的各种特征,使不同需要的用户能够根据线索找到所需的信息。由于提取的词汇是核心词,便于检全关于某一事物的各个方面的文献,如查找某一细小专深的主题、交叉学科的复杂主题或新主题,便于实行计算机网络化检索,实现资源共享。再加上主题语言使用语词对信息进行组织与揭示,具有"直呼其名,依名查检"的直接性,任何语词标识基本上是独立完整的事物概念,可以满足特性检索的要求;而且主题标引技术广泛地应用于各种检索系统中,尤其是期刊与计算机检索系统。目前,世界上一些重要的计算机文献检索系统都采要主题词作为检索标识,主题语言越来越多地在网络信息中使用,尤其是主题语言中的关键词法,越来越得到人们的认可。因为关键词法在组织与揭示网络信息资源时有如下几大优势:

1) 关键词法基本上是自然语言,直接采用文献标题中所用的现成词语做标识,表达文献主题概念直观,专指性好,查准率高,用它进行情报检索,能更好地体现文献保障原则。
    2) 关键词法选词灵活、广泛,适应性比较强,能够随时反映新学科文献主题内容所需要的新词汇,并据此进行检索。
    3) 关键词法适宜于不同层次用户进行网络信息资源检索,而且在进行检索或标引网络信息资源时能够前后一致,很少出错。
    4) 关键词法顺应现代电子计算机技术的发展趋势,能够实现标引、检索过程的自动化。它与计算机技术的紧密结合,极大地提高了关键词标引和检索工作效率,这也是网络信息下对文献情报工作的必然要求。

3.主题语言在网络环境下的应用

3.1主题检索应成为高层次搜索引擎的重要角色
       在网络环境下,主题检索正经受着网络大潮的洗礼。主题检索弥补分类检索的不足,在我国信息检索中已初露端倪。主题检索可对信息进行深层次加工和检索,适合建立高层次搜索引擎的需要,智能化、高层次搜索引擎是当前搜索引擎发展的方向。检索用户可分为一般用户和研究型用户。一般用户在检索一个概念时只需要命中一篇或几篇文章即可,自然语言检索可满足这种需要,一般数据库也可满足这种需要。研究型用户希望的是尽量检全,自然语言检索不可能满足这种需要。为了对信息深层次加工和检索,必需建立高层次搜索引擎。以主题词编制理论为基础中文信息处理技术是中文搜索引擎发展的技术源泉,是高层次搜索引擎必须挖掘和利用中文信息处理技术的成果。

  主题引擎是一种网络资源工具,它通过引导网络用户的查询概念(而不是确切的词条),帮助用户找到所需的信息,其目的不仅是提供资源,而且提供引导用户使用资源的方法。主题引擎通过分析和匹配用户的思维逻辑和概念的组织过程,借助模糊的主题概念为用户提供所需信息。目前,主题引擎在国内外都得到了发展,产生了一大批著名的主题引擎,如Infoseek、Excite、Alta Vista 等,其主题引擎目录可以提供访问某一特定主题的广泛资源的能力。主题引擎可以有多种形式,从简单的文本文件到虚拟图书馆。这些引擎的功能能识别出Internet上关于某一特定主题的资源(在哪里,如何调用);多数引擎还能搜索到对这些资源的有关描述,包含资源的内容特点、主题概念、子主题、年代、地理、对象以及用途、组织等,而且不受这些信息发布工具(文本、数据库、电子公告牌等)的限制,从而更好地为用户提供检索服务。

3.2主题检索语言走与自然语言检索相结合的道路,是计算机检索智能化的重要步骤
       网络环境下,人工语言与自然语言相结合,发挥人工语言的优势,克服自然语言的词汇对检索效果的影响,使检索语言向智能化检索方向发展,成为研究和开发智能搜索引擎的重要课题。计算机技术发展,机检系统的不断完善,为主题检索走智能化提供了客观物质条件。主题检索语言实现的难点将是计算机不能解决的问题--信息的隐含概念 。

参考文献
1 贺定安.开发我国网络信息资源的新型搜索工具——分类、主题、自然语言一体化搜索引 擎.图书情报论坛,2002(4)
2 丛石.三种信息检索语言的功能及其应用.图书情报知识,2003(3)
3 何少卓.网络时代传统信息组织工作的新进展.图书馆学研究,2004(2)



Copyright © 1996-2006 Wzinfo Corporation, All Rights Reserved

温州科技情报研究所 版权所有