信息检索试题库

2024-11-09

信息检索试题库(共8篇)

1.信息检索试题库 篇一

信息检索试题

单项选择题:

1、以下各项属于二次信息的是(A)

A、索引

B、期刊

C、学位论文

D、百科全书

2、下列文献中属于一次信息的是(A)

A、专利说明书

B、百科全书

C、目录

D、综述

3、年鉴属于下列哪一类别(D)

A、零次信息

B、一次信息

C、二次信息

D、三次信息

4、(C)是出版周期最短的定期连续出版物。

A、图书 B、期刊

C、报纸

D、学位论文

5、为了有效地存储和传播知识,人类利用各种(C)来记录信息。

A、知识 B、文献

C、载体

D、视听资料

6、报道范围主要为能源方面的科技报告为(D)。

A、AD

B、PB

C、NASA

D、DOE

7、了解各个国家政治、经济、科技发展政策的重要信息源是(B)

A、科技报告

B、政府出版物

C、标准文献

D、档案文献

8、利用截词技术检索“?英语考试”,以下检索结果正确的是(D)

A、英语四级考试

B、英语考试成绩

C、英语考试报名

D、六级英语考试

9、我国最早的分类法是(B)

A、《中经新簿》 B、《七略》 C、《四库全书总目》 D、《隋书经籍志》

10、《四级英语阅读与完型填空》这本图书的分类号是(D)。A、G636.33

B、G216.2

C、I247.4

D、H319

11、按照《中国图书馆分类法》,《新编六级英语阅读解析》这本书应属于哪个类目(A)。

A、H大类

B、I大类

C、T大类

D、O大类

12、《信息检索》这本书的分类号为G252.7,这是按照(B)分类。

A、科图法

B、中图法

C、杜威分类法

D、刘国钧分类法

13、布尔逻辑表达式:在职人员NOT(中年AND教师)的检索结果是(A)

A、检索出除了中年教师以外的在职人员的数据

B、中年教师的数据

C、中年和教师的数据

D、在职人员的数据

14、布尔逻辑检索中检索符号“OR”的主要作用在于()。

A、提高查准率

B、提高查全率

C、排除不必要信息

D、减少文献输出量

15、利用百度搜索引擎检索,逻辑算符“或”的关系用(A)来表示

A、+

B、-

C、|

D、*

16、在Google中检索短语或词组,可以使用(D)进行检索

A、+

B、-

C、OR

D、“

17、根据国家相关标准,文献的定义是指“记录有(C)的一切载体”。A、情报

B、信息

C、知识

D、数据

18、将存储于数据库中的整本书、整篇文章中的任意内容查找出来的检索是(A)

A、全文检索

B、文献检索

C、超文本检索

D、超媒体检索

19、以已知文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法被称为(D)。

A、常规法

B、循环法

C、浏览法

D、追溯法 20、明确用经、史、子、集作为四部名称的分类法是(B)。

A、《中经新簿》 B、《隋书经籍志》

C、《四库全书总目》 D、《七略》

21、《中图法》中基本大类由22个字母表示,E表示的是(C)。

A、政治类

B、生物类

C、军事类

D、航空航天类

22、汇集人类一切知识门类或所有知识的概述性的检索工具,被成为“工具书之王”。下列属于这种工具书的是(C)。

A、年鉴

B、手册

C、百科全书

D、类书

23、国内使用的《中国图书馆分类法》是采用的下列(B)方法进行编排的。

A、字顺

B、分类

C、主题

D、时序

24、根据一定的需要,将特定范围内的某些文献中的有关知识单元或款目按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索根据是(C)。

A、目录

B、题录

C、索引

D、文摘

25、利用CNKI的全文数据库,检索著名作家巴金的作品,应选择的检索途径是(B)。

A、题名

B、作者

C、关键词

D、单位

26、布尔逻辑运算符号”and”可用(B)进行替换使用。

A、空格

B、*

C、()

D、?

27、布尔逻辑运算符号”or”可用(A)进行替换使用。

A、+

B、()

C、*

D、?

28、布尔逻辑运算符号”not”可用(C)进行替换使用。

A、+

B、|

C、-

D、()

29、截词检索主要应用于下列哪种检索系统(B)。

A、中文检索系统

B、外文检索系统|

C、英文检索系统

D、金盘图书馆书目检索系统 30、截词检索中,哪一个检索符号代表的是有限检索(A)。

A、?

B、|

C、*

D、-

31、截词检索中,哪一个检索符号代表的是无限检索(C)。

A、+

B、|

C、*

D、?

32、截词检索中,“?”和“*”的主要区别在于(A)。

A、字符数量的不同

B、字符位置的不同|

C、字符大小写的不同

D、字符缩写的不同

33、位置检索主要是通过限定相关主题词的(D)来提高检索的效率。

A、语法

B、|含义

C、数量

D、位置

34、(D)表示此算符两侧的检索词之间允许间隔最多n个词,且顺序可以颠倒。

A、(W)

B、(nW)

C、(N)

D、(nN)

35、位置运算符号(W)和(N)的主要区别在于(C)。

A、检索词之间间隔的字符数量的差异

B、检索词是否出现在同一字段中

C、检索词出现的位置是否可以颠倒

D、检索词是否出现在同一文献中

36、(D)是指未检出的相关信息量与检索系统中实际与课题相关的信息总量的比率。A、查全率

B、查准率

C、误检率

D、漏检率

37、最早出现的主题检索语言是(B)。

A、关键词语言

B、标题词语言

C、单元词语言

D、叙词语言

38、信息的四个属性中,其最高价值所在是(D)。

A、客观性

B、时效性

C、传递性

D、共享性

39、(A)是高校或科研机构的毕业生为获取学位而撰写的。

A、学位论文

B、科技报告

C、会议文献

D、档案文献 40、SCI是(B)的简称。

A、社会科学引文索引

B、科学引文索引

C、全国报刊索引

D、科学文摘

41、布尔逻辑检索技术属于(A)。

A、文本检索技术

B、图像检索技术

C、音频检索技术

D、视频检索技术

多项选择题:

1、信息素质的内涵主要包括(ABC)。

A、信息意识素质

B、信息能力素质

C、信息道德素质

D、信息职业素质

2、现代经济发展的三大支柱是(BCD)。

A、知识

B、信息

C、材料

D、能源

3、存在的基本形式有(AC)几种。

A、主观知识

B、个人知识

C、客观知识

D、共享知识

4、信息的属性包括(ABCD)

A、客观性

B、时效性

C、传递性D、共享性

5、按检索内容分,信息检索可分为(ABCD)。

A、文献信息检索

B、数据信息检索

C、事实信息检索

D、数值信息检索

6、常用的信息检索方法有以下几种(ABCD)

A、常规法

B、追溯法

C、循环法

D、浏览法

7、影响检索效果的因素主要来自两个方面(CD)。

A、查全率

B、查准率

C、检索系统本身

D、检索人员的检索水平

8、如果检索结果太多,查准率很低,需要调整检索范围,此时调整检索策略的方法有(AD)等。

A、用逻辑“与”或者逻辑“非”增加限制概念

B、用逻辑“或”或截词增加同族概念

C、使用截词检索

D、用二次检索增加限制条件

9、按照《中国图书馆分类法》,下列属于O类的图书是(BC)。

A、《C语言》

B、《高等数学》

C、《物理》

D、《法语写作》

10、下列属于文献信息检索的工具的有(ACD): A、目录

B、字典

C、索引

D、文摘

11、下列概念属于上下位关系的有(ABD):

A、电脑与手提电脑

B、家用电器与电视机

C、color与colour

D、材料与无机材料

12、在下面的分类号中,(BCD)是中国图书馆图书分类号。A、22.27

B、TB324

C、G252.7

D、R329.2

13、网络检索系统的特点是(ABCD)。

A、资料丰富

B、检索方便

C、费用低廉

D、资源共享

14、文献信息检索工具主要有以下几种类型()。A、目录

B、题录

C、索引

D、文摘

15、二次文献主要包括(ABCD)等。

A、手册

B、年鉴

C、目录

D、题录

16、在计算机信息检索系统中,常用的检索技术由(ABC)。A、布尔检索

B、截词检索 C、位置检索

D、逻辑检索

17、下列(BC)特点属于图书的基本特征。

A、ISSN

B、作者单位

C、索书号

D、ISBN

18、使用逻辑“或”是为了(ACD)。

A、提高查全率

B、提高查准率

C、扩大检索范围

D、提高利用率

19、检索工具的排检法包括以下几种(ABCD)。

A、字顺排检法

B、分类排检法

C、主题排检法

D、时序排检法和地序排检法

20、文摘的特征包括以下几项()

A、语言精练

B、以单篇文献为报道单元

C、二次信息的核心

D、索引的延伸

21、超星数字图书馆提供以下哪些检索字段(ABC)。A、书名

B、作者

C、主题词

D、关键词

22、布尔逻辑检索的运算符号有(ABCD)。A、and

B、or

C、not

D、()

23、布尔逻辑运算符号“与”的作用在于(ABCD)。A、增加限制条件

B、缩小检索范围

C、提高检索的专指性

D、提高查准率

24、布尔逻辑运算符号“或”的作用在于(ABD)。A、增加检索结果

B、扩大检索范围

C、提高检索的专指性

D、提高查全率

25、布尔逻辑运算符号“非”的作用在于(ABCD)。A、增加限制条件

B、排除检索结果

C、缩小文献范围

D、提高查准率

26、使用截词检索的作用在于(ACD)。

A、扩大检索范围

B、排除检索结果

C、防止漏检

D、提高查全率

27、截词检索中,常用的截词符号有(CD)。A、+

B、-

C、*

D、?

28、常用的位置检索符号包括(ABCD)。

A、(W)

B、(nW)

C、(N)

D、(nN)

29、检索式computer(w)information检索出来的结果是(AC)。A、computer information

B、computer color information

C、computer-information

D、color computer information 30、检索式Laser(1w)printer检索出来的结果是(AB)。A、laser printer

B、laser color printer

C、printer

D、the laser printer31、检索式econom??(2N)recovery检索出来的结果是(ABC)。A、economic recovery

B、recovery of the economy C、recovery from economic troubles

D、t recovery of the Chinese economy

32、检索式money(N)supply检索出来的结果是(AB)。A、money supply

B、supply money

C、supply of money

D、rich money supply

33、下列哪种情况下检索人员需要修改检索策略(AB)。

A、检索结果中无关信息量过多

B、检索结果中输出的信息量太少

C、检索过程中需要的时间过长

D、检索人员主观调整

34、下列哪种方法可以提高检索的查准率(ABCD)。

A、加强检索词的专指度

B、用“and”/“not”等限制或排除某些概念

C、从年代、语种和文献类型上进行限制

D、将检索词限定在一定的字段中

35、下列哪种方法可以提高检索的查全率(ABCD)。A、降低检索词的专指度

B、取消“and”/“not”等过严的限制符

C、增加检索年限,减少语种、文献类型的限制,扩大检索词出现的可检字段范围 D、改精确检索为模糊检索

36、信息检索效果评价的指标有(ABCD)。A、查全率

B、漏检率

C、查准率

D、误检率

37、关键词检索语言的特点主要包括(ABCD)。A、非规范化

B、专指性强

C、查准率高

D、查全率低

38、主题检索语言和分类检索语言的不同之处在于(ABC)。A、前者侧重特性检索,后者侧重族性检索

B、前者使用文字符号,后者使用数码符号 C、前者采用字顺排列,后者采用等级排列 D、前者书面化,后者通俗化

39、信息检索系统的类型包括(AB)。

A、手工检索系统

B、计算机检索系统

C、文字检索系统

D、符号检索系统 40、描述信息外表特征的信息检索语言包括(ABCD)。A、题名

B、著者

C、出版者

D、号码

41、描述信息内容特征的信息检索语言包括()。A、分类检索语言

B、关键词语言

C、叙词语言

D、标题词语言

42、下列属于信息源范畴的是(ABCD)。A、语言交流

B、图书

C、具体实物

D、搜索引擎

43、从内容上来看,图书和期刊的区别主要表现在(ABC)。A、主题的集中度

B、内容的专深度

C、出版的速度

D、检索的方便度

44、下列哪些论述与事实信息检索相关(ABD)。A、又称事项检索

B、是一种确定性检索

C、是一种非确定性检索

D、以文献中抽取的事项为检索内容 45信息检索系统由哪几部分构成()。

A、检索文档

B、信息存储与检索设备

C、检索规则

D、人员

46、以下属于综合性检索工具的是(AB)。A、科学文摘

B、工程索引

C、生物文摘

D、中国专利索引

47、根据信息的内容不同,信息检索技术可分为(ABCD)。A、文本检索技术

B、图像检索技术

C、音频检索技术

D、视频检索技术

判断题

1、文献是记录信息的一切载体。(〤)

2、知识被包含于信息,是信息的组成部分。(√)

3、文献信息源是各种信息源中检索与利用的主体。(√)

4、语言信息源,即零次信息,也就是指非正式的、口头交换的信息。(√)

5、专利说明书属于二次信息的范畴。(〤)

6、一次信息也称为第一手资料,如书目和索引。(〤)

7、把一种期刊和另一种期刊区别开来的唯一标识是ISBN号。(〤)

8、把一种图书和另一种图书区别开来的唯一标识是ISSN号。(〤)

9、图书一般不能反映最新的信息,时效性差,相比之下,期刊出版发行速度快,内容新颖。(√)

10、学位论文一般不对外发行,但可以通过商业手段进行买卖。(〤)

11、档案文献具有原始性特点,客观真实地反映了历史。(√)

12、不论信息检索的方法是否相同,信息检索的原理都是一样的。(√)

13、文献信息检索是一种相关性检索而非确定性检索。(√)

14、数据信息检索是一种非确定性检索,不能直接提供用户所需要的确切的数据。(〤)

15、超媒体检索是对超文本检索的补充。(√)

16、使用循环法检索能获得较高的查全率和查准率。(√)

17、利用CNKI的中国期刊全文数据库检索,有主题法和分类法两种途径。(√)

18、信息检索语言是一种人工语言。(√)

19、分类检索语言是按信息内容的学科知识属性分门别类来系统标识和组织信息的方法。(√)

20、西晋荀勖的《中经新簿》是我国第一部分类法。(〤)

21、《中图法》的标识符号是汉语拼音字母与阿拉伯数字相结合的混合制号码。(√)

22、《中图法》中,英语类的书籍用F来表示。(〤)

23、分类主题一体化语言是分类检索语言和主题检索语言在内容上的结合。(〤)

24、信息检索系统是一种有序化的信息资源结合体。(√)

25、《七略》是我国第一部目录。(√)

25、数据事实检索工具属于二次信息的范畴。(〤)

26、不同的检索系统、不同的文献类型提供的检索字段有可能是相同的。(√)

27、在一个复合逻辑检索式中,运算优先级别是不可以改变的。(〤)

28、截词检索技术可以有效防止漏检。(√)

29、位置检索符号(nN)表示此算符两侧的检索词之间允许插入多个词,且顺序可以颠倒。(〤)

30、查全率和漏检率是一对互逆的检索指标。(√)

2.信息检索试题库 篇二

信息检索(Information Retrieval,IR)被认为是对大规模电子文本和其他人类语言数据进行表示、搜索和处理的技术。信息检索系统和服务现在已经非常普遍了,成千上万的人每天都在使用它们来方便的进行商务、教育和娱乐。Google、Bing、Yahoo、百度等Web搜索引擎,是目前为止最普遍和大量使用的信息检索服务形式,提供获取最新技术信息、搜索人和组织、总结新闻和事件意见简化比较购物的途径[1]。

信息检索通常包括:Web搜索、其他搜索应用、其他信息搜索应用等。通常的Web搜索形式是使用Web搜索引擎,通过输入简单的查询,得到问题的答案。对于其他搜索应用,两个常用的实例就是桌面搜索和文件系统搜索。与Web搜索引擎相比,桌面搜索引擎系统需要对文件格式和创建时间更加了解。其他搜索应用还包括企业级信息搜索系统、数字图书馆等其他专业信息检索系统。其他信息搜索应用通常处理的问题还包括存储、处理和检索人类语言数据等各种相互关联的问题[1],具体包括:文档路由、过滤和选择性传播、文本聚类和分类、摘要、信息提取、话题检索与跟踪、专家搜索、问答、多媒体信息检索等。

大部分信息检索系统都可以表示为一个共同的基础组织结构,如图1所示。首先用户产生一个信息需求,并基于该需求,用户在信息检索系统中输入一个查询,由搜索引擎根据该查询在数据库中进行检索,然后对检索结果进行过滤、排序等处理生成检索结果,最后将检索结果返回给用户。

2 检索意图识别的基本概念

搜索引擎在一定程度上降低了用户查找信息的难度。但因搜索引擎的搜索方式大多基于关键词组合,而用户提交给搜索引擎的有限关键词常常不能完整地表达其信息需求,且由于人类语言与机器语言的差异,使得搜索引擎在处理用户查询时,通常会丢失语义及逻辑信息,导致搜索引擎返回的结果有时不尽如人意。

检索意图(Retrieval Intention)是检索中包含的用户信息需求、查询目标、查询动机等。

根据用户输入的检索信息,自动识别出其检索意图,返回与其信息需求更相关的信息,成为有效把握用户需求、提高搜索引擎检索质量的途径之一。

对于检索意图的分类,学术界通常使用Broder等人提出的分类标准[2]:

(1)导航类(Navigational):又叫主页查找类。这类检索意图是为了访问某个特定的网站,例如某企业、组织的主页;

(2)信息类(Informational):又叫话题相关类。这类检索意图是为了获取例如如何改变阅读器背景颜色等会在多个网页上存在的信息;

(3)事务类(Transactional):又叫服务查找类。这类检索意图是为了进行一些基于Web的活动,例如:观看视频、网上购物等。

Rose等人[3]在Border等人的基础上,又提出了更加细致的分类层次,除了导航类和信息类外,又增加了:

(1)指导类(Directed):用户想知道关于某个话题的特定信息,其中包括:确定的(Closed)和开放的(Open);

(2)无指导类(Undirected):用户想知道关于一个话题的任何信息;

(3)建议(Advice):用户想要得到关于某个主题的建议或攻略等,例如:春节海南旅行攻略;

(4)位置(Locate):用户想知道在哪里能够得到现实世界中的某种服务或产品;

(5)下载(Download);

(6)娱乐(Entertainment);

(7)交互(Interact);

(8)获取(Obtain)。

基于检索意图识别的信息检索的关键技术通常包括[4]:特征提取(确定特征词汇、词项之间的关系、词性、相关数据的统计信息等)和数据集的构造或获取(用于分类的数据集通常包括训练接和测试集,通常可以使用搜索引擎的日志)。

3 基于检索意图识别的信息检索技术发展路线

一直以来,学界认为传统信息检索的核心宗旨为:用户内在的信息需求促使其采用相应的信息检索系统并产生相应检索行为,从而将用户查询中所包含的信息需求狭义地界定为信息类信息,即主题类查询。

1987年12月2日,日本的日立有限公司的申请(JPH01145721 A,19890607)首次通过评价检索意图来对搜索结果排序,公开了一种通过检索关键词计算得到的拟合优度(goodness-of-fit)这一测度来数值化检索意图的方法。直到2000年出现韩国的申请之前,在基于检索意图的信息检索领域的专利全部集中在日本,其中以FUJI XEROX CO LTD为首,包括12件专利申请,MATSU-SHITA ELECTRIC IND CO LTD、NIPPON TELEGRAPH&TELEPHONE、YAHOO JAPAN CORP、YAHOO KK次之,分别有8件专利申请。此时的基于检索意图的信息检索还遵循着传统的信息检索的定义,通过用户输入的关键词进行主题类查询。

自2002年开始,学术界认为用户执行检索不只是想获取信息类信息,并通过对用户查询及AltaVista日志进行分析将用户查询意图分为三类,即信息类(I)、导航类(N)和事务类(T)。自此,人们开始从多个角度研究基于检索意图识别的信息检索技术。

2003年7月2日,日本的OKI ELECTRIC IND CO LTD的申请(JP2003000190556,20030702)不仅通过关键词来获得用户的检索意图,同时加入关键词的属性,来共同表示检索意图。即,检索意图识别中的一个关键技术——特征提取——开始备受关注,多角度、多维度的特征提取方法激增。

中国专利CN101782909A公开了一种基于用户对网页搜索和操作网页的记录来计算用户后续需求意向的方法。通过记录用户对网页的点击数、点击速率、网页速度、浏览时长、浏览次数和链接文字的操作,计算出用户对搜索结果的喜好分值和后续需求意向。当用户点击一个超链接时,搜索引擎要实时的计算一个喜好分值,并将链接上的文字和检索请求相联系起来,可认为是相关联。

中国专利CN102246164A提供了一种基于对检索关键字分析结果来检测搜索者的意图的方法。该方法的实施是将关键字(可为单词单元、短语单元以及句子单元)按词性分离为语意单词,对分离后的关键字参考语法文法规则字典,执行语法分析,通过分析句子内分离后的单词是否具有任何文法关系以及语义关联,来获取所述语法表达式(逻辑表达式、修饰-被修饰以及语法列表表达式)进而来检测搜索者的意图。

中国专利CN102880723A公开了一种识别用户检索意图的搜索方法和系统。计算检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量,根据上述计算的三种度量确定用户检索意图,既考虑到检索词汇与意图特征库的相似度,又考虑到实体词的特殊作用以及整体的检索句法结构,从局部和整体上对检索关键字做意图识别,为搜索引擎提供尽可能多的信息支持,同时不完全依赖于线上搜索引擎的结果信息,更易于实现。

4 基于检索意图识别的信息检索技术重要申请人的技术路线

基于检索意图识别的信息检索技术专利申请,中国申请以阿里巴巴集团控股有限公司为首,有73件专利申请,百度在线网络技术(北京)有限公司次之,有43件专利申请;国外申请以阿里巴巴(ALIBABA GROUP HOLDING)为首,有19件专利申请,腾讯(TENCENT)次之,有18件专利申请。但阿里巴巴的申请的申请日都集中在2010年以后。在2010年以前,都集中在日本和美国,其中日本以FUJI XEROX CO LTD为主。

以下主要分析阿里巴巴在中国申请的关于检索意图识别方法的技术路线。

2009年9月4日,阿里巴巴在中国提交的第一件关于检索意图识别的信息检索方法(CN200910171083),主要以查询关键字的语言特点和历史用户行为作为特征,对用户意图进行分析,以语义检索为主,不再是传统信息检索中简单的文字匹配。

2010年4月30日,提交的CN201010160535提出了一种基于垂直搜索的查询方法,其体现了在搜索领域新出现的一个搜索技术——垂直搜索,是用这项新的技术,结合协同过滤的思想,在用户推荐领域获得用户的查询意图。

2010年12月31日,提交的CN201010618555提出了一种通过建立非意图词集的方式,预先确定多种推荐方式,其中第一预定推荐方式为基于知识库的推荐方式和/或基于会话相关性的推荐方式,从而解决了没有明确搜索意图的用户推荐搜索关键词时推荐效果不佳,造成搜索引擎服务器系统资源浪费的问题。

2011年9月1日,提交的CN201110256639使用两级查询,进一步提高检索精度。

2011年11月15日,提交的CN201110361975在原来只进行单词这一层面分析的基础上,使用词的匹配规则,进一步挖掘用户的搜索意图。

2012年1月17日,提交的CN201210015340通过输入的查询字和选取的类目,确定查询词与类目名称之间的上下位关系,根据确定的上下位关系确定扩展查询词,从而加大匹配到用户查询意图的可能性。且在2012年的多项申请中,都致力于根据用户输入的查询词,进行查询词扩展,找到更能符合用户查询意图的关键词。

2013年的申请主要结合用户的搜索行为制定个性化的搜索方案,从而输出合理的符合某一用户的搜索意图的结果。

5 结论

随着计算机技术的迅猛发展及用户需求的急剧增加,对信息检索的精度和速度的要求越来越高。为了得到更加贴近用户意图的检索结果,用户意图识别技术必将得到更多重视。与其他机器学习方法的发展历程一样,基于用户检索意图的信息检索正在由单维度向多维度发展,由底层的数据匹配向高层的语义匹配发展。

由于发明成果在专利文献中的公开早于其他公开媒介,且体现了行业和技术的发展趋势及商业价值。所以,有效利用专利文献更有利于提高研究效率、减少研究投入并提高研究水平。通过专利文献中技术的发展脉络,能够及时发现现有技术的空白点及改进点,有助于研究者及时调整技术研究及企业发展方向及战略,研发出更加符合用户需求的产品。

摘要:信息检索是对大规模电子文本和其他人类语言数据进行表示、搜索和处理的技术。随着信息检索技术的发展,为了使检索结果更加符合用户要求,基于检索意图识别的信息检索技术迅速发展。本文首先介绍信息检索和检索意图识别的基本概念,然后从专利技术的角度介绍基于检索意图识别的信息检索技术的发展路线,并介绍基于检索意图识别的信息检索技术重要申请人的技术路线,最后,总结现有的基于检索意图识别的信息检索技术的整体发展趋势和专利文献在其中所起的作用。

关键词:信息检索,检索意图,多维度

参考文献

[1]Stegan Büttcher,Charles L.A.Clarke,Gordon V.Cormack著,陈健,黄晋等译,信息检索:实现和评价搜索引擎,机械工业出版社,北京,2011.12.

[2]Andrei Broder.A taxonomy of web search[C].SIGIRForum.New York,N Y,USA:ACM Press,2002:3-10.

[3]Daniel E,Rose,Danny Levinson.U nderstandinguser goals in web search[C].WWW’04:Proceedingsof the 13th international conference on World Wide Web.New York,N Y,U SA:ACM Press,2004:13-19.

3.中文信息检索关键技术分析 篇三

关键词:信息检索;搜索引擎;网络爬虫;中文分词;排序

中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)15-30770-02

Analysis of the Key Technology of Chinese Information Retrieval

WANG Dong

(Dept of Computer Science & Technology, Qiongzhou College, Wuzhishan 572200, China)

Abstract:The paper makes a brief introduction on the Web Chinese Information Retrieval, and analyses some key technology on it. And the Chinese search engine technology popularly at present has been turned out. The author proposed some ideas, the experiences and the tentative plans, and eventually carried on the forecast on the intelligent Chinese search engine technology.

Key words:Information Retrieval;Search Engine;Web Crawler;Chinese Participle;Arrangement

1 引言

近年来,Internet迅速发展成为一个分布于全球的混合信息空间。为了帮助用户获得网络上的丰富信息,Web信息检索系统应运而生,其最新发展趋势是检索的智能化和垂直化。人们在享受信息检索工具带来方便的同时,“忠实表达”和“表达差异”等问题日益突显出来。随着人工智能、机器学习、语义Web等技术的快速发展,人们提出了智能化搜索引擎来解决传统搜索存在的弊端。下面笔者就Web中文信息检索的智能化技术提出自己的一些看法。

2 Web中文信息检索概述

WWW上的信息检索主要研究对整个HTML文档信息的表示、存储、组织和访问,即根据用户查询要求,从信息数据库中检索出相关信息资料,以文本数据为主要处理对象,提供根据数据资料的内容而不是外在特征来实现的信息检索手段。[1]

在Web信息检索技术领域,英文信息检索发展得较为完善,如信息的表示采用向量空间方法,基于内容相关性的查询反馈等。Web信息检索的发展是一个不断探索的过程,如今它己向第二代发展,功能也越来越强大[2]。然而,目前中文网络信息检索还存在着许多问题:1、查询方式单一,查准率和查全率不高。中文搜索引擎一般只有分类目录浏览和简单的关键词检索,缺乏高级的查询方式。但是中文是一种存在着大量音、形、义相近词汇的复杂语言,单一的检索方式经常会使得使用者得不到想要的结果;2、中英文混合检索问题。如:当你输入“MP3”时,有些网站会认为你在查找英文网页,进而自动将你送到一个英文搜索引擎上;3、专业的网络信息检索引擎较少;4、中文网络检索的相关性无法与英文媲美,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配。

3 Web中文信息检索的关键技术

3.1 网络爬虫

网络爬虫(Crawler)是通过网页的链接地址来寻找网页的程序,它从网站的某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。网络爬虫一般有两种策略:深度优先和广度优先[3,4]。深度优先是指网络爬虫会从起始页开始,逐个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。广度优先是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。第二种方式可以让网络爬虫并行处理,提高其抓取速度。网络爬虫抓取HTML文档时,需要把HTML标识符过滤掉,同时记录页面的版式信息,例如文字的大小、是否标题等,这些信息有助于计算单词在网页中的重要程度。

3.2 中文自动分词技术

对中文来讲,自动识别汉语文献中词的边界,将书面汉字序列切分成正确的词串,是理解自然语言的第一步,分词质量的好坏将直接影响到主题抽取的质量。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

本文主要说明一下基于统计的分词方法,此方法一般不依赖于词典,因此也称为无词典分词法。该方法根据计算字与字相邻共现的频率来确定是否成词,共现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,便认为此字组可能构成一个词。这种方法只需对语料的字组频度进行统计,不需要分词词典。但它也不足,比如说像“之一”、“有的”等词它们尽管不是词组,但一起出现的概率也很大,这样就会对词组分词产生一些偏差[5]。改进的方法是:先使用一部基本的分词字典进行关键词分词,同时使用统计方法识别一些新的词组,即把词频统计和字典方法结合起来,这样两者可以相得益彰,效果更好。此外,还可以把得到的搜索结果进行动态的归类,有条理地给出搜索结果,这样可以让用户清楚地寻找自己的搜索内容属于哪个类,节省用户在大量的搜索结果中查找所需信息的时间。

很多搜索引擎对中文的“一词多义”都束手无策。在这种情况下,我们可以采用系统和手工干预相结合的办法来解决这个问题。首先,系统查找知识库并得到搜索词的所有含义,同时进行相应的排序,而后系统把搜索词的各个含义以网页的形式呈现给用户。用户就可以选择自己感兴趣的含义。该方法避免了对关键词的曲解,同时避免了大量垃圾信息产生,因此极大地提高了查找效率。特别是在个性化搜索引擎方面,系统可以增加用户对个性数据库反馈的功能,这样当该关键词下一次出现的时候系统就会把用户的这次选择作为其默认选项。

3.3 搜索结果排序

传统的PageRank算法的工作机理是:若一个页面被多个页面引用,则这个页面可能是重要页面;一个页面尽管没有被多个页面引用,但被一个重要页面引用,那么这个页面也可能是重要的。在此基础上,我们可以进一步提出一些设想:1、某位用户所搜索的信息可能只涉及的某个领域,因此在使用PageRank算法时,可以考虑用户感兴趣的领域。例如,如果网站是介绍“电器”的,有10个链接都是从“电器”相关的网站链接过来,那这10个链接比另外10个从“体育”相关网站链接过来的贡献要大;2、网页设计者经常会根据强调内容的不同,给网页的不同部分加上不同的标记或用不同的字体等。因此,我们就可以根据页面版式信息来确定所搜索的结果和搜索词的相关程度;3、我们发现,当用户打开搜索结果中的某个页面,如果发现该页面没有他想要的内容,他就会立刻关闭;而如果有他要查找的内容,他则会驻留比较长的时间。因此可以采用用户在某页面的停留时间,作为搜索结果排序的参考之一。

目前的搜索引擎排序算法上还存在两大不足:1、正解相关性。相关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,并不能真正判断搜索关键词与文章的相关性。另外,很多文章尽管没有出现搜索词,但是文章表达的意思却与搜索词相关,这时搜索引擎将无法搜到这些相关网页。可见,表面特征搜索只能治标,而不能治本。解决问题的关键在于增加语义理解,让机器明白人的意图;2、搜索结果的单一化。在搜索引擎中,任何人搜索同一个词都会得到同样的结果。比如说用户输入搜索词“苹果”,如果用户是一个IT工作者,他也许想找到的是苹果计算机;而对于一个农民而言,他也许想找到的是如何栽培优质苹果的方法。而当前的搜索引擎尽管在个性化方面有了一些尝试,但距离人们想要的真正意义上的“个性化”还有很大的差距。

综上所述,搜索引擎的排序技术将会向两个方向发展,即:语义相关性和排序个性化。如果一个搜索引擎能从根本上解决这些问题,它将成为搜索领域的霸主。

4 Web中文信息检索的发展趋势

近年来,信息检索技术开始注重网页质量与相关性的结合,这主要是通过三种手段:1、对网上的超文本链接结构进行分析,如Infoseek和Google;2、对用户的点击行为进行分析,如Directhit;3、与网站目录相结合。信息检索最新的趋势是智能化(包括个性化),智能信息检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。搜索引擎的智能化还表现在用自然语言与用户交流的能力,对知识的理解和处理能力。目前Internet 上的人工智能产品越来越多,如:智能搜索引擎、智能浏览器、学习智能体、知识共享智能体等已经从实验室进入市场[6]。

5 结束语

本文介绍了Web中文信息检索技术的基本理论,在此基础上,分析和研究了中文搜索引擎的三大关键技术:网络爬虫、中文分词、搜索结果排序,并就中文分词和搜索结果排序提出了一些设想。我们深信:随着互联网技术的不断发展,搜索引擎也将迎来革命性的变革,人们将在这个信息爆炸的年代里获得越来越精确和及时的信息。

参考文献:

[1]Venkat N Gudivada. Information Retrieval on the World Wide Web[J]. IEEE Internet Coputing,1997,(4):58-68.

[2]翁惠玉,马范援,朱义军,杨传厚. 网络搜索引擎的现状分析[J]. 情报学报,1999,18:100-102.

[3]李学勇,欧阳柳波,李国徽,钟敏娟. 搜索引擎中网络蜘蛛搜索策略比较研究[J]. 计算机技术与自动化,2003,22(04):63-67.

[4]李学勇,欧阳柳波,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13) :32-33.

[5]唐培丽,胡明,张勇. 基于中文文本主题提取的分词方法研究[J]. 吉林工程技术师范学院学报,2005,21(2):34-36.

4.信息检索试题库 篇四

1.符合我馆收藏原则 , 而我馆没有收藏的图书 , 可以通过图书馆主页上 哪个栏目推荐购买?(A A 书刊荐购 B 新书通报

2.我馆定期上传书商提供的新书目 , 以下哪个选项不能进入选书推 荐?(A A 参考咨询 B 书刊荐购 C 我的图书馆

3.我馆新书定期上架 , 通过主页上哪个栏目可以查询新上架书目?(A A 新书通报 B 书刊荐购

4.想通过图书馆书目检索系统, 搜索本馆馆藏范围内, 题名中含有 “英 语四级”的所有书目,选择哪种检索方式(C A 前方一致 B 完全匹配 C 任意匹配

5.(C 即围绕读者提出的某一特定问题开展的文献检索服务。它 主要针对自然科学、社会科学及人文科学各个学科、各种目的的研究 课题,以描述课题的主题词、关键词作为检索人口,开展文献检索服 务。

A、科技查新;B、专利检索;C、专题检索: D、辅导性咨询。

6.登录网页版或客户端版超星移动图书馆的账号和密码是(A A、“我的图书馆” 的账号和密码 B、自己注册产生的账号和密码

7.使用逻辑“与”是为了(B。

A、提高查全率 B、提高查准率 C、减少漏检率 D、提高利用率 8.使用逻辑“或”是为了(A A、提高查全率 B、提高查准率 C、缩小检索范围 D、提高利用率 9.在中国知网数据库中的布尔逻辑表达式:“在职人员 不含 青年教 师”的检索结果是(A A、检索出除了青年教师以外的在职人员的数据 B、青年教师的数据 C、青年和教师的数据 D、在职人员的数据

10.关于万方数据资源的说法中,正确的是(A。A、以科技信息为主,涵盖经济金融人文信息 B、以经济信息为主,涵盖科技金融人文信息 C、以金融信息为主,涵盖人文经济科技信息 D、以人文信息为主,涵盖金融经济科技信息 11.二次检索的作用是(B。

A、第二次全新检索 B、在第一次检索的结果中进行检索

12.直接输入检索词进行单条件检索,而不进行检索条件之间的逻辑 匹配,称为(C。

A、标准检索 B、直接检索 C、简单检索 D、完全检索 13.某刊封面上有 V ol.15,请问 V ol.是指该本期刊的?(A A 卷号 B 期号 C 年号

14.我馆图书使用的分类号取自 ?(A A 中国图书馆分类法

B 中国科学院图书馆图书分类法 C 杜威十进分类法

15.中国知网中《中国学术期刊网络出版总库》没有提供的检索途径 是(B A、学科、专业 B、分类号、叙词 C、刊名、篇名 D、作者、单位 16.检索工具中在文献来源项的著录中,常常将期刊名称按一定的缩 写规则进行缩写, JOURNAL 一般缩写是(A A、J B、B C、M D、R 17.利用文献末尾所附参考文献进行检索的方法是(C A、倒查法 B、顺查法 C、引文追溯法 D、抽查法 18.要查找李平老师所发表的文章,首选途径为(A A、著者途径 B、分类途径 C、主题途径 D、刊名途径 19.利用选定的检索工具由近及远地逐年查找,直到查到所需文献为 止的检索方法是(A A、倒查法 B、顺查法 C、追溯法 D、抽查法

20.大学生或研究生为取得学位资格而提交的学术 研究论文称为(C。A、学术报告 B、学术论文 C、学位论文 D、教学论文 21.信息检索根据检索对象不同可分为(C

A、二次检索、高级检索 B、分类检索、主题检索 C、数据检索、事实检索、文献检索 D、计算机检索

22.下载并阅读超星数字图书馆中的电子图书,需安装(A A、超星阅读器 B、PDF 阅读器 C、CAJ 浏览器

23.读秀中文学术搜索中未进行全文购买的图书,可以通过原文传递 获得,一次最多可以传递(C 页的图书内容。

A、20 B、30 C、50 D、100 24.我馆购买的数据库中,除了(A 主要是文摘型数据库,其他都 是全文型数据库? A、Ovid B、Nature C、ACS D、PNAS 25.ACS电子期刊全文数据库是(B 相关学科的专业数据库? A、物理 B、化学 C、生物 D、农学

多选

1.在中国知网 Caj 浏览器为读者主要提供了那些功能(ABCD A、阅读 B、文本拷贝 C、图像剪切 D、文字识别 2.万方数据资源包括以下(ABCD 数据库。

A、学位论文 B、会议论文 C、期刊 D、科技信息

3.在我校北校区中心馆借出的图书能够通过(ABCD 途径进行续 借? A、登录并利用“我的图书馆”的续借功能 B、移动登录并利用“超星移动图书馆”的续借功能 C、自助借还机的续借服务

D、实地到中心馆服务台请值班老师进行续借 4.文献检索途径 :(ABCD A、分类途径、B、主题途径 C、著者途径 D、索引途径 5.我校购买的外语学习数据库有(AC A、新东方多媒体学习库 B、Netlibrary C、iLearning 外语自主学习资源库 D、美星外文图书

6.山东农业大学图书馆书目检索系统有哪几种检索方式(ABC A、简单检索 B、全文检索 C、多字段检索 D、间接检索

7.通过我馆主页上的书目检索系统检索到目标图书, 馆藏地为(A B 的可以进行图书定位。

A、北校第一社会科学借阅室 B、北校第一自然科学借阅室 C、南校社会科学书库 D、东校区综合书库 8.我校购买的外文电子图书数据库有(BD A、Science Direct B、Netlibrary C、ProQuest D、美星外文图书

9.我校图书馆的书目检索系统能够查到(AC 的信息? A、纸质图书 B、电子图书 C、纸质期刊 D、电子期刊

10.中国知网提供的 E-Learning 数字化学习与研究平台有(ABCD 功能:

A、一站式阅读和管理平台 B、记录数字笔记、实现知识管理 C、文献检索和下载、深入研读 D、写作和排版、在线投稿

判断

1.我校图书馆的馆藏图书分为纸质图书和电子图书,可分别登录我 校图书馆主页的书目检索系统和图书电子数据库查找。(√

2.数据库的使用过程包括检索过程和检索结果的处理过程。(√

3.中国知网的学术期刊网络出版总库是目前世界上最大的、连续动 态更新的中国学术期刊全文数据库,内容覆盖自然科学、工程技术、农业、哲学、医学、人文社会科学等各个领域。(√

4.登录“我的图书馆” ,在“修改信息”中留下个人的“电子邮箱” 后,能够接收图书馆发送的还书提醒等邮件。(√

5.登录“我的图书馆” ,点击所借图书后面的“续借”按钮可实现续 借。(√ 6.查全率和查准率的最高点不可能同时出现。(√ 7.在我馆所借图书能够续借 1次。(√

8.远程访问到的中国知网(CNKI 公司端服务器的网络数据的更新 情况是日更新。(√

9.登录“我的图书馆”后,点击“读者荐购” ,应该优先选择“详细 征订目录”进行荐购。(√

10.当数据库提供的“简单检索”不能满足检索需求时,可利用“高 级检索”功能进行检索。(√

11.某同学只想在核心期刊中检索查询有关“博弈论”的全部文献, 在中国知网全文数据库中, 他是没有办法检索出哪些文献来自核心期

刊的。(×

12.中国知网(CNKI 提供引文检索服务。(√

13.文献检索的查全率和查准率之间存在相反的相互依赖关系,即提 高查全率会降低查准率,反之亦然。(√

14.在中国知网(CNKI 中检索文献时能查找文章的被引用次数和 被下载频次。(√

15.在 ScienceDirect 数据库中能够按字母顺序和学科分类进行出版物 的浏览。(√

填空

1.想要下载使用图书馆网站上随书光盘(非书资料管理系统 ,需要安 装 答:网碟虚拟光驱 ProG 软件 2.我馆针对本科生和研究生开设

授课和上机实习相结合的方式, 主要教授文献检索知识及数据库使用 方法。答案:文献检索

3.读秀数据库的文献传递是通过 将文献资料发送给读者 的? 答案:电子邮箱

4.列举三个我馆购买的中文电子期刊数据库

答案:中国知网、万方数据、维普(中国科技期刊全文数据库 5.我馆购买的中文电子图书数据库有

答案:超星数字图书馆,超星移动图书馆、读秀中文学术搜索

6.我馆订购了

级五年真题精讲课程、大学英语六级精讲课程、2010考研精品课程、国内考试套卷及真题套装等内容。

答案:新东方多媒体学习库

7.图书馆能够提供馆藏图书附赠光盘的统一管理、发布、检索等功能 的系统是。

答案:非书资料管理系统(随书光盘 8.我馆购买的 文献传递两大功能? 答案:读秀中文学术搜索,超星移动图书馆

9.图书馆每年会开展入馆教育、、、、预约培训等服务来提高学生对电子资源的认 识。

答案:“ 每周一讲 ” 培训、文献检索课、数字资源联合咨询服务 10.中国知网数据库检索功能包括、索等。

答案:简单检索、高级检索。11.中国知网下载的全文可以用 器进行浏览。答案:PDF 和 CAJ 12.列举我校三个外文电子期刊数据库:

答案:Science direct、springer、proquest、wiley Blackwel ACS、Cell Press、EBSCO、Nature、PNAS、Science Online、Wiley、等 13.ScienceDirect是我校引进的全学科全外文数据库之一 , 我校可以 下载 年至今的全文数据。

答:1995 14.图书馆主页上书目检索系统分类浏览是根据 答:《中国图书馆图书分类法》

15.图书馆主页上的电子文献资源,除了购买数据库外,还有自建数 据库、数据库和一些免费文献资源。

答:试用 简答

1.从图书馆主页上如何查询图书馆的新到图书? 答案:通过图书馆主页, “服务”模块下的“新书通报”。或者点击图 书馆主页右侧“我的图书馆”按钮,再点击“新书通报”。

2.除了到馆请值班老师续借或利用自助借还机(北校中心馆实现续 借外,还可以通过哪些途径进行图书的“网上续借”?

答:登录图书馆主页上“我的图书馆”或登录“超星移动图书馆” 3.我的图书馆的初始用户名和密码是什么? 答:用户名和初始密码都是学号

4.ScienceDirect 数据库中用作者名检索时 authors 和 specific author检 索的区别?

答:authors :检索词可能出现在两个作者名中, specific author:检索 词必须出现在同一作者名中

5.在中国知网数据库中,检索语言“与” , “或”和“非”分别表示什 么意思? 答:与:中国知网中为“并且” ,是默认算符,要求多个检索词同时 出现在检索结果中;或:中国知网中为“或者” ,检索词中的任意一 个或多个出现在检索结果中;非:中国知网中为“不含” ,其后面所 跟的词不出现在检索结果中。

6.外文数据库作者检索时,输入作者名时是姓在前还是名在前? 答:名在前(姓在后

7.图书馆电子数据库中有的文献不能下载是什么原因? 答:①没在校园网 IP 内上网进行下载;②每个数据库平台上有很多子库, 我校可能只购买了数据库当中的读 者利用率较高的一部分子库, 比如我校没有购买 science direct数据库 中的图书子数据库;③较早的文献没有被电子化,电子数据库中检索不到,比如 science direct 电子数据库只收录了 1995年之后的期刊文献全文, 所以只能下 载 1995年之后的期刊全文。

8.想查网络上查专利,可以从哪儿查询? 答:以下几种方式供选择:

一、国家知识产权局网站;

二、万方数 据库的专利资源;

三、读秀数据库,提供专利的免费原文传递服务。9.目前,在我校图书馆的数据库中,哪两个数据库能够检索并直接下 载到硕博士论文? 答:中国知网、万方数据。

10.目前,我校购买的哪些数据库能够实现不受校园网 IP 的限制,随 时随地的访问?

答:①新东方多媒体学习库:在校园网 IP 内打开新东方多媒体学习库首页,点击左上角注册按钮,注册个人账号(已有个人账号者可直 接登录。注册个人账号后,可以用个人账号实现在校园网外进行 登录学习(2014年 3月 10日之前注册的用户,请在用户名前加前缀 “klb-" 再进行登录操作。

②超星移动图书馆:利用“我的图书馆”的账号和密码进行登录,在 手机和平板等移动设备上实现移动访问。

5.信息检索考试题及答案 篇五

0、文献及其要素

“文献”是泛指“有历史价值或参考价值的图书资料。”

要素:

1、构成文献内核的信息、知识、数据、事实

2、载体信息、知识、数据、事实的物质载体。

3、记录信息、知识、数据、事实的符号系统。

1、专利文献

专利文献是实行专利的国家、地区及国际专利组织在批审专利过程中产生的官方文件及出版物,包括专利说明书、专利权利要求书、专利公报、专利分类表、专利检索工具等。

2、三大检索系统 三大检索系统是:SCI(《科学引文索引》,英文全称为Science Citation Index)是美国科学

情报研究所(Institute for Scientific Information,简称ISI)出版的一部世界著名的期刊文献检索工具,其出版形式包括印刷版期刊和光盘版及联机数据库,现在还发行了互联网上Web版数据库。

EI是美国《工程索引》(TheEngineeringIndex)的简称。EI创刊于1884年,由美国工程情报公司(EngineeringInformationCo.)出版发行。EI是工程技术领域内的一部综合性检索工具,报道内容包括:电类、自动控制类、动力、机械、仪表、材料科学、农业、生物工程、数理、医学、化工、食品、计算机、能源、地质、环境等学科。ISTP是IndextoScientific&TechnicalProceedings的缩写,是美国科学情报研究所的网络数据库WebofScienceProceedings中两个数据库(ISTP和ISSHP)之一。专门收录世界各种重要的自然科学及技术方面的会议,包括一般性会议、座谈会、研究会、讨论会、发表会等的会议文献,涉及学科基本与SCI相同。

3、二次文献

二次文献又称二级次文献,它是文献检索工具,能比较全面、系统地反映某个学科、专业或专题在一定时空范围内的文献线索,是积累、报道和检索文献资料的有效手段.4、受控语言

受控语言是一种规范化的人工语言,包括具有较强族性检索功能的分类语言和具有较强特性检索功能的主题语言。

5、信息素质:是指一个人的信息需求、信息意识、信息知识、信息道德、信息能力方面的基本素质。

6、Calis:calis是中国高等教育文献保障系统的简称,是经国务院批准的我国高等教育公共服务体系之一。它以系统化、数字化的学术信息资源为基础,以先进的数字图书馆技术为手段,建立包括文献获取环境、参考咨询环境、教学辅助环境、科研环境、培训环境和个性化服务环境在内的六大数字服务环境,为高等院校教学、科研和重点学科建设提供高效率、全方位的文献信息保障与服务,成为中国经济和社会发展的重要基础设施。

7、引文追溯法:追溯法是指不利用一般的检索工具,而是利用已经掌握的文献末尾所列的参考文献,进行逐一地追溯查

找“引文”的一种最简便的扩大情报来源的方法。它还可以从查到的“引文”中再追溯查找“引文”,像滚雪球一样,依据文献间的引用关系,获得越来越多的内容相关文献。

8、同引文献:与本文有相同参考文献的文献,与本文有共同研究背景或依据的文献。

9、搜索引擎:搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组

织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

10、学科导航

学科导航是按学科门类将学科信息、学术资源等集中在一起,以实现资源的规范搜集、分类、组织和序化整理,并能对导航信息进行多途径内容揭示,方便用户按学科查找相关学科信息和学术资源的系统工具。

11、知识产权

知识产权是指对智力劳动成果依法所享有的占有、使用、处分和收益的权利。知识产权是一种无形财产,它与房屋、汽车等有形财产一样,都受到国家法律的保护,都具有价值和使用价值。有些重大专利、驰名商标或作品的价值也远远高于房屋、汽车等有形财产。

12、IPC 国际专利分类法是国际上通用的专利文献分类法。用国际专利分类法分类专利文献(说明书)而得到的分类

号,称为国际专利分类号,通常缩写为IPC号。IPC采用了功能和应用相结合,以功能性为主、应用性为辅的分类原则。采用等级的形式,将技术内容注明:部——分部——大类——小类——大组——小组,逐级分类形成完整的分类体系。

13、NSTL NSTL是国家科技图书文献中心的简称,它是根据国务院领导的批示于2000年6月12日组建的一个虚

拟的科技文献信息服务机构,成员单位包括中国科学院文献情报中心、工程技术图书馆(中国科学技术信息研究所、机械工业信息研究院、冶金工业信息标准研究院、中国化工信息中心)、中国农业科学院图书馆、中国医学科学院图书馆。网上共建单位包括中国标准化研究院和中国计量科学研究院。中心设办公室,负责科技文献信息资源共建共享工作的组织、协调与管理。

14、百科全书百科全书是全面系统的介绍文化科学知识,收集各种专门名词、术语,按词典形式编排,解说详细的大型参考

工具书。它汇总了各学科或某一学科的知识,提供人类有关知识领域的基本事实、基本概念和基本理论。百科全书由众多专家撰稿、编审,故有较高的权威性。

二、选择题

1、按文献出版形式分,特种文献有:

答案:特种文献有:科技报告、专利文献、标准文献、会议文献、学位论文、政府出版物、产品资料、其他资料(如档案资料、地图、乐谱等零散文献)

2、文献的时序形成划分,分为(d、f、g、b)

A、灰色文献B、三次文献C、专利文献D、零次文献E、标准文献F、二次文献G、一次文献

3、二次文献包括(C、B)

A 年鉴B 手册C 百科全书D 辞书

书目、文摘、题录、索引、论文集、参考书中的百科全书、专科全书、手册、大全、字典、词典、表格、图谱、数据等;电子形式有二次文献数据库、搜索引擎、信息门户 ;简介、、检索工具书、网上检索引擎 C、B6、三大检索系统分为:

SCI(《科学引文索引》、EI《工程索引》、ISTP数据库

7、连续出版物类型(C.科技期刊)

6.文献信息检索与论文写作考试题 篇六

(100分)

一、多项选择题(每题2分,共20分)

1、二次文献主要包括()等。

A、手册 B、年鉴 C、目录

D、题录

2、针对不同时间要求的文献应使用不同的文献类型,就最新的文献信息而言,例如近一两个月的文献信息,应该使用()。

A、图书 B、期刊或报纸 C、专利 D、互联网

3、在计算机检索中,同一概念的同义词扩展方法有()等。A、学名或俗名 B、简称和全称 C、上位和下位 D、术语和代码

4、通过百度查得的结果过多,可通过()方法,优化检索结果。

A、词组检索 B、字段限定 C、增加同义词 D、使用优先算符

5、下列选项中是目录式搜索引擎的是()

A、Yahoo B、Altavista C、Google D、新浪

6、对分散的一次文献进行筛选、压缩并且组织编排后形成的进一步加工出版物是()

A、学位论文 B、文学作品 C、科研报告 D、书目

7、以生产和科研成果为依据而创作的原始文献()A、零次文献 B、二次文献 C、三次维文献 D、一次文献

8、下列不属于二次文献的是()

A、文摘 B、手册 C、索引 D、书目

9、论文撰写着重培养哪些能力?()A、检索与阅读中外文献资料的能力

B、独立思考、认真钻研,对方案进行论证、分析与比较的能力

C、调查研究、综合概括的能力 D、自主创新能力

10、以下哪一项不是论文的基本要求?()A、立论客观,具有独创性。B、论据翔实,具有确证性。C、语言准确,具有可读性。D、装裱美观,具有可视性。E、海量素材,具有参考性。

二、判断题(在括号内判断对或者错,如果判为错误要指出那个地方有错误,每题3分,共15分)

1、百度(http:///)是全球最大中文视频内容集成网站。提供网页快照、网页预览、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索、百度搜

霸、搜索援助中心。

判断:错!百度——http:///。全球最大中文搜索引擎。提供网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索、百度搜霸、搜索援助中心。

2、输入一个单词(或关键词),提交搜索引擎查询,这是搜索引擎最基本的搜索方式。判断: 对!

3、文献信息检索的最终目的之一是撰写学术论文,论文的写作与发表过程有助于作者在文献中找到自己所需要的东西。判断: 对!

4、文献信息检索的门槛可以说大大地降低了,我们就可以不用再阅读和使用各类书籍、报刊等经典文献了。判断:

错!我们仍要阅读各类书籍和报刊。

5、优秀论文的评定标准是:能综合运用所学理论知识与专业有关的知识、技能,有一定的新意和深度,观点正确,中心突出,论据充分,资料极大丰富且原文大段引用,数据可

靠,逻辑清楚,语言生动、准确、流畅书写清楚,对实际工作和学术研究有一定现实意义。判断: 对!

三、简答题(任选5题,每题4分,共20分)

2、什么是信息检索?其类型是什么?

文献信息检索根据检索目标和检出文献信息形式的不同,可分为以下三种:

(1)文献检索:是以文献为检索目标,利用题录、索引、文摘等有关文献检索工具,从存贮的文献集合中查找出所需特定文献的过程。

(2)数据检索:是以数据、图表、参数、公式等为检索,利用有关参考工具书进行检索的过程。

(3)事实检索:是以特定的事实为检索目标,通过文献档案或参考工具书直接或经分析综合得出事实或知识性的答案.3、按照文献的载体不同可分为哪几种文献?举例说明(每项举两例)。

按文献载体分类,文献可以归为4类:

(1)印刷型文献——纸质图书、报纸等(2)缩微型文献——缩微胶片、胶卷等(3)声像型文献——唱片、录音录像带等

(4)电子型文献——电子图书、电子期刊、联机数据库、网络数据库、光盘数据库等,这类数据与传统的事物文献的形态不同,也叫虚拟文件。

4、按文献的不同性质、用途和不同的加工程度,可分为哪几种?举例说明(每项举三例)

按照不同的用途和特性,文献可以有不同的分类。

1、按自身的用途和编辑出版特点,文献分为10种: 图书、期刊、科技报告、会议文献、政府出版物、专利文献、标准文献、资料素材、学位论文、专业文档。当然,随着现代传媒技术和网络技术的发展,文献的用途越来越广,按编辑特点的类型应该超出了这10种的范围。

5、简述信息检索的意义。

信息检索作为人类信息活动的一种形式,早已有之。作为一门学科,其历史可追溯到19世纪下半时。在20世纪中期以前,信息存储和传播主要以纸质文献为载体。信息检索活动也围绕着文献的获取和控制展开,因此,信息检索研究关注的是如何检索利用文献中记载的信息,文献检索一度成为信息检索的同义词。20世纪50年代开始了计算机应用时代,信息检索得到迅速发展并使用情报检索一词。由于汉语中“信息”较“情报”的含义更为广泛,加上英文imformation可以理解为“信息”或“情报”,随着通信技术与计算机技术的紧密结合,信息载体类型的多样化及传播手段的改造。情报检

索和文献检索逐渐归入信息检索这一具兼容性的概念。在信息爆炸的时代,纷繁芜杂的信息扑面而来。据估计,现在全世界每年出版图书在50万件以上,期刊10万种以上,专利约50万件,科技报告约90万件,会议文献10多万篇,产品样本50多万件,每年发表的科技论文近500万篇,以光盘,网络为载体的现代数字化,电子化文献急增,势不可挡,社会信息总量每年都呈指数式增长,这种现象被称为“信息爆炸”或“信息过剩”。

信息检索方法是人们打开知识信息宝库的金钥匙。一个人,不管他多么有学识,多么具有学习,研究和创造能力,他都必须在充分共享别人的信息资源,大量地吸收,借鉴前人的研究成果的基础上才能有所发明,有所创造。

8、搜索引擎的类型是什么?

搜索引擎的种类很多,各种搜索引擎的概念界定尚不清晰,大多可互称、通用。事实上,各种搜索引擎既有共同特点,又有明显差异。按照信息搜索方法和服务提供的方式的不同,主要可分为:(1)检索式搜索引擎

(2)目录分类式(网站级)搜索引擎(3)元搜索引擎(Meta-search engine)(4)智能搜索引擎

四、论述题(任选3题,每题15分,共45分,每题回答字

数在500字至1000字之间,字数过多或过少都会酌情扣分)

1、结合自己所学的专业谈谈怎样利用新兴信息库。新型信息库最主要的就是图书馆,而图书馆是每个大学都拥有的资源。作为一名文科生,我们应当向复旦大学校长蔡尚思学习,他认为,一、进了图书馆,不能见书不见人。这是一个非常重要而又往往被人们忽视的问题。有的读者一踏进图书馆的大门,就摆出一副专家的架势,目中无人,不肯下问。殊不知“术业有专攻”,图书馆也是风云际会、藏龙卧虎之深山大海,其中有许多比我们更厉害的“专家”。像我曾经就在学校图书馆认识了一位美术学院学书法的师姐,虽然整体文化课成绩不高,但有很高的国学造诣,因为他们学书法总得临摹名帖什么的,自己就得看懂才能深刻理解内涵,这一点是我万万没想到的。

二、要认真学会掌握文献信息技术检索和利用的技巧。这一点可以请教图书馆老师或者是在图书馆勤工俭学的同学们,他们在各方面给你以很多帮助,使你收到事半功倍之效。尤其是在浩大的图书馆,要想迅速准确查找到自己需要的图书资料很困难,如果能够得到图书馆专业工作人员的帮助,可以节约大量宝贵的时间用于读书和研究工作。

三、要学点目录学。目录索引是读书治学的门径,是打开图书馆(知识宝库)的钥匙,学海航行的灯塔、舵手、和指南针。这为我们自己以后的阅读等生活也提供便利。

四、正确处理专攻一门与博览群书的辨证关系。成为专

博相济型的通才。只是无穷尽的,那我们这个专业来说,不是很具有艺术实践性但也需要我们懂得艺术的具体实践方法,这样我们才能更好的进行艺术理论研究学习。

五、能入能出,书而不呆。拜书为师,尚友古人,结交当代学者,乃是学问家必由之路。但是不应该盲目迷信、偏信,应该读书能入能出,弃其糟粕,取其精华为我所用,自成一家言。

六、学无止境,永远向前。书山有路勤为径。

七、乐从苦中来。学海无涯苦、乐作舟。

综上,即是我结合所学专业谈的怎样利用新型信息库。

3、如何选择搜索引擎,以自己的专业应用实践为例,论述怎样使用?

就我的专业而言,使用搜索引擎更多的是在写文章或进行相关艺术实践活动查询时用到。具体使用搜索引擎的方法有:

1、使用逻辑词辅助查找

2、使用双引号进行精确查找

3、有针对性地选择搜索引擎

4、使用加减号限定查找

5、细化查询

6、根据要求选择查询方法

7、注意利用有效细节查询

8、利用选项界定查询

同时,想要更快的搜索,也有技巧:

1、搜索词组

如果只给出一个单词进行搜索,经常会出现数以千计甚至以百万计的匹配网页。然而如果再加上一个单词,那么搜索结果会更加切题。在搜索时,给出两个关键词,并将两个词用AND(与逻辑)结合起来,或者在每个词前面加上加号“+”,这种与逻辑技术大大地缩小了搜索结果的范围,从而加快了搜索。幸运的是,所有主要的搜索引擎都使用同样的语法。一个带引号的词组意味着只有完全匹配该词组(包括空格)的网页才是要搜索的网页。把这几种符号结合起来使用,能大大提高搜索效率。

2、选择词组

一般说来在网页搜索引擎中,用词组搜索来缩小范围从而找到搜索结果是最好的办法。但是,运用词组搜索涉及到如何使用一个词组来表达某一具体问题。有时简单地输入一个问题作为词组就能奏效,然而简单明了地提问方法只对一部分搜索奏效。选择合适的词组对提高搜索效率是很重要的,实在找不出时可以试试下面的方法。

3、查找信息源

有时词组搜索太精确或者一个词组无法准确表达所需信息。

那么可以直接到信息源,这种技术“简单得似乎不值一提”,但却很有效。根本不用搜索引擎,直接到提供某种信息组织的站点去。很多时候我们可以用公式“”去猜测某一组织的特点。从而得到所要搜索的信息的主要词组。

5、论文好坏的标准是什么,找一篇好论文说明它为什么好。判断一篇论文好坏的标准,是看这篇论文是否符合论文的基本要求,即是否具有:

(1)立论要客观,要有独创性。一般要求参考文献最好是近期最新文献。

(2)论据翔实,具有确证性。一般要求参考文献包含多语种/类型文献,最好是权威期刊中的论文.(3)论证严密,富有逻辑性。要求分析比较透彻,具有一定的逻辑体系。

(4)体例格式明确,符合一定的格式规范。(5)语言准确,具有可读性。

例如,这篇《西方节日文化对我国当代大学生的消极影响及对策分析》,就完全符合一篇优秀论文的内容格式等各个方面。

西方节日文化对我国当代大学生的消极影响及对策分析

摘要:本文针对西方节日文化给大学生带来的消极影响,提出做好我国当代大学生教育和引导的做法及设想,以使大学生走出对西方节日文化认识的误区,更好地结合弘扬传统节日文化和吸收西方节日文化中的精华,创建和谐校园。

摘要简明,引出本文的主要内容,符合格式要求,同时也是现在比较值得关注的和发人深省的问题。

关键字:节日文化;西方节日;学校教育;传统文化

正文:

西方节日在我国的盛行是一种独特的文化现象。随着对外开放的深入,西方节日文化不可避免涌入我国。在这种背景下,西方节日文化给我国当今的传统节日文化、价值观念和生活方式造成了前所未有的影响。特别是在中国当代大学生中影响更为广泛。

一、节日文化概述

节日文化是一种历史文化,是一个国家或一个民族在漫长的历史过程中形成和发展的民族文化,也是一种民族风俗和民族习惯。有深刻的寓意,有的是为了纪念某一重要历史人物,或纪念某一重要历史事件,或是庆祝某一时节的到来等等。节日是文化系统的重要组成部分,作为文化现象的节日有着特定的含义:节日是一年当中由种种传承路线形成的固定的或者不完全固定的活动时间,以开展有特定主题的约定俗成的社会活动日。节日根植于文化系统之中,以特定的仪式传播文化,对文化系统的运行起着不替代的作用。每个国家、民族都有自己的传统节日,它不仅是展示民族社会生活状况的窗口,同时也是“人类传递并扩展生存知识和生存态度”的一种手段,“是象征和意义的体系” ①。节日是民族历史和文明的产物和象征,它以独特的内涵融汇成民族之魂和民族精神,并化为集体意识渗入民族血液之中,潜移默化的规范着人们的心理和行为。

二、西方节日文化

西方节日作为西方文化的一个重要组成部分,很大程度的体现了西方国家、民族的历史和文化渊源,而且每一个民族的节日文化和风俗习惯又形成了各自不同的特点。一般而言,西方国家和民族的传统节日具有生产性、生活性和宗教

性三大特征,但是由于社会经济形态产生了巨大的历史变迁,前两种类型的传统文化日益淡化,或逐渐消亡,或让位于宗教性节日;此外,由于西方文化的多元性,使得传统的生产性节日仅仅具有地域性特征。敬奉土地和祈求丰收是古代从事农业生产的各民族的共同特点和传统习俗,在农业生产力尚不发达的自然经济社会时代尤其如此。在进入工业社会后的西方国家,失去了特定经济生存形态基础的敬土祈年习俗逐渐为人们所淡忘消亡,仅仅遗存于极少数一些仍然保留着传统生产与生活方式的地区。

与生产性和生活性节日的衰微相对照,西方国家节日的宗教性特征在现实生活中得到了充分的体现。

三、西方节日文化对当代中国大学生的消极影响(一)不利于大学生树立正确的消费观

现代大学生消费逐渐向多元化方向发展,其中节日消费是大学生校园消费的一个重要组成部分。节日消费主要是指大学生为过节而支出的费用,一般包括节日期间的餐饮费、活动费以及互赠礼物的费用。在这些热衷于过西方节日的学生中,往往要用一笔钱和朋友聚餐,购置节日物品,参加节日活动和互赠礼物。其中餐饮费和购置礼品的费用加起来花费不少,对于几乎没有经济收入的大学生来说无疑是一笔额外的负担。大学生在过西方节日时的消费虚荣心理以及由此导致的高消费行为的确在校园中存在。虽然消费观是由个人的思想品德,兴趣爱好以及消费常识等因素综合决定,但是西方节日客观上为大学生的高消费行为提供了一个平台,在一定程度上影响着他们的消费观。

(二)不利于大学生树立正确的文化价值观

西方节日在校园的流行的确给大学生节日观带来了一定的冲击。西方节日有其深刻的文化内涵和生存的土壤。西方节日受历史宗教文化的影响,大都带有明显的宗教色彩,如万圣节、感恩节、圣诞节等。现在很多人在不信仰基督教乃至对其一无所知的情况下,浑然不觉地加整理入到狂欢行列。这是无形中把一种外来文化与异质宗教人为种植异国他

乡,好比无源之水。中国传统节日文化是民族大众认同、沟通、交流、凝聚文化传承的重要方式,也是民族大众共同娱乐、游戏的重要方式。每个节日都有历史根源,通过神话故事、民间传说、历史人文、民族色彩来展示民族的人情世故、忠奸善恶、民族伦理、民族风格及强烈的民族意识。青年学生在吸收外来文化养分的同时,更应该重视传统文化的继承与发扬。

(三)大学生过度的迷恋西方节日,将影响中国的文化安全

“现在的国际竞争和国家较量不是攻城掠地,而在于信息和文化的竞争和争夺”。大学生盛行过西方节日,在传统文化上陷入集体无意识是中国传统节日文化沉沦的表现。对于这种现象如果任其发展,将会危及我国的文化安全。我们如果没有了包括春节在内的节日文化,就意味着在文化发展中被淘汰。西方国家,一向认为自己的政治经济文化等模式是世界上最完美的,在与中国进行政治、经济交往的同时,也在极力地吹嘘推进他们的文化。“在美国的全球安全战略中,已赫然将维护和推动其文化价值观的全球性统治作为国家安全战略的三大支柱之一”②。节日作为一个民族文化的重要体现部分,必然会成为西方文化冲击的首要目标。我国大学生应该珍惜自己的文化传统,在现代化的建设中,不要被别人“化”掉。西方文明有它的魅力,我们当然可以接受,但是,我们更应该坚守我们的文化传统和文化尊严。

四、西方节日文化对大学生消极影响的对策分析

西方节日在我国社会尤其是大学生群体中日趋流行已是不争的事实。对于西方节日文化给大学生带来的消极影响方面,我们应该端正态度,才能找到行之有效的措施。(一)大学及教育工作者应该充分发挥作用

1、首先,教育者应引导学生用正确的方法分析问题对待西方节日的正确态度,应该是坚持鲁迅先生的“拿来主义”原则:运用脑髓,放出眼光,取其精华,弃其糟粕,自己来拿。西方节日受历史宗教文化的影响,大都带有明显的宗教色彩,如万圣节、感恩节、圣诞节等。尽管宗教大都是劝人向

善的,但毕竟在我们这个国度里崇尚宗教信仰自由,因此应该扬长避短。对于那些带有一定的西方生活情趣的节日如情人节、愚人节等,则完全可以随兴所至,“悉听尊便”,毕竟它可以给我们生活带来一定的生活情趣,注入一丝活力。而对于那些既带有西方浓郁的浪漫情调又符合我们中华民族尊老爱幼传统美德的节目如母亲节、父亲节等,则可以大力提倡,努力推广,以不断提高民族素质,加快社会文明进程。

2、利用学校教育的优势,大力宣传中国传统节日所蕴涵的民族精神与文化,促进大学生的文化自觉运用传统节日弘扬民族文化优秀传统,是发展社会主义先进文化的必然要求,是构建社会主义和谐社会的必然要求,是弘扬和培育民族精神的必然要求,是维护国家文化安全的必然要求。要运用传统节日弘扬民族文化优秀传统,首先要引导大学生了解节日及节日文化的深刻背景。其次,弘扬节日文化,要引导大学生过个有意义的传统节日。再次,学校要把传统节日教育纳入学校日常科研活动之中,深入开展传统节日的研究和保护工作。

3、学校教育要通过创新传统节日文化的内容和形式,使之更加合乎大学生的群体特征,庆祝活动的形式应当多种多样,避免单一化,样本化。除晚会外,还可以采取知识竞赛,义务宣传,影片欣赏,热点座谈等形式,对重点宣传对象,应该深挖掘,给予大范围,高密度的曝光率。可以把庆祝活动分解细化。在大型活动的同时应该以学院、专业、班级甚至寝室为单位举行一系列喜闻乐见的活动,可以把工作落实到实处,有利于调动同学参与的积极性。可以组织一些青年志愿者活动,走出校园,走向社会,要与社会融为一体,让学生在亲身实践中提高认识,陶冶情操。

4、要引导大学生树立正确的消费观。节日消费的火爆离不开大学生的“支援”。学校教育要引导大学生节俭好学,慎过西方节日,树立正确的消费观。要从大学生的修养出发,把消费观教育视为大学生修养的重要内容。学校要把消费观念纳入校风教育与思想政治理论课教学的范畴,大力倡导健康的消费观念。高校要把校园文化建设作为对大学生消费观念

培养的重要平台。高校文化建设应该把握育人第一的原则,重视大学生在为人处世方面的每个环节的教育,重视培养和塑造大学生健康的消费心理和行为。把大学生良好消费心理和行为的培养作为校园文化建设的重要组成部分。(二)政府要加强传统节日文化遗产的保护和创新。

当前中国当代大学生热衷西方节日,冷淡中国传统节日,与政府一段时间以来忽视传统节日文化的保护与创新有很大关系。政府对传统节日文化忽视宣传、缺乏变革导致,传统节日的影响逐步萎缩,传统文化在外来文化的冲击之下对大学生的吸引力下降。近些年以来,传统节日在民族文化遗产中的特殊位置及其对弘扬优秀传统文化的重要性逐渐为社会所认识和重视。

1、政府要加强传统节日文化遗产的保护

保护传统文化遗产具有重要的意义。首先,传统节日的保护是对大学生情感需求的尊重和对其精神利益的维护。节日作为文化生存的节点,是大学生表达内心情感的重要时机,是他们精神的重要寄托方式。人们共同的理想和追求,不断通过节日习俗表达出来。这些理想和追求有丰收富裕、健康长寿、欢乐吉庆、平安和顺等。保护了传统节日文化,也就减少了大学生群体通过西方节日来寻求情感寄托的途径。其次,保护传统节日文化,能够增强大学生的凝聚力和爱国心。包括节日文化在内的民俗文化是民族文化的基础部分,是中华民族全体成员共享的文化。在同一个日子过同样的节日,使我们体会到属于同一个族群的文化认同感。当人们处于本土的文化环境中时,这种感觉还不明显。但是在异文化环境,一个族群同样的节日习俗就成为文化认同的显著标志。共同的节日习俗会使他们之间产生文化认同感,有利于把他们凝聚在一个具有和谐文化的社群之内。采取有效措施保护好传统节日文化,可使各地的大学生拥有更为和谐一致的文化空间。

2、以政府为主导,创新传统节日文化

在新的全球一体化日趋紧密的大背景下,中西文化碰撞产生某些文化趋同现象,这也是一个无法回避的现实。大学

生之所以热衷于西方节日,这同我们近年来对外较为广泛的文化开放与交流是分不开的,一些西方节日的侵入也是符合年轻人求变、求新的心理和思维的,但是西方节日盛行并不整理可怕,可怕的是传统节日的衰落。综观我们的一些传统节日,不难发现,很多都是农耕时代的产物,有着农耕时代的烙印,由于它存在的基础已经在逐步的弱化和解体,很难与当今的时代特征明显的联系起来。从某种程度上讲,它们是一个民族的历史记忆,而这种记忆太多,礼节太多,也就会使节日变得神圣而沉重,交得不受欢迎,给入一种麻烦的感觉,有时使过节变成一种受罪。所以我们需要用创新来变,嫁接一些西方节日的气氛,改掉一些传统习惯的陋习,这样才能真正的将传统节日文化延续下去。我们若能在西方节日的热闹中汲取和借鉴一些营养和经验,做一些有意义的探索和尝试是非常必要和及时的。

传统节日文化的传承与创新是一个系统工程,需要政府、学校和广大民众的共同参与。但应以政府为主导,应该充分发挥其文化管理与服务功能,提供节日文化资源,创造环境,积极引导大学生们建立正确的节日观和行为参与方式。

在时代变迁和多元文化交融的背景之下,西方节日文化对中国大学校园的冲击的确已经成为事实,有相当一部分大学生出于各种原因而对西方节日表现出较大的兴趣,大大超出了对待本国传统节日的热情。教育工作者要引导大学生更好的继承和创新我国传统节日文化和吸取西方节日文化中有益的部分。要使大学生树立起一种健康的节日文化观和消费观,使他们既能够理性的对待各种西方节日,又能够充分享受到西方节日给校园生活所带来的欢乐。

因为文章直接写的就是消极影响,所以文章从各个方面分析了能够导致的消极影响等问题,同时也给我们国家自身的节日文化提出好的意见和建议,能够发人深省,直接又含蓄。注释:

①〈日〉绫部恒雄.文化人类学的十五种理论[M].北京国际文化出版公司,1988年版第154页

②梅孜编译 美国国家安全战略报告汇编[M].时事出版社,1996年版

参考文献:

[1] <日>绫部恒雄.文化人类学的十五种理论[M].北京国际文化出版公司,1988年版

[2] 王嵘.中美传统节日文化差异比较[J].山西高等学校社会科学学报,2008,(7):26-27

[3] 陶柳清、陈淦添.当代大学生对西方节日的调查分析[J].科技创新导报,2009,(4):220-222

[4] 梅孜编译 美国国家安全战略报告汇编[M].时事出版社,1996年版

[5] 李朗.关于西方节日对大学生影响的调查分析--以清华大学为例[J].中国青年研究,2005,(5):60-63

[6] 徐子昂、孙蓉.漫谈西方外来节日的中国化改造--从年轻人热衷洋节谈起[J].当代青年研究,2009,(1):53-57 注释详细,尊重了知识产权。

7.网络信息检索的探讨 篇七

信息检索包括信息的存储和检索两个方面。其中存储是为了检索, 而检索又必须先进行存储。

信息的存储过程实际上是对信息进行整序的过程, 信息的检索过程则是将信息特征标识与检索提问标识进行匹配的过程, 也就是对大量的分散无序的信息依据一定的方法和规则, 进行收集、加工、组织、存储, 建成各种各样的检索系统, 通过使用统一的检索语言和名称规范, 将与用户所需的检索课题要求相匹配的内容从检索系统中检出。

信息检索的原理是“相符性比较”和“匹配运算”。即首先必须对广泛、大量、分散、无序的信息进行搜集、记录、组织、存储, 以建成各种检索系统 (如手工检索工具、计算机检索的数据库与搜索引擎) 。用户根据检索课题的需要, 将需求转变为系统所能识别的检索式, 再与检索系统中表征信息资源特征的标识进行逐一的相符性匹配与比较, 两者完全一致或部分一致时即为命中信息。

这就是信息检索的一般构成和原理, 其中的统一检索语言和名称规范是存储和检索人员所必须共同遵守的。

信息检索是获取科学知识的最佳捷径。掌握了信息检索的方法和技能, 就能够掌握获取文献的方法, 提高信息意识和信息观念, 最快捷、最有效地获取自己最需要的信息, 并利用这些信息顺利完成自己的工作任务。熟练地掌握文献检索的方法是缩短科研时间、提高工作效率的重要途径。科学研究是一种探索未知的活动, 信息检索可以使科学研究避免重复。

1 网络信息检索类型

以网络为平台的计算机检索被称为网络信息检索。与其他检索方式相比、网络信息检索的特点是:信息检索范围宽, 信息量大, 信息检索的时效性强, 但是处理的信息类型繁杂而载体形式多样。

根据网络的地域范围分类, 可分为局域网信息检索和万维网信息检索两种类型。

局域网中信息检索以传统的联机光盘检索系统为主, 指把单用户系统发展成多用户的局域网系统, 通过网络 (指局域网, 如图书馆网、校园网等) 连接多个用户终端, 用服务器管理多组光盘数据库及其检索系统。它可以连接到许多用户终端, 网上用户可以分时共享光盘数据库的信息。联机光盘检索系统由若干台微机、光盘驱动器、光盘服务器、光盘数据库、检索系统软件、管理系统软件等构成。

随着网络技术的发展, 具有全球性的分布结构、开放性的因特网为计算机检索提供了广阔的发展平台。这种检索方式可同时使用网上多个主机、甚于所有主机的某种资源而并不需要用户预先知道它们的具体地址。这就极大地拓宽了检索的空间和信息量, 包括各种文献信息资源及其指向的网络页面。其中这类信息检索技术也因技术不同分为:基于Web的数据库检索;基于Web的分类浏览方式和链接嵌套方式;基于Web的搜索引擎方式。

以上综合讨论两种检索类型的特点和功能, 现对它们在服务的主要方面进行比较, 见表1。Web版联机检索从信息量的存储和数据更新及通讯方式等方面具有更强的优势, 传统的联机数据库将更多的以Web版方式放到Internet网上。

2 搜索引擎技术

2.1 搜索引擎工作原理

搜索引擎具有对网络资源进行采集、标引并提供检索的功能, 其基本结构如图1所示。

数据采集模块:搜索、采集和标引网页。有人工采集和自动采集两种方式。人工采集由专门信息人员跟踪和选择有用的网页, 并按规范方式进行分类标引。自动采集则是通过软自动采集器来完成的。网页自动标引借鉴了文献标引过程中的这样一种观点:即文献的主要内容可以用一些关键句的集合来表达 (如摘要) ;关键句包含了最能反映文献主题的重要词汇;而词汇在文献中使用的次数, 即词频则反映了词汇的重要程度。基于这一观点, 网页自动标引是建立在词频统计基础之上的。目前几乎所有重要的搜索引擎都采用全文索引方式, 分析网页的所有词汇, 并依据词频、词汇在网页中出现的位置等确认词汇的权重, 由此来选择标引词。

数据组织模块:通过数据库管理系统来组织所采集的网页信息, 建立相应的索引数据库。索引数据库中的一条记录对应于一个网页, 记录的内容包括网页标题、关键词, 网页摘要及URL等信息。

数据检索模块:根据用户检索要求, 从索引数据库中检索出符合用户需要的网页。

此外, 还有一种被称为"页面搜索器"的检索工具, 工作原理类似于"Push"浏览器 (http://www.netmind.com) 。用户只要把自己感兴趣的页面地址输入“页面搜索器”中, 并提供自己的电子邮件地址, “页面搜索器”就会定期检索。一旦发现相关页面的地址, “页面搜索器”就会自动将结果送入用户邮件地址。搜索的文件类型可以包括“h t t p”, “F T P”, “Gopher”等。通过“页面搜索器”可以跟踪站点以及其内容的变化, 以便得到最新的信息。

2.2 评价搜索引擎解决的问题

1973年, Lancaster提出的对检索工具评价的涵盖范围、查全率、查准率、响应时间、用户方便性和输出格式6个方面的标准, 如今仍基本上适用于搜索引擎的性能评价。由于网络查询的多媒体表达和分布式体系结构等特点的变化, 对搜索引擎进行评价的角度、目的的不同, 评价指标也有不同程度的变化。

其中, 查全率与查准率 (又称召回率与精度) 这两个文献检索效率评价的传统指标, 仍然是搜索引擎检索效率评价的最主要指标。普遍表示为:查全率= (检索出的相关信息量/系统中的相关信息总量) ×100%;查准率= (检索出的相关信息量/检索出的信息总量) ×100%。前者是衡量检索系统和检索者检出相关信息的能力, 后者是衡量检索系统和检索者拒绝非相关信息的能力。两者合起来, 即表示准确率。

查全率与查准率之间存在着相反的相互依赖关系, 也就是说, 如果提高查全率, 那么就会降低其查准率, 反之亦然。实际上, 并不是每个用户都需要高查全率或高查准率。用户查找信息的目的各不相同, 对查全和查准的要求也不同, 有时, 寻找特定的事实并不关心一次检索中漏检了多少。查全率与查准率只是相对的概念, 正如有作者所称的“相对查全率、相对查准率”, 因此检索者可根据信息需求情况, 调整适当的查全和查准要求, 以达到检索的应有效果。

按照信息搜集方法和服务提供方式的不同, 搜索引擎系统可以分为三大类, 这三类系统根据不同的检索建立原理分别解决了不少信息检索的问题, 结合前面提到的6个标准总结其解决的问题:

(1) 目录式搜索引擎:以人工方式或半自动方式搜集信息, 由编辑员查看信息之后, 人工形成信息摘要, 并将信息置于事先确定的分类框架中。信息大多面向网站, 提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能, 所以信息准确、导航质量高, 缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。

(2) 机器人搜索引擎:由一个称为蜘蛛 (Spider) 的机器人程序以某种策略自动地在互联网中搜集和发现信息, 由索引器为搜集到的信息建立索引, 由检索器根据用户的查询输入检索索引库, 并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预, 缺点是返回信息过多, 有很多无关信息, 用户必须从结果中进行筛选。这类搜索引擎的代表是:Alta Vista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。

(3) 元搜索引擎:这类搜索引擎没有自己的数据, 而是将用户的查询请求同时向多个搜索引擎递交, 将返回的结果进行重复排除、重新排序等处理后, 作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全, 缺点是不能够充分使用所使用搜索引擎的功能, 用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。

2.3 搜索引擎方式的新问题

(1) 注意提高信息查询结果的精度, 提高检索的有效性

用户在搜索引擎上进行信息查询时, 并不十分关注返回结果的多少, 而是看结果是否和自己的需求吻合。对于一个查询, 传统的搜索引擎动辄返回几十万、几百万篇文档, 用户不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方法: (1) 通过各种方法获得用户没有在查询语句中表达出来的真正用途, 包括使用智能代理跟踪用户检索行为, 分析用户模型;使用相关度反馈机制, 使用户告诉搜索引擎哪些文档和自己的需求相关 (及其相关的程度) , 哪些不相关, 通过多次交互逐步求精。 (2) 用正文分类 (Text Categorization) 技术将结果分类, 使用可视化技术显示分类结构, 用户可以只浏览自己感兴趣的类别。 (3) 进行站点类聚或内容类聚, 减少信息的总量。

(2) 基于智能代理的信息过滤和个性化服务

信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型 (如Web知识、信息处理、与用户兴趣相关的信息资源、领域组织结构) 、用户模型 (如用户背景、兴趣、行为、风格) 知识进行信息搜集、索引、过滤 (包括兴趣过滤和不良信息过滤) , 并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力, 从而提供个性化的服务。智能代理可以在用户端进行, 也可以在服务器端运行。

(3) 采用分布式体系结构提高系统规模和性能

搜索引擎的实现可以采用集中式体系结构和分布式体系结构, 两种方法各有千秋。但当系统规模到达一定程度 (如网页数达到亿级) 时, 必然要采用某种分布式方法, 以提高系统性能。搜索引擎的各个组成部分, 除了用户接口之外, 都可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现, 以提高信息发现和更新速度;索引器可以将索引分布在不同的机器上, 以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索, 以提高检索的速度和性能。

(4) 重视交叉语言检索的研究和开发

交叉语言信息检索是指用户用母语提交查询, 搜索引擎在多种语言的数据库中进行信息检索, 返回能够回答用户问题的所有语言的文档。如果再加上机器翻译, 返回结果可以用母语显示。该技术目前还处于初步研究阶段, 主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天, 无疑具有很重要的意义。

3 结论

网络信息检索范围宽, 信息量大, 信息检索的时效性强, 但是处理的信息类型繁杂而载体形式多样, 所以搜索引擎的研究应符合时代要求, 发展智能化, 个性化和高效化, 这是亟待解决的问题。

参考文献

[1]赵玉玲, 滕飞.试论信息检索途径的多样性[J].重庆图情研究.2007.

[2]乔振林.试论网络环境下的信息检索和服务[J].成功教育.2007.

[3]张帆等.信息存储与检索[M].北京:高等教育出版社.2003.

8.互联网信息的检索技术 篇八

关键词 互联网 信息检索 技术

中图分类号:TP393 文献标识码:A

计算机技术的发展与完善,信息检索便成为了重要的桥梁。早在上世纪六十年代,美国海军机械试验中心使用IBM701型机,初步建成了计算机情报检索系统,这也预示着以计算机检索系统为代表的信息检索自动化时代的到来。单纯的手工检索和机械检索都或多或少显露出各自的缺点,因此,新型的信息检索方式应运而生。1965年,美国系统发展公司研制成功ORBIT联机情报检索软件,开启了联机情报检索系统阶段。与此同时,美国洛克公司研制成功了著名的Dialog检索系统。且随着20世纪70年代卫星通信技术、微型计算机以及数据库产生的同步发展,用户得以冲破时间和空间的障碍,实现了国际联机检索。联机检索是计算机、信息处理技术和现代通信技术三者的有机结合。随着互联网的迅速发展及超文本技术的出现,基于客户/服务器的检索软件的开发,实现了将原来的主机系统转移到服务器上,使客户/服务器联机检索模式开始取代以往的终端/主机结构,联机检索进入了一个崭新的时期。信息检索系统类型包括:参考数据库检索系统,它以二次文献数据库为主,提供文献的题录、文摘数据或事实数据。全文数据库检索系统是近年来随着数字化技术不断成熟而发展起来的,系统能提供文献的全文数据,包括图表、图像等多种形式的媒体。Internet搜索引擎主要提供网上资源的链接,某些搜索引擎也提供简单的网页介绍或检索词的上下文。

从信息检索方式来说,命令检索方式,指的是检索过程中,每一项检索提问,必须通过具体的命令来完成,这些检索命令通常需要用户熟记。这种方式虽然对于初级用户来说比较麻烦,需要记很多的命令,但是对熟悉系统的用户来说,命令方式有其步骤简单的优点,尤其是完成一些复杂的检索算法时,操作步骤简单。单检索方式实际上是将各种检索指令转化成菜单选项,系统的功能和检索指令通过菜单和子菜单的选项来实现,用户通过菜单一目了然,只需根据需要在菜单上选择某一项,或进行检索,或显示命令中的纪录等。菜单驱动的检索方式对初级用户是比较友好的,用户不需要培训就可以自行检索,很容易入门,但对于较复杂的检索算法,常常需要进入层层菜单才能完成。其次,命令与菜单相结合的方式既保留了指令检索的方式,又提供了菜单的某些直观的功能。而主题法和分类法在信息检索中的原理基本相同。信息储存是对文献进行收集、标引及著录,并加以有序化编排。

信息检索是从大量的信息中查找出用户所需的特定信息的过程,而实施检索的主要方法就是利用各种检索工具。在主题概念表达上分类语言的一个显著特点是用码号(如字母或数字)作为文献的标识,标引或检索时都必须使用分类号。主题语言则是直接以自然语言中的话词作为标引和检索的标识。在主题概念的组织上主题法与分类法都要将主题概念组织成可迅速查找的检索工具或检索系统。分类语言主要是按学科体系或逻辑体系组织的,由于分类体系不是显而易见、易于掌握的,因此用户在使用分类检索工具或检索系统时,往往难以确定新主题、细小主题以及复杂主题在体系中的准确位置。主题语言按照语调的字顺来组织主题概念,因而可以直接依名检索。在主题内在关系的显示上分类语言中主题内在关系主要通过上下位类、同位类以及交替类目、参见类目和类目注释来显示。尤其在体系分类表中,类目之间的等级关系可以通过类目排列的位置、乃至字体的不同而直接明显地展示由来。因而分类法系统的系统性、等级性强,便于进行浏览性检索,并可以根据检索的需要进行扩检和缩检。主题语言中,主题内在关系主要通过建立词间参照系统的方式来显示。此外也通过辅助索引进行分类显示。所以,在主题词表中,相关主题之间的关系难以直接地、一目了然地展示出来,因而在族性检索、尤其是较大范围课题的检索中,不如分类语言。在标引方法上使用分类语言标引时,主题分析的重点是辨别确定文献主题的学科性质,以便进一步确定所属类目。

此外,从信息检索技术角度来说,布尔逻辑检索技术就是指利用布尔逻辑运算符进行检索词语和代码之间的逻辑组配运算,从而获得检索结果的一种检索方法。这是计算机信息检索中最基本的也是最常用的技术。对于一般用而言,截词检索(Truncation)是一种常用的检索技术,特别是在西文检索中,更是广泛使用。截词检索就是对词的片断进行比较,检索者将检索词在合适的地方截断,然后以截出的词语片断进行检索。在检索系统中,为了提高检索的准确率,缩小检索的范围,通常用一些限制的手段和方法。使用这些方法进行检索通常称为限制检索(Limit Search)。常用的限制方法就是字段限定。此外,全文本检索技术(Full text Searching)是对数据库纪录的全文文本检索,即纪录中的每个词都可以作为检索入口,且可以限定词与词之间的语义关系。全文本检索也有人把它称为自由文本检索。随着信息技术的进一步发展,尤其是功能更加强大的搜索软件的普及,已经为广大用户带来了极大的便捷。

上一篇:《旅夜书怀》说课稿下一篇:装配式建筑成本浅析