查准率指的是是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。查准率 = 检出的相关文献篇数/检出的全部文献篇数× 100%。
查全率指的是检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。查全率 = 检出相关文献量 / 文献库内相关文献总量× 100% 。
影响检索效果的因素是非常复杂的。根据国外有关专家所做的实验表明,查全率与查准率是呈反比关系的。要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。企图使查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。本文讨论在检索系统和数据库确定的前提下,怎样提高文献的查准率。
1.选择主要概念和基本概念
为了提高查准率,应在多个主题概念中选择主要概念和基本概念,删除重复概念。例如,检索“褥疮患者护理的研究”这一课题,护理必然是针对患者而言,故“患者”是个可舍去的重复概念;“研究”是个广泛概念,既然是讨论褥疮患者的护理,必然带“研究”性质,故亦应舍去;余下的主题概念应简化为:“褥疮”、“护理”,用“褥疮 AND 护理”这一组配检索,不但检准率高,而且检索效果最好。
2.提高主题词的专指度
为提高文献检索的查准率,选择主题词时应尽量避免选择外延广泛的上位词,而应增加或换用专指性较强的主题词和下位词进行检索。例如,从篇名查找有关“Lung Neoplasms diagnosis”的文献,采用外延广泛的上位词“Neoplasm”进行检索,即使利用限定词“diagnosis”进一步限制检索范围,其查准率还是较低,检出了许多不相关的文献;选用专指词“Lung”与“Neoplasm”进行检索,大大提高了查准率。
3.选择规范专业用语检索
许多全文数据库采用关键词(即自由词)检索。关键词未经词形控制及词义控制,这使得检索语言中存在大量的同义词、近义词、多义词、同形异义词和词义含糊而导致理解不一的词,因此,简单的关键词检索往往会降低检索质量。为了提高检索的查准率,在选择主题词时应选择规范的专业术语,例如用“维生素c”代替“抗坏血酸”或“维他命c”,用“偏瘫”代替“半身不遂”等。对于本身具有多义性的关键词,可采用与主题密切相关的其他主题词进行限制,例如查找有关“DNA脱氧核糖核酸”的文献,若用“DNA”进行检索,从篇名查得文献较多,这使检索结果包含了大量不相关的文献;如果用“DNA AND 脱氧核糖核酸”进行组配,结果命中文献较少,大大提高了查准率。
4.采用“逻辑与”、"逻辑非"组配
在文献检索过程中,单个主题词的计算机检索比较简单,2个或2个以上的主题词则需要先根据检索课题的要求对主题词进行组配。“逻辑与”和“逻辑非”组配具有缩检功能,因此要提高检索的查准率。可用“AND”连接一些能进一步限定主题概念的相关检索项,例如,查找“阿司匹林安全性”方面的文献,检索式可制订为:阿司匹林 AND 安全性。“NOT”可以从原检索范围中减去某一部分,从而缩小检索范围,例如,animals NOT humans。
5.使用位置算符NEAR,WITH
NEAR为同句检索,表示检索词存在于同一句子中,词序可以颠倒。例如,informationNEAR retrieval 可检索出含有“information retrieval”和“retrieval of information” 。
NEAR +n为相邻检索,表示检索词之间最多可插入n或n-1个词。例如,acute NEAR2 infarction表示两词之间最多可插入两个其他词,可检索出含有“acute infarction”或“acute myocardial infarction”的文献。
WITH为同字段检索,表示两个检索词存在于同一字段,词序可颠倒,两个检索词之间的位置要比near宽泛。例如,women WITH hepatoma可检索出该两词同时出现在篇名中,或同时出现在文摘中。
6.限定字段来缩小检索范围
常用的字段为标题、摘要、年份、文献类型、出版物类型、语种等。例如可以限定检索范围在摘要字段,甚至限定在标题字段,这样明显提高检索的精度。另外还可以根据需求限定最近5年或10年的文献,以及是期刊论文、学位论文还是会议论文等。
本文来自浙大一院图书馆、唐凌峰科学网博客、智库百科词条查准率以及邢美园等主编的《医学文献检索》。