文献引文关系分析利器Histcite Pro 2.1发布啦!
1 Histcite简介
如果你学习了一些文献检索技巧,并已经开始进行文献调研,相信你一定会碰到一个头疼的问题,那就是面对海量的文献,如何才能找到对自己最有价值的那部分文献,而不要把精力浪费在哪些低价值,或是对自己参考意义不大的文献上,这就要求我们用一定的方法找出重要的文献来。
在自己亲自阅读大量的文献之前,显然你是无法直接知道未读文献质量的,所以,我们筛选的标准只能是根据别人的意见或者是依据某些客观的指标。如同我们在网购时,需要根据别人的评价一样。文献的评价在哪里呢?一个作者对一篇文献的好评就是引用它,所以引用可以看作是作者对前人工作的肯定,或者是投票。
如果你看过一些娱乐节目的评分形式,也许会知道,通常一个选手会有两部分人参与评分,一是大众评委,一是专家评委。显然这两部分人的评价标准是不同的,一部分人只是看热闹,一部分人能给出合理专业的评价。如果把论文引用看成是评价的话,这种评价也会来自两部分人群。一是引用这篇文献的作者,恰好也是你的同行;另一部分引用该文章的作者不是你的同行,他们引用的原因可能和你感兴趣的点截然不同。非同行认为很好的文献,对你通常并没有任何参考价值。这就是很多引用次数很高的文献,对你却没有任何参考价值的原因。在阅读之前,要想知道一篇文章的质量高低,你同行的意见最具有参考价值。如何找出你同行认为最有价值的文献呢,这就是HistCite软件所要实现的功能。
HistCite是一款非常强大的Windows平台引文分析工具,可以根据Web of Science(WOS)数据库上导出的数据快速绘制出某个研究领域的发展脉络,快速锁定某个研究方向的重要文献和学术大牛,还可以找到某些具有开创性成果的无指定关键词的论文。
HistCite=History of Cite,意味引文历史,或者叫引文图谱分析软件。该软件系SCI的发明人加菲尔德开发,能够用图示的方式展示某一领域不同文献之间的关系。可以快速帮助我们绘制出一个领域的发展历史,定位出该领域的重要文献,以及最新的重要文献。HistCite的分析步骤包括两步:
①首先通过检索,将文献限定在某一个主题范围内,这样搜到的文献都是你感兴趣额的文献。这时候文献数量可能还会很大,超出阅读范围;即便数量不大,也没法直接看出这些文献之间的关联;
②利用HistCite对检索到的文献进行分析,找出同行推荐的最重要的文献;
这些文献通常就是一个领域发展的里程碑式的文献。这就是HistCite分析的简要过程。当然,在此基础上,HistCite还可以给我们提供更多的信息。如找出关键词遗漏的文献、重要的国家、机构和科学家、发展趋势、最新进展等。
2常规的文献筛选方法
检索文献的目的:追踪进展(RSS更佳)、特定参考、全面调研(如开题申请基金等)。
如何快速了解一个领域?阅读该领域综述、阅读教材或专著、专家(最佳)。如何获得重要文献?导师或高人推荐、网站检索并分析(如WOS等)、软件统计分析。
需要注意的是:分析不能代替阅读文献,但能提高阅读效率。下面看一下如何利用数据库及文献管理软件筛选文献。
2.1基于数据库的分析
①Web of Science Core Collection数据库分析
例如:我们想快速找到有关2007年诺贝尔物理奖获奖课题“巨磁阻效应-Giant Magnetoresistance”在1994-2014年间的总体发展趋势,可如图1所示,设置检索条件。
生成引文报告
在检索结果页面上,通过右侧的“创建引文报告”功能(见图2),我们可以快速了解该课题的总体研究趋势,并且找到本课题的引文影响力年代变化情况(如图3)。
总结:通过Web of ScienceTM核心合集提供的强大的引文报告功能,可以点击创建引文报告,自动生成课题引文报告,从而提高科研效率。
利用“分析检索结果”了解课题发展趋势
除了创建引文报告之外,我们也可以利用“分析检索结果”功能生成论文出版年的图示。并且,利用分析功能您可以任意查看某些出版年的论文情况,见图4、图5。
结论:通过Web of ScienceTM核心合集提供的强大的引文报告功能,我们可以点击创建引文报告,自动生成课题引文报告,对总体趋势一览全局。而分析功能可以让我们更清晰的了解本课题论文每年的发文量,分属于哪些学科,主要集中在哪些国家地区,以哪些语种发表,哪些机构或哪些作者是本课题的引领者,收录本课题论文最多的期刊和会议有哪些等详细信息。
②Scopus数据库的分析
①处可选择时间段进行结果统计分析
②处则是对每年论文发表数量、论文来源期刊、作者发表论文数量、作者来源机构、国家、文献类型以及研究领域等进行可视化统计分析。以上统计分析数据及图表均可以点击右上角“Export”导出。
2.2基于文献管理软件进行分析
以EndNote为例,详见EndNote X8使用中的文献统计分析分析功能。总结:数据库和文献管理软件都有一定的分析功能,但无法找出某一领域最重要的文献。
HistCite的使用步骤
HistCite的特点:简单实用、上手快、学习成本低。难点在于:怎么判读分析结果从分析的结果中获得有价值的信息。
HistCite是原汤森路透开发的基于Web of Science(以下简称WOS)数据库的文献分析软件,但多年缺乏维护,存在诸多bug,中科大王庆同学基于原版开发了更为完善的版本HistCite Pro介绍(下载地址:HistCite Pro下载),下载解压后即可使用,推荐大家使用该版本。
HistCite的使用步骤:
软件最新版本可以从以下网址下载:http://www.histcite.com
从 http://www.histcite.com 网站下载软件,安装之后,点击 HistCite 图标即可开启软件,软件使用IE作为其界面,显得很简陋。
①从WOS数据库下载数据(参考文献),需要注意的是,HistCite是基于WOS数据库导出的文献信息进行分析。
②数据导入HistCite
③作图分析(make graph)下面分步介绍。
从Web of Science数据库下载数据
进入WOS数据库检索主页,选择检索数据库为“Web of Science Core Collection”,输入关键词进行检索;
检索完毕后,按照被引频次降序排列,选择“Save to Other File Formats”
导出参考文献;
在弹出的对话框中按照如下设置:记录数填写1到500(每次最多输出500条文献记录),记录内容选择【全记录与引用的参考文献】,文件格式选择【纯文本】,然后点击发送即可导出txt格式的文献记录。超过500条记录可分批次导出,包含500条文献记录的txt一般是2-3M左右。
以上操作便完成了WOS数据库参考文献导出工作。
数据导入HistCite
如果是老版本HistCite软件(http://ips.clarivate.com//thanks/histcite/),由于WOS数据库升级,而HistCite未能随之更新,在导入数据时候需要对下载的txt文献记录进行修改,即将txt中第一行中的Science换成Knowledge,注意Knowledge首字母要大写。
每个txt修改完毕后,然后在HistCite软件在点击File——Add File,选择导出的txt文件即可;或直接选中修改后的多个txt拖到HistCite软件中。如果使用中科大开发的HistCite Pro版本,则无需上述操作,将下载好的txt放到TXT文件夹中,点击main.exe后根据软件提示即可打开。例如导入1000条文献记录,导入后结果如下:
作图分析(make graph)
点击HistCite菜单Tools——Graph Maker,进入Graph Maker界面,点击Make graph即可绘制当前文献的引文关系图。
上图为当前window图,若需要全屏图,可以在Size下来菜单选择full后,重新点击Make graph,右键图片即可保存高清大图。图上有30个圆圈,表示筛选30篇该领域最重要的文献(可在Limit项修改),每个圆圈表示一篇文献,中间的数字表示文献在数据库中的序号。圆圈大小表示引用次数,圆圈越大,表示被引用次数越多。不同圆圈之间有箭头相连,箭头表示文献之间的引用关系。一般情况下,最上面的圆圈较大,并有很多箭头指向这篇文章,那么这篇文章很可能就是这个领域的开山之作。
HistCite能快速绘出一个领域的发展脉络;能快速锁定某个领域的重要文献;能快速锁定某个领域的重要研究者和机构;洞察某个领域的最新进展。找出无指定关键词的重要文献。
HistCite的分析原理
HistCite的分析原理:参考同行(同一研究领域的科研工作者)意见(参考文献)。
HistCite用于作图的四个关键参数LCS,GCS,LCR,CR:
①GCS(Global Citation Score,GCS表示总引用次数,即WOS上看到的引用次数),表示某一篇文章被整个WOS数据库中的文献所引用的次数,有些引用这篇参考文献的文章可能和你的研究方向毫无关系,但GCS还是会把这个引用数据记录下来,WOS中对检索结果按照被引频次降序排列时用的便是GCS数据。
②LCS(Local Citation Score,LCS表示本地引用次数,即某篇文献在当前数据集中被引用的次数),表示的是某一篇文章被导入到HistCite进行分析的这几百或几千篇文献所引用的次数。由于导入HistCite的文献记录都与检索词相关,可以认为这些文献与研究方向相关,因此如果某一篇文献的LCS值很高,意味着它肯定是该研究领域内的重要文献。因此相比而言,LCS比GCS更重要些,LCS高的极有可能是研究领域内的开山之作,因为很多人都引用它。一般LCS高的文献和GCS高的文献不会是同一篇。
③LCR(Local Cited References,LCR表示本地参考文献数,某一篇文章的参考文献在当前数据集中的数量),表示的是某篇文献引用别人的情况。根据LCR值的排序,可以快速定位近期关注该领域的重要文献,因为某一篇文献引用当前数据集中的文献数越多,说明它非常关注检索的研究方向的文献,和研究方向肯定有相似或者可参考之处,可以从该文章中发现新动向。LCR高的极有可能是研究领域内的综述文章。
④CR(Cited References,CR表示某一篇文献在整个WOS数据中的参考。
除了上面讲的 LCS,GCS,LCR,CR 四个值之外,我们也可以分析:作者/ 机构/期刊/关键词分析/发表年分析等:
文献数),这个值越高,说明这篇文献很可能是综述性文献,可根据该值的排序,也可快速定位综述文献。
HistCite的详细介绍
5.1数据下载与导入
引文数据下载操作可参见3.1从Web of Science数据库下载数据,需要说明的是,某一次检索结果可能成千上万条文献记录,由于WOS每次最多输出500条文献记录,因此,要是想完全了解该领域的研究情况,可以将所有文献记录分批次全部导出进行分析;若是初步了解,可以将检索结果按照被引频次降序排列后导出前500或1000条文献记录进行分析(检索结果默认按照文章发表日期降序排列,前面文章比较新,被引频次往往较少,不利于后续引文分析)。
这里以HistCite Pro进行软件启动说明,首先将下载好的文献记录txt全部拷贝到TXT文件夹中。
随后点击main.exe,HistCite Pro启动后会自动导入数据并打开一个IE内核的浏览器窗口;若IE窗口未启动,可手动打开,方法是将http://127.0.0.1:1925/复制后在Chrome浏览器地址栏中打开。需要注意的是,main.exe黑窗口在分析过程中不能关闭,可以最小化到任务栏。
若不想在IE窗口中进行分析操作,可将IE窗口关闭,在Chrome浏览器地址栏中输入http://127.0.0.1:1925/打开该窗口进行后续操作也是可行的,但main.exe黑窗口在分析过程中不能关闭。为方便操作,可将所有窗口集中到同一个浏览器(如Chrome浏览器)中打开后进行操作,方法是在浏览器地址栏中输入新生成的窗口地址回车,原窗口可关闭。需要说明的是【HistCite Pro软件所在路径中的所有文件夹和文件的命名都不能含有中文,尤其是在ADV模式下。经测试常规模式(YES模式)下路径允许存在中文,为避免不必要的麻烦,建议按照上述说明操作)】
5.2软件的界面
上图即为导入问下记录后的HistCite主界面,可分为6个部分:
①为HistCite主菜单栏;
②为当前文献记录数据库名,可以双击进行修改;
③为当前文献记录数据库的总体统计数据,包括四个关键参数LCS、GCS、LCR、
CR,以及文献收集时间跨度。
④为当前文献记录数据库的具体统计数据,包括文献记录数量、作者发表文章数量、期刊数量、当前数据集的参考文献数总和等,还包括基本的统计功能,如文献年代统计、文献类型统计、文献语言统计、文章单位来源、文章单位及二级单位统计、各国发表文献数量统计。作者发表文章数量按照Recs值(记录数)降序排列可快速找出该领域的高产作者。
作者发表文章数量按照TLCS值降序排列可快速找出该领域的重要研究者。
期刊数量按照Recs值(记录数)降序排列可快速找出该领域的期刊,帮助我们找到投稿去向。
期刊数量按照TLCS值降序排列可快速找出该领域的重要期刊和其上的文献。
Words按照Recs值(记录数)降序排列可快速找出该领域的重要检索关键词。
研究机构按照Recs值(记录数)降序排列可快速找出该领域的高产研究机构。
研究机构按照TLCS值降序排列可快速找出该领域的重要研究机构。
⑤为当前文献记录显示区,可按照年代、作者、期刊进行排列。
⑥为四个关键参数LCS、GCS、LCR、CR,可点击字段按其进行降序或升序排列筛选重要文献。
按照LCS进行降序排列可筛选该研究领域的重要文献
结合LCS和GCS参数可分析当前总引用次数(GCS)高的文献是否为本研究领域的重要文献,具体做法是,按照GCS值进行降序排列,看其LCS值情况。
结合LCR和CR参数可分析当前CR高(极有可能是综述性文献)的文献是否为本研究领域的重要文献,具体做法是按照CR值进行降序排列,看其LCR值占当前数据库文献记录总数以及占CR值比重情况。若CR值高但其LCR值占CR值比重和占当前数据库文献记录总数比重均较低说明对于本研究领域而言该文献参考价值还不太大。
一般按照LCS并结合LCR进行降序排列,筛选重要文献或综述。LCS值较高的一般是本研究领域较为重要的文献、里程碑式的文献;LCR值较高的一般是本研究领域较为重要的综述或最新综述文献。
各蓝色字段均可点击按其进行排序,最后点击④区域的Records可返回之初始界面。
HistCite作图界面
点击菜单栏Tools—Graph Maker,进入作图界面
细心(Qiangpozheng)的同学会发现跳出新的窗口,而非是在Chrome浏览器中打开新的标签页,这样两个界面在任务栏时切换不方便,可将新的窗口中的地址http://127.0.0.1:1925/graph/GraphMaker复制粘贴到Chrome新打开的标签页中地址栏中回车,即可统一到Chrome界面,点击浏览器标签页即可方便地在主界面与作图界面来回切换。
点击Make graph即可生成引文图。作图时可以选择LCS或GCS值作为参考,表示文献之间的引用情况,还可以设定参与分析作图的文献数量(Limit);选择GCS作图时,引文图谱之间的线条会稀疏些,因为它们是全部被引次数的统计,这些文献之间的联系相对较少,一般选择LCS作图。每个圆圈表示一篇文献,点击引文图中的圆圈节点号,可以打开该文献记录的详细页面。
左侧栏目可以设置节点形状(矩形或圆圈)及其大小、节点间距、节点ID所在位置、连线箭头方向及其大小、节点及年份标识大小等。左侧Size下拉菜单有三种绘图模式:full、letter、window,full模式下重新点击Make graph,右键图片即可保存高清大图。也可点击顶部“PostScript”保存为.ps的矢量图进行后续编辑。
有时一些较新的文章因为年代较近,因而其被引次数不多,所以在引文图谱中指向它们的连线较少。另外我们可以根据图谱中连线的密集程度来分析该领域近几年的研究情况,如果连线较密集,说明近几年该领域研究很活跃,文献之间引用很频繁;如果连线较为稀疏,这种情况有时往往出现在较新的文章附近,这并不代表近几年该领域不热门,可能是因为近几年发表的文章因时间较短,到现在为止被引用的次数还不多造成的。
另外,可以从引文图谱判断之前在WOS数据库中进行检索的关键词选择是否合适,如果作图显示分析的文献之间的关联程度很小,则很可能是由于选择的关键词不合适造成的,需要优化检索关键词。因此,HistCite定位核心文献是一个不断优化检索条件的过程。
HistCite菜单详解
①File菜单
Save as即是将当前文献记录保存到后缀为.hic的文件中,后续可直接导入改文件进行添加文献。
Export可输出:Records(输出HistCite export file.hci,和Save as相同)、
As CSV(输出逗号分隔值文件HistCite CSV file.csv)、HTML Presentation(保存为网页文件格式,可在浏览器中浏览和排序(基于保存结果))
②Analyses菜单
③View菜单
文献计量视图Bibliometric
LCS/t:表示平均每年被引次数,LCS/t值越高,说明该文章每年被大量引用,具有较高的参考价值;
LCSx:x表示去掉自引次数,LCSx值越高,说明该文章被同行认可度越高;
OCS:表示来自其他数据,没实际意义;
NA:作者数;
LCSb:b表示begin,表示该文章发表的头三年被引次数LCSe:e表示end,表示该文章近三年被引次数
LCS(e/b)=LCSe/LCSb,表示该文章发表的头三年被引次数与该文章近三年被引次数的比值。LCS(e/b)反映了该文章最近几年的受关注程度情况。
④Tools菜单
Mark&Tag标记文献信息并导出到EndNote
首先将当前文献记录按照LCS(或LCR)降序排列,在Set Criteria(集合条件)中设置标记条件(比如标记LCS前m篇文献),在Set Scope中选择标记范围:Selected records only(仅包括已选的文献)、Records citing selected records(引用已选文献的文献)、Records cited by selected records(已选文献引用的参考文献),点击Mark即进行标记,此时顶栏显示已Mark数量。
进行上述操作后,也可按照LCR降序排列,选择前n篇进行标记,此时已经标记了m+n篇文献,然后点击顶栏的Marks(绿色圈)进入标记文献列表
最后点击File——Export——Records,输出标记文献。
将得到的标记文献文件“HistCite export file.hci”的后缀直接修改为.txt,即“HistCite export file.txt”,然后启动EndNote,新建.enl,点击File—Import—File(也可直接点击工具栏的导入按钮),在弹出对话框中,选择刚才保存的HistCite export file.txt文件,Import Option选择Multi-Filte(r Special),其他默认即可导入,随后可利用EndNote的Find Full-Text查找全文。
HistCite查找遗漏文献
需要说明的是,HistCite基于当前导入的文献记录进行分析,找出他们之间的相互引用关系,因此导入的文献记录就很重要。如果要完全找出该领域的的重要文献,最好是将WOS检索的结果全部导入HistCite进行分析。
因此选择争取的检索词非常重要,这直接关系到后面的分析结果。但无论选择什么样的检索词,肯定存在检索遗漏的文献,此时可以利用Cite Reference查找遗漏文献。
HistCite顶部栏目的“Cite Reference”表示当前文献记录(数据集)总共引用的参考文献数量,点击之后进入到如下界面:
点击Recs(表示该文献在本数据集中的被引频次)进行降序排列,可以发现,排位靠前的几篇文献标题颜色是黑色的(黑色表示当前数据集中未包含该文献记录,蓝色表示当前数据集中已包含该文献记录),且旁边标识“+WoS”。其实这些文献往往是本研究领域的开山之作,只是因为未包含先前在WOS数据库检索时使用的关键词,因而被遗漏了!因此,通过查看当前数据集中的Cite Reference并按照Recs降序排列可以查看被遗漏的重要文献。
现在可以将这些遗漏的重要文献添加进当前数据集,然后重新分析。有如下两种方式添加:
第一种(推荐):点击“WOS”进入WOS数据库中,按照3.1从Web of Science数据库下载数据,然后放入HistCite Pro下的TXT文件夹中,重新导入数据进行分析;
第二种:点击“+”,进入New Record界面,复制该文献的DOI到http://dx.doi.org/进行查询,然后将该文献的相关信息(如标题、摘要、参考文献等)录入进入,点击Apply changes即可。
此时Cite Reference界面显示红色的“Update lists”,并且当前数据集中的记录数已经增了1,说明这篇文献已被添加至当前数据集。点击“Update lists”即可更新当前文献记录列表。
为方便后续导入,可将当前数据记录保存下拉,点击File——Save,得到“HistCite export file.hci”,将其后缀直接修改为.txt,即“HistCite export file.txt”,将其放到TXT文件夹下,并删除原来的txt,此时数据集已经更新。
使用HistCite的常见问题
使用HistCite常见三类问题:
①检索过于宽泛,导致文献间无关联或关联不大
②WOS引文数据下载错误,未包含参考文献(LCS、LCR均为0)
③分析不当,近几年没有文献入围不代表该领域不活跃(可能是新文章引用次数不多),这是可以考察LCR
8我的使用场景
HistCite借助同行推荐的思路,分析出重要文献,在开始涉足某个领域时能极大提升我们检索文献的效率,它可以让我们把主要精力集中在阅读核心文献,而不至于迷失在海量文献之中。
准备涉足某个新领域时,在有一定基本了解后,使用HistCite进行分析找出该领域最核心的文献进行阅读,这样通常只需要阅读几十篇文献即可对该领域有较为清楚的了解。
通过以上方法筛选的文章通过不超过100篇,阅读这些文献可以清楚的了解该领域的整体研究情况。需要说明的是,HistCite的分析效果与学科有一定的关系,如果该学科类的文献相互之间引用较少,那么使用HistCite进行分析通常难以获得较为有价值的信息,比如部分人文学科的某些研究方向;此外还与WOS数据库在该学科收录的文献数量有关。