-
/*
CiteSpace
软件展示报告
一、
概述
CiteSpace
是由美国德雷塞尔的陈超美教授开发的一款
可视化文献分析软件,能够
显示一个学科或知识域在一定时期发展的趋势与动向,形成若
干研究前沿领域的演
进历程。简单说来,就是找出学术文献中文字(包括:作者,杂志,
关键词,被引
用词汇等等)的关系,并可视化表示出来。
二、
作者简介
陈超美
(Chaomei Chen)
,男,
1960
年
9
< br>月生于中国北京,英国籍,美国德雷塞尔大
学
(Drexel University, Philadelphia, PA, USA)
< br>信息科学与技术学院副教授
(
终身教职
< br>)
。
大连理工大学长江学者讲座教授,
< br>Drexel
–
DLUT
知识
可视化与科学发现联合研究所
所长。他是当代信息可视化与科学知识图谱学术领域中的国
际顶尖学者和领军人物
之一信息可视化新领域的最早开拓者之一。
陈超美的个人博客
/u/ChaomeiChe
有相关最新内容。
CiteSpace
的主页
/~cchen/CiteSpace/
有一部分基础资料可
以作为蓝本学习使用软件。
陈超美的与他的
CiteSpace
的发展历程:<
/p>
1999
年率先发表了该领域第一部专
著
2002
年创办了该领域第一份该
领域的专业期刊《
Information
Visualization
》
20
02
年独立创办了每年一度的
Symposium on
Knowledge Domain
Visualization(KDViz)
系列国际讨论会。
2004
年开始利用其开发的软件
Ci
teSpace
,在该领域写出了不少经典论文,如
《
Searching for intellectual turning points:
Progressive Knowledge Domain Visualization
< br>》
《
CiteSpace II: Detecting
and visualizing emerging trends and transient
patterns in
scientific
literature
》
2005<
/p>
年提出信息可视化领域面对的十大挑战性问题;在信息可视化领域中引入
< br>Pathfinder
算法,扩展和提高了文献引文共被引网络分析的效率和应用
范围。
/*
2011
年
7
月发布
CiteSpa
ce 2.2 R11
版本。最新版本是今年
7
月份发布,不过它需要
64
位的大内存的电脑去支持。
三、
信息可视化与科学知识图谱的发展历程
因为
CiteSpace
是一种可视化软件,它与科学知识图谱有密切关系,我们大概讲一
讲这个发
展过程。
科学知识图谱基本概念:
1
、
p>
传统的科学计量学图谱以简单的二维、三维图形(如:柱形图、线性图、点布图、扇形
图、平面图等)表达科学统计结果
/*
2
、
新时期的科学计量学图谱
随计算机处
理能力日益提高,文献信息电子化和专利授权,知识图谱等工具在模拟人类
数据分析等方
面,可帮助人类进行某些领域的判读、搜索、决策、预测……
例如:文献共被引,一段时间内文献聚类。
只要有坐标、有文献的发表出处地点,结合地图就能形成一幅
文献地理位置图
3
、
CiteSpace
研究领域
/*
(
1
)
CiteSpace II
的概念模型
在第一代
Citespace
中,用
户只能通过视觉观察找到网络中连接不同聚类的点,
进而确定关键点。
< br>而
Citespace II
有了更好的优化,
能用时间切片抓拍
(
Time-sliced
snapshot
)来显示研究领域的演变。接下来我们只会着
重介绍
CitespaceII
。
(
2
)
CiteSpace
工作流程
引文数据
Source
检索
被引文
献
共引矩阵
Co-Citation
自动标注
类标签
Cluster
Labels
概述
主题句
Topical
聚类
降维
引文的
SVD
引文网络
Network of
Citing Articles
类
因子、主成分
Clusters
Factors,
聚合
Aggr
可视化
图谱
Graphic
解释
分类
Catego
< br>意义和分析线
索
(
3
)
p>
我们能用
CiteSpace
做什么?
p>
①
研究热点和
前沿分析
——
聚类图
A:
重要学科领域分析(以术语和学科主题作为网络节点)学
科领域分布图
B:
研究前沿的知识
基础分析(以参考文献作为共引分析节点)基于文献共
被引的网络知识图谱
/*
C:
研究热点分
析(关键词作为网络节点)基于关键词共现的网络知识图
②
研究前沿与发展趋势分析
——
时序图(
timeline
、
timezone
)
③
实现文献计量与地理地图的整合(
GoogleEarth
)
④
……
四、
术语解释
1
、
Nodes
节点
——
在绘图软件中,节点即曲线中的控制点、交叉点,网络连
接的端点。
2
、
Centrality
节点中心度
—
—
是指其所在网络中通过该点的任意最短路径的条
数,是网络中
节点在整体网络中所起连接作用大小的度量。中心度大的节
点相对地容易成为网络中的关
键节点。
3
、
Betweenness centrality
中间中心性<
/p>
——
用来进行中心性测度的指标,
指网络
中经过某点并连接这两点的最短路径占这两点之间最短路径线总数之比。
中间中心性高的点往往位于连接两个不同聚类的路径上。
4
、
Burst terms
突现词
——
通过考察词频
,
将某段时间内其中频次
变化率高的词
从大量的主题词中探测出来。
5
、
Citation tree-rings
引文年环
——
代表着某篇文章的引文历史。
引文年轮的颜
色代表相应的引文时间。一个年轮厚度和与相应时间分区内引文数量成正
比。
6
、
Citation half-life
引文半衰期
——
半衰期描述引文(文献)老化程度,半衰
期
越大,显示引文的有效价值越大。
7
、
Pathfinder network scaling
路
径网络简化
——
种网络简化算法。
8
、
Minimal spanning trees
最小生成树<
/p>
——
种网络简化算法。
9
、
Pivotal points
(
Turning points
)关
键点(转折点
——
网络中中间中心性大
于或等于
0.1
的节点
CiteSpa
ce
图谱中用紫色的节点表示网络中的关键节点。
10
、
Thresholds
阈值
——
p>
用户在引文数量、
共被引频次和共被引系数三个层次
上,按前中后三个时区分别设定阈值,其余的由线性内插值来决定。
11
、
Time-zone view
时区视图
12
、
Time slicing
时间分割
——
设定整个时间跨度和单个时间分区长度。
13
、
Research front
研究前沿
——
定义为一组突现的动态概念和潜在的研究问
题,引证文
献组成了研究前沿。
14
、
Intellecture base
知识基础
——
是它在科学文献中
(
即由引用研究前沿
术语的科学文献所形成的演化网络
)
的引文和共引轨迹,被引文献组成了知
识基础。
五、
软件安装与简介
1
、
环境配置
CiteSpace
是一个以
java
语言编写的程序,
必须依托浏览器进行启动。
因而必须首先配置
j
ava
环境。
要
CiteSpace<
/p>
能正常运行,
系统必须安装
6.0
以上的
JDK
(
Ja
va Development Kit
)
才可以,
具体只需要登录
java
官网下载最新版本的
p>
JDK
并安装即可。目前最新的版本为
JD
K 7.9
版。
下载地址:
/technetwork/java/javase/downloads/
< br>
/*
2
、
安装包下载
CiteSpace
目前最新的版本为
3.1 R3
版,但是该版本是基于
6
4
位系统开发的,有可能在
32
位的系
统上出现错误,
并且需要通过
java
虚拟机
(
JVM, Java Virtual Machin
e
)
来运行,
所以建议使用
32
位系统的同学选择
3.0
R5
版进行下载。
下载地址:
/~cchen/CiteSpace/
而如果是
64
位系统的同学,就选择<
/p>
3.1 R3
版本里最新的链接。
JVM
需要在内存中运行,
所以,
需要按照具
体电脑的内存容量来选择所运行的
JVM
。
由上至下分别是
512M
、
1GB
、
2GB
和
4
GB
内存的
JVM
,可适当选择。文件
为一个
JNLP
文件,大小约
200K
。
/*
下载完成后,打开该
JNLP
文件,会
弹出以下一个对话框,
勾选“我接
受风险并希望运行此应用程序”
,并按“运行”
,则可自动安装
。
安装完成后,会弹出以下一个窗口,
将其最大化后,点击最下方的
Proceed
< br>按钮,即可进入
CiteSpace
。
< br>
如见到下面的画面,证明安装已成功完成。
/*
3
、
控制界面简介
(
1
)
数据库选择
在
CiteSpaceII
中,
用户
可以从
web of science
中下载数据,
然后导入到
CiteSpace
中进行分析,
p>
也可以从
PubMed
(公共医学数据库)
中直接下载数据到
CiteSpace
,
然后进行分析。
(
2
)
数据导入区
/*
在
web of science<
/p>
数据库下,这一区域主要用于导入已下载的数据,可以通过设
置文
件的存储路径来读取数据文件。
而
在
PubMed
数据库下,则可以直接在
Query
框内输入关键字、时间跨度等直
接下载数据进行分
析。
(
3
)
设置时间分隔
/*
在这个区域可以设置要读取的文件的时间跨度,并且设置
CiteSpace
统计的时间
片。如
果需要以每三年或每五年作为文献的研究时间片,可以在
Slice
处设置
3
或
5
。
(
4
)
图像的端点类型和连线的计算方式
这
个选项比较关键。上面一个选项主要用于确定生成的图像中的端点代表是什
么。有参考文
献、作者等等的选项。下面一个选项是用于确定生成的图像中两
点间的线的粗细程度,通
过计算两个端点(可以是两篇参考文献、两个作者等)
的余弦相似度确定两点间连线的粗
细,相似度越高,连线越粗。
(
5
)
节点与连线筛选
这一区域是生成图形中最关键的一步。这几种方式主要来控制
最终生成的网络
将由哪些节点组成。这是第一种方法,第一种办法最简单,最适于初学阶
段,
所以目前版本将其放在首位。其余几种办法逐渐变得复杂,最好等熟悉系统之
后再考虑。
Top N
:
系统设定
N=30
,
意为在每个
time slice
中提取
N
个被引次数最高的文献。
/*
N
越大生成的网络将相对更全面一些。
Top N%:
将每个
time slice
中的被引
文献按被引次数排序后,
保留最高的
N%
作为
节点。
Threshold
Interpolation
:设定三个
time
slices
的值,其余
time slices
的值由线性
插值赋值。三组需要设置的
slices
为第一个,中间一个,和最后一个
slice
< br>。每组
中的三个值分别为
c
,<
/p>
cc
,和
ccv
。
c
为最低被引次数。只有满足这个条件的文献
才能参加下面的运算。
cc
为本
slice
内的共被引次数。
ccv
为规范化以后的共被
引次数(
0~100
)
。
Select Citers
:与以上方法不同的是这个方法先
选施引文献,然后需再用方法
1-3
之一。先
< br>Check TC Distribution
然后填写
Use TC
Filter
后面的两个数字:最低和
最高
TC
值(
Time
Cited
)
,选定
User TC
Filter
前的选项。按
Continue
< br>,再设定方
法
1
,
2
,或
3
。
(
6
)
修剪图像
/*
这一选项主要用于对生成的图像进行路径的寻找、发现最小生
成树和修剪产生
的网络,留下最主要的枝干。
(
7
)
图像生成选项
这一选项主要用于确定产生的图像聚类时是使用动态还是静态的方式进行聚
类,同时
也可以选择是按时间片来分开不同时间段的图像还是融合到一起来表
现。
4
、
图像界面
首先主要介绍工具条上的主要功能:
/*
自动聚类和添加聚类标签后可以得到这样的图:
/*
然后我们介绍一下图像的控制面板:
-
-
-
-
-
-
-
-
-
上一篇:分子生物学基本技术
下一篇:英文科技文献常用词及其缩写