-
.
使用
cBio Cancer
Genomics Portal
综合分
析癌症基因和临床资料
文章目录
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
cBio Cancer Genomics
Portal
简介
cBio
Cancer Genomics Portal
所需设备
cBio Cancer Genomics
Portal
使用方法
cBio
Cancer Genomics
Portal
结果的查看和解释
OncoPrint
Mutual Exclusivity
Correlation Plots
Mutations
Protein Changes
Survival
Network
IGV, Download,
Bookmark
多个癌症交叉查询
查看癌症研究数据
查看单一癌症的基因组改变:患者视图
通过编程语言访问查询
cBioPortal
cBio Cancer Genomics Portal
提
供了研究分析癌症基因数据的可视化工具,
cBioP
orta
l
可以帮助癌症组织和细胞学研究得到的分子学数据认识和理解遗传、表观遗
传、基因表达和蛋白质组学。通过自定义数据的交互界面要以主研究人员探求研究
< br>基因改变和临床之间的联系。
cBioPortal
提供
了图形化的结果,使复杂的癌症基因
组学资料更易理解和接受,而不需要特殊的生物信息
学知识。
cBio Cancer Genomics
Portal
简介
大样本癌症基因组
计划,
如如癌症基因图谱
(Cancer
Genome
Atlas,
TCGA,
http:/
//
)
和国际癌症基因组联盟
(The
International Cancer Gen
ome Consortium,
ICGC)
,
得到了大量的有关癌症基因组的资料,
但是这些资料对于
研究人员来说,如何整合、探索和分析,是一个比较困难
的事情,尤其是对于那些
电脑水平欠佳的人来说,更是一件头疼的事情。
cBio Cancer Genomics Portal(
ht
tp:///
)
的出现就是为了减少这种难度的。
cBioPortal
方便了研究人
员探求多维癌症基因组数据,它要以可视化分析基因、样
本和数据类型。我们可以对癌症
研究中的样本的基因改变进行可视化,比较基因改
变频率,
或者
综合分析单一样本中基因组改变。
cBioPortal
还可以
研究生物学途径,
生存率等等。
.
.
cBioPortal
整合的基因
数据类型包括体细胞突变,
DNA
拷贝数改变,
mRNA
和
micro
RNA
表达,
DNA
甲基化,蛋白丰度以及磷
蛋白丰度。迄今为止,
cBioPortal
包含了
1
0
已发表的肿瘤研究结果和
20
多个
TCGA
的结果。每个肿
瘤样本和数据可以从网站
上下载。
cBioPortal
把这些复杂的数据从基因水平上进行了整合和简化,每个样本
可以查询
特定的生物学特性,如基因突变,纯合子缺失,基因扩增,
mRNA
和
miRNA
的增加或减少,蛋白质的增加或减少等。这让
研究人员可以查询每个基因和样本的
基因改变,验证一些假设。
cBioPortal
的数据来源和分析选项来源于多个网站,
如
TCGA data portal
(
https:
///tcga/)
,
the ICGC data
portal(
/)
, the
Broad Institute's Genome Data Analysis Center
(GDAC) Firehose
(
h
ttp://)
, the
IGV, the University of California,
S
anta Cruz (UCSC) Cancer Genomics
Browser (30), IntOGen (31), Regulome
Ex
plorer
(
),
以及
Oncomine (Reserach
Edit
ion)
等。
cBioPortal
提供的分析选项有癌症基因组数据,
基因水平改变的引起的相关生物功
能变化,综合分析基因组数据和临床资料,患
者数据等。
cBioPortal
并
不直接存储这些原始数据,原始数据来源于其它网站,如
TCGA,
ICG
C, and Gene Expression Omnibus (GEO)
(
/geo/
)
等。
< br>
cBio Cancer Genomics
Portal
所需设备
?
如果想使用
cBioPortal
,一台可以上网的电脑必不要少,当然现在最
< br>好还能翻墙,因为
cBioPortal
部分地区打不开
。另外浏览器必须支持
Javascript
,这个到是不会有
太大问题。
但是注意:官方建议使用
Google Chrome,
Firefox 3.0
以上
, Safari,
Internet
Explorer 9.0
以上版本。还在
用
XP
?!换了吧,
XP
最高是
Internet Explorer
8.
0
,
?
Adobe Flash
player
注意:这个浏览器插件主要是为了可视化分析结果用的,一般浏览器都应
该有,如
果没有可以在此下载安装
/flashplayer/
。但是这个要求好
像在
2013
年中就取消了,也就是说没有这人插件同样可以使用
cBioPort
al
。
?
Java Runtime Environment
注意:这个主要是为了加载
Integrative
Genomics Viewer (IGV)
用的,可以在此
下载安装
/getjava/.
?
Adobe PDF
Reader
这人就不必说了,都有。可以使用一般的
Adober
Reader
/r
eader/
p>
,
但是我更建议使用
PDFXCview
,
原因要以参阅
升级为
Windows 8.1,
顺便说
说我常用的那些软件
。
?
Vector graphic
editor
注意:这个东东是为了可视化和编辑从
cBio
Portal
下载的
SVG
文件的,可
以使用
A
dobe Illustrator
(
/products/)
或者
In
kscape
(
/
).
.
.
cBio Cancer Genomics
Portal
使用方法
cBioPo
rtal
的癌症基因数据可以通过浏览器浏览和查询,网址为
h
ttp://cbioport
。我们可以查询一个癌症的研究
或者多个症状研究结果,如果是单个癌症样
本,还可看到相关的基因组改变。
如果想查询一个癌症研究结果,我们可以探索和可视化所选定基因的基因
组改变,
包括这些基因之间改变之间的相关性,同一基因不同数据之间的关系。
我们可以选择
25
余
种癌症的研究结果。
当选择基因组资料时,
一般默认选择突变和
CNAs
。
如果有相应
mRNA
和
miRNA
表达或
者相应的蛋白和磷酸化蛋白数据,
也可以选
择,如果没有这两项
就不可选。蛋白和磷酸化蛋白基于反向蛋白芯片浅析浅析
(rev
erse phase protein array, RPPA)
实验结果。
p>
mRNA
和
miRNA
数据和蛋白和磷酸化
蛋白数据,标准分数
(Z score
s)
通过实验值预先计算,我们可以设定或者默认设置
(
平均数的
2
倍标准差
)
。
mRNA
表达的
< br>Z scores
由每个样本通过比较
mRNA
的基因表
达和在代表典型基因表达的参考样本中的分布而决定。如果邻近
组织的表达数据可
用的话,邻近组织的表达数据就是参考样本的数据,反之,可以使用所
癌症研究中
的有疑问的基因的两倍的所有肿瘤的表达值。
p>
当研究所分析的样本,默认情况下是匹配所选择的基因组资料。例如,仅查询突变
交时会选择测序的数据。但是,我们可以改变这些选项。我们还通过可以「
User-D
efined Case List
」
或者基于
「
Build Case Set
」
自己自定义一个输入特定的样本。
当输入基因进行分析时,
我们可以手动输入
H
UGO
基因符号,
Entrez Gene ID
,
以及
基因别我或者预设置的基因组。
如果变异基因列表可用的话,
例如
MutSig
p>
的基因变
异或者
GISTIC
的
CNAs
,我们可以从这些基因列表中选择基因,
也可以通过这些列
表建立基因,或者手动输入基因。
一般可以通过
4
步法来进行查询和研究。
.
.
1. Select Cancer Study
,选择想要研
究癌症,可以通过下拉箭头进行选择,如「
G
liobasto
ma (TCGA, Nature 2008)
」。
2. Select Genomic Profiles
,<
/p>
选择基因组配置。
默认设置选择
「
Mutations
」
,
「
C
opy Number data. Select
one of the profiles
below
」并选择「
Putative
copy
-number alterations (RAE, 203
cases)
」。
注意:「
Mutations
」和「
Copy
Number data. Select one of the profiles belo
w
」一般是默认选中的。「
mRNA
Expression data. Select one of the profiles
below
」
是默认不选中的,
默认的
Z Score
倍数可以根据用户自己设定。
当微阵列和
RNA-
Seq
数据可用时,优先选中
RNA-
Seq
。
3. Select
Patient/Case Set
,选择患者数可以使用下拉箭头进行选择,也可以使
用「
Build Case Set
」
进行选择。如选择「
“
Tumors with
sequence and CNA data
(91)
」
注意:如果用户自定义列表,该步须通过下拉列表进行选择,然后才可以输入样本
ID<
/p>
,并用空格键进行分隔。
4.
Enter Gene Set
,输入基因集合。可以手动输入或者通过限定的列表进行
选择。
注意:在「
Advanced: Onco Query
Language (OQL)
」中可以可以使用
Onco
p>
查询语
法
(Onco Query Lan
guage
,
OQL)
限定查询。
p>
OQL
可以用于单个癌症和多个癌症的查
询
。一当文工团
OQL
查询,相应的结果也就限定了我们可以指定
4
个数据类型,
CN
< br>As
,突变,
mRNA
或
miRNA
表达改变,以及蛋白或磷酸化蛋白丰度改变。
CNA
和突变
一般是不连续设置,而
mRNA
,
miRNA
和蛋白
丰度是连续性设置。表达值转换成
Z Sc
ores
,以利于比较和限定变异倍数。
.
.
Data Type
Key
word
Categories and Levels
Default
Copy Number
Alterations
CNA
AMP Amplified
HOMDEL
Homozygously Deleted
GAIN Gained
HETLOSS Heterozygously
Deleted
AMP
and HOMDEL
MUT
Show mutated cases
All
somatic,
MUT=X Specific mutations or
non-synonymous
mutation
types.
mutations
EXP<
-x
Under-expression is
less than
x
SDs below the
mean.
EXP>x
Over-expression is
greater
than
x
SDs above the
mean.
The comparison
At
least
2
standard
operators
<=
and
>=
also
deviations (SD)
work.
from the mean.
Mutations
MUT
mRNA Expression
EXP
Protein/
phosphoprotein
level (RPPA)
PROT< -x
Protein-
level
under-expression is less
than
x
SDs below the mean.
PROT>x
Protein-
level
over-expression is greater
than x
SDs above
the mean.
The comparison operators
PROT
≦
and
≧
also work.
At
least
2
standard
deviations (SD)
from the
mean.
5. Download Data
,下载数据。
通过「
Submit
」可以查询并导出数据。可以另存为
txt
文档,这个文档可以用
Excel
p>
文件打开。
cBio Cancer
Genomics Portal
结果的查看和解释
基于查询标准,
cBioPortal
把每个基
因分成有变异和无变异,这种分法可用于分析
和可视化结果。以下举例说明。
OncoPrint
OncoPrint
p>
是一个一组肿瘤样本中多个基因的简基因组改变明扼要的图形化结果。
行代表基因,
列代表样本。
不同的符合和颜色编码用于区别基
因组的变异,
如突变,
CNAs
(<
/p>
扩增和纯合子缺失
)
,以及基因表达或蛋
白丰度的改变。如果把鼠标放置在图形上
还要以看到额外的信息,
如
ID
号
(
每个样本代表一个患者样本或者细胞系
)
,
可以与
患者的查看页面连接,同样还可以显示氨基酸的改变。默认情况下样本根据变
异进
.
.
行排序。我们可以存储原
始样本文件。我们还可以从图形化结果上移除未变异的样
本。多个样本的基因变异,
p>
OncoPrints
可以帮助确认一些趋势,如基因之间的排斥<
/p>
性和共生性。
OncoPrints<
/p>
另外还包含一些基因查询信息,这些查询信息可以
Sanger
Cancer Gen
e Census
上得到,并且和
NCBI
的
Gene
数据库相联系。
我们以视网膜母细胞瘤的基因
CDKN2A(
编码编码细胞周期素依赖性激酶抑制剂
p16)
CDK4(
编码细胞周期素依赖性激酶
4)
和多形性成胶质细胞瘤中的
RB1
作为样本。
1. Select Cancer
Study
选择「
Gioblastoma (TCGA,
Natrue 2008)
」
2.
Select Genomic Profiles
选择「
Mu
tations
」,「
Copy Number data.
Select
one of the profiles
below
」和「
Putative copy-number
alterations (RAE, 20
3
cases)
」
3. Select
Patient/Case
Set
选择
「
Tumors with
suqencing and CNA data (91)
」
4. Enter Gene
Set
中输入「
CDKN2A CDK4
RB1
」
然后「
Submit
」,可以得到如下
OncoPrint
图
从这个图上可
以看到,
65
个样本
(71%)
三个基因有至少有
1
个变异,其是每个基因<
/p>
的变异情况也在图上进行了标示。
CDKN24
< br>多数的变异是
homozygous deletions
,
并
且有
3
个突变
mutations
。
CDK4
是单纯的
amplifications
。
RB1
包含
1
个
homozygo
us deletions
和
3
个突变
mutati
ons
。
有以下几点需要说明:
1.
当设置好查询条件后,提交查询,
OncoPrint
结果是自动生成的。
2.
如果基因过多,超出一个视屏,可以使用上下滚动条进行完形查看
3. cBioPortal
为了使
O
ncoPrint
更国简练,
因此显示可能不能满足部分人的需
要,
但是可以通过
「
Customiz
e
」
选项进行结果显示的细微调节。
一
般要以有
3
个选项可
以调节,「
Zoom
」调节
OncoPrint
的宽度,「
Remove Unaltered Cases
」把未变异
的基因去除,「
Remove
Whitespace
」去除中间空白区域。
4.
可以把结果下载为
PDF
,
SVG
或
Txt<
/p>
格式进行保存。
5.
把鼠标放置在变异基因上,可以看到更多的信息。
6.
可以通过上方的「
Modify
Query
」进行查询的调整。
Mutual Exclusivity
癌症中的生物学进程
或者路径常常通过多种不同的基因或者不同的机制进行调节。
c
BioPortal
中的「
Mutual Exclusivi
ty
」可以发现既往不知道一些癌症发病机制,
这些机制可能在
肿瘤形成和癌症的进展中起到重要作用。
在
「
< br>Mutual Exclusivity
」
标签中,和特
定肿瘤相关的基因倾向于相互排斥,如果存在基因排斥,也就是说这
.
.
个肿瘤可能只有一种基因问题。相反是基因共生,一种肿瘤
如果有多个基因同时存
在,那这几个基因可能共生,其都在肿瘤的发生和发展中起到作用
,这个肿瘤也很
可能并非单一基因问题。
如上例中的三个基因的变异可以通过
「
Mutual Ex
clusivity
」
标签查看统计学数据。
< br>
从上图要以看到这三个基因之间都存在排他性,其中
又以
CDK4-RB1
的排他性最强,
但是没有统计学意义
(P
=
0.11)
,可能是由于样本量较小有关。
CDK4-CDKN2A
和
RB1
-CDKN2A
之间的排他性有统计学意义
(P
<
0.05
,红框表示
)
。这也符合已知
的
RB
信
息通路在多形性成胶质细胞瘤
的作用,可以通过
RB1
本身的失活
(
突变或者删除
)
引
起失效,
CDK4
通过扩增而活化
(CDK
要以抑制
RB1
活性
)
,或者
CDK
抑制剂
p16
而使
CDK
失活,
p16
是编码
CDKN2A
的基因。
odds ratio
(OR)
的计算一般通过如下方法。假设有两个基因分别是
G
1
和
G2
,这
两个基因之间的共生
OR
一般如下计算。
OR
=
(A*D)/(B*C)<
/p>
A
:代表两个基因中都有变异数量
<
/p>
B
:代表在
G1
中有变异但是
G2
中没有
C
:代表
G2
中有变异但
是
G1
中没有
D
:代表两个基因中都没有的变异数
P
值的计算主要是
Fisher
精确检验。
Correlation
Plots
.
.
cBioPor
tal
提供了离散基因和连续基因的可视化分析,
如
mRNA
或者蛋白丰度,
或
D
NA
甲基化。
< br>在查询时指定每个基因,
cBioPortal
会生在不
同的散点图。打开「
Plot
」选项,在
「
Plot Type
」
中的
「
mRNA versus copy-number
」
选项展示的盒须图表示
mRNA
表达
和它的拷贝数之间的关系。
Copy-number
status
可以是纯合子缺失,杂合子缺失,
二倍体,增进<
/p>
(
即有少量拷贝扩增
)
< br>或者扩增
(
即有大量拷贝扩增
)
。
mRNA-versus-DN
A
methylation
选项表示
mRNA
表达与
DNA
甲基化之间的比较。
甲基化
β
值是
CpG
< br>位
点甲基化水平的一个估计值,
是甲基化和未甲基化位点
之间的比值。
RPPA protein
level
versus mRNA
选项表示蛋白丰度与
mRNA
丰度之间比较的散点图。
基因和数据类型可以
通过下拉菜单进行选择,所有的散点图可以导出为
PDF
文件格
式以利于发表,也可以导出为
SVG
格
式。
例如我们分析一下
ERBB2(
一个编码表皮生长因子受体的致癌基因
)
在结肠和直肠腺
癌中的作用。
ERBB2
可以结直肠癌样本中扩增。
1. Select
Cancer
Study
选择
「
Colon and
Rectum Adenocarcinoma (TCGA,
Provi
sional)
」
2. Select Genomic Profiles
选择
「
Mutations
」和「
Puta
tive copy-number alte
rations from
GISTIC
」
3. Select
Patient/Case Set
选择「
All
Tumors
」
4. Enter
Gene Set
中输入「
ERBB2
」
然后「
Submit
」,选择「
Plots
」选项。
1. Plot
Type
中选择「
mRNA vs. Copy
Number
」
2. Data
Type-mRNA
-
选择
「
mRNA
expression
(microarray)
」
,
-
Copy Number -
选择「
Putative
copy-number alternations from GISTIC
」。可
以得到如下图。从
下图可以看到
ERBB2
mRNA
扩增样本中
ERBB2
mRNA
是增加的。
.