-
使用
cBio Cancer Genomics Portal
综合分
析癌症基因和临床资料
文章目录
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
cBio
Cancer
Genomics
Portal
简介
cBio
Cancer
Genomics
Portal
所需设备
cBio
Cancer
Genomics
Portal
使用方法
cBio
Cancer
Genomics
Portal
结果的查看和解释
OncoPrint
Mutual
Exclusivity
Correlation
Plots
Mutations
Protein
Changes
Survival
Network
IGV,
Download,
Bookmark
多个癌症交叉查询
查看癌症研究数据
查看单一癌症的基因组改变:患者视图
通过编程语言访问查询
cBioPortal
cBio
Cancer
Genomics
Portal
提供
了研究分析癌症基因数据的可视化工具,
cBioPor
tal
可以帮助癌症组织和细胞学研究得到的分子学数据认识和理解遗传、表观遗传、
基因表达和蛋白质组学。通过自定义数据的交互界面要以主研究人员探求研究基因
改变和临床之间的联系。
cBioPortal
提供了
图形化的结果,
使复杂的癌症基因组学资
料更易理解和接受,而
不需要特殊的生物信息学知识。
cBio
Cancer
Genomics
Portal
简介
大样本癌症基因组计划,如如癌症基因图谱
(Cancer
Genome
Atlas,
TCGA,
http://c
/
p>
)
和国际癌症基因组联盟
(The
International
Cancer
Genome
Con
sortium,
ICGC)
,
得到了大量的有关癌症基因组的资料,
但是这些资料对于研究人员
来说,如何整合、探索和分析,是一个比较困难的事情,尤
其是对于那些电脑水平
欠佳的人来说,更是一件头疼的事情。
c
Bio
Cancer
Genomics
< br>Portal(
http://cbioporta
/<
/p>
)
的出现就是为了减少这种难度的。
<
/p>
cBioPortal
方便了研究人员探求多维癌症基因组数据,
它要以可视化分析基因、
样本
和数据类
型。我们可以对癌症研究中的样本的基因改变进行可视化,比较基因改变
频率,
或者综合分析单一样本中基因组改变。
cBioPortal
还可以研究生物学途径,
生
存率等等。
cBioPortal
整合的基因数据类型包括
体细胞突变,
DNA
拷贝数改变,
mR
NA
和
micr
oRNA
表达,
DNA
甲基化,蛋白丰度以及磷蛋白丰度。迄
今为止,
cBioPortal
包含
了
10
已发表的肿瘤研究结果和
20
p>
多个
TCGA
的结果。每个肿瘤样本和数据
可以从
网站上下载。
cBioPortal
把这些复杂的数据从基因水平上进行了整合和简化,
每个样
本可以查询特定的生物学特性,如基因突变,纯合子缺失,基因扩增,
mRNA
和
m
iRNA
的增加或
减少,蛋白质的增加或减少等。这让研究人员可以查询每个基因和
样本的基因改变,验证
一些假设。
cBioPortal
的
数据来源和分析选项来源于多个网站,
如
TCGA
data
portal
(
https://tcg
/tcga/)
,
the
ICGC
data
portal(
/)
,
the
Broad
Institut
e's
Genome
Data
Analysis
Center
(GDAC)
Firehose
(
)
,
the
IGV,
the
University
of
California,
Santa
Cruz
(UCSC)
Cancer
Genomics
Brow
ser
(30),
IntOGen
(31),
Regulome
Explorer
(
),
以
及
Oncomine
(Reserach
Edition)
等。
cBioPortal
提供的分析选项有癌症基因组数据,
基因水平改变的引起的相关生物功能
变化,综合分析基因组数据和临床资料,患者数据等。
cBioPortal
并不直接存储这些原始数据,原始数据来源于其
它网站,如
TCGA,
ICG
C,
and
Gene
Expression
Omnibus
(GEO)
(
/geo/
)
等。
cBio
Cancer
Genomics
Portal
所需设备
?
如果想使用
cBioPortal
,一台可以上网的电脑必不要少,当然现在最好
还能翻墙,因为
cBioPortal
部分地区打不开
。另外浏览器必须支持
Java
script
< br>,这个到是不会有太大问题。
但是注意:
官方建议使用
Google
Chrome,
Firefox
3.0
以上
,
Safari,
Internet
Explore
r
9.0
以上版本。还在用
XP
?!换了吧,
XP
最高是
Internet
Explorer
8.0
,
?
Adobe
Flash
player
注意:这
个浏览器插件主要是为了可视化分析结果用的,一般浏览器都应该有,如
果没有可以在此
下载安装
/flashplayer/
。但是这个要求好像在<
/p>
201
3
年中就取消了,也就是说没有这
人插件同样可以使用
cBioPortal
。
< br>
?
Java
Runtime
Environment
< br>注意:
这个主要是为了加载
Integrative
Genomics
Viewer
(
IGV)
用的,
可以在此下载
安装
p>
/getjava/.
?
Adobe
PDF
Reader
这人就不必说
了,
都有。
可以使用一般的
Adobe
r
Reader
/reader/
,
但是我更建议使用
PDFXCview
,
原因要以参阅
升级为
Window
s
8.1,
顺便说说我常用
的那些软
件
。
?
Vector
graphic
editor
注意:这个东东是为了可视化和编辑从
cBioPortal
下载的
SVG
文件的,可以使用
A
dobe
Illustrator
(
/products/)
或者
Inkscape
(
http://
/
).
cBio
Cancer
Genomics
Portal
使用方法
cBioPortal
的癌症基因数据可以通过浏览器浏览和查询,
网址为
。
我们可以查询
一个癌症的研究或者多个症状研究结果,如果是单个癌症样本,还可
看到相关的基因组改
变。
如果想查询一个癌症研究结果,我们可以探索和可视化所
选定基因的基因组改变,
包括这些基因之间改变之间的相关性,同一基因不同数据之间的
关系。
我们可以选择
25
余种癌症的研究结果。
当选择基因组资料时,
一般
默认选择突变和
CNAs
。
如果有相应
mRNA
和
miRNA
表达或者相应的蛋白和磷酸化蛋白数据,
也可
以选择,
如果没有这两项就不可选。
蛋白和磷酸化蛋白基于反向蛋白芯片
浅析浅析
(r
everse
phase
protein
array,
RPPA)
实验结果。
mRNA
和
miRNA
数据和蛋白和磷酸化
蛋白数据,
标准分数
(Z
scores)
通过实验值预先计算,
我们可以设定或者默认设置
(
平
均数的
2
倍标准差
)
。
mRNA
表达的
Z
scores
由每个样本通过比较
mR
NA
的基因表
达和在代表典型基因表达的参考样本中的分布而决
定。如果邻近组织的表达数据可
用的话,邻近组织的表达数据就是参考样本的数据,反之
,可以使用所癌症研究中
的有疑问的基因的两倍的所有肿瘤的表达值。
< br>
当研究所分析的样本,默认情况下是匹配所选择的基因组资料。例如,仅查询突
变
交时会选择测序的数据。但是,我们可以改变这些选项。我们还通过可以「
User-De
fined
Case
List
」或者基于「
Build
Case
Set
」自己自定义一个输
入特定的样本。
当输入基因进行分析时,我们可以手动输入<
/p>
HUGO
基因符号,
Entrez
Gene
ID
,以
< br>及基因别我或者预设置的基因组。
如果变异基因列表可用的话,
< br>例如
MutSig
的基因
变异或
者
GISTIC
的
CNAs
,
我们可以从这些基因列表中选择基因,
也可以通
过这些
列表建立基因,或者手动输入基因。
< br>一般可以通过
4
步法来进行查询和研究。
1.
Select
Cancer
Study
,选择想要
研究癌症,可以通过下拉箭头进行选择,如「
Gli
obast
oma
(TCGA,
Nature
2008)
」。
2.
Select
Genomic
Profiles
,选择基因组配置。默认设置选择「
Mutations
」,「
Cop
y
Number
data.
Select
one
of
the
profiles
belo
w
」并选择「
Putative
copy-number
a
lterations
(RAE,
203
cases)
」。
< br>注意:「
Mutations
」和「
Copy
Number
data.
Select
one
of
the
profiles
belo
w
」一
般是默认选中的。「
mRNA
Expression
data.
Select
one
of
the
profiles
belo
w
」是
默认不选中的,默认的
Z
p>
Score
倍数可以根据用户自己设定。当微阵列和
RNA-Seq
数据可用时,优先选中
RNA-
Seq
。
3.
Select
Patient/Case
< br>Set
,
选择患者数可以使用下拉箭头进行选择,
也可以使用
「
B
ui
ld
Case
Set
」进行选择。
如选择「
“Tumors
with
sequence
and
CNA
data
(91)
」
注意:如果用户自定义列表,该步须通过下拉列表进行选择,然后才可以输入样本
ID<
/p>
,并用空格键进行分隔。
4.
Enter
Gene
Set
,输入基因集合。可以手动输入或者通过限定的列表进行选择。
注意:在「
Advanced:
Onco
Query
Language
(OQL)
」中可
以可以使用
Onco
查询语
法
(Onco
Query
Language<
/p>
,
OQL)
限定查询。
< br>OQL
可以用于单个癌症和多个癌症的
查询。一当文工团
OQL
查询,相应的结果也就限定了我们可以指定
4
个数据类型,
CNAs
,
突变,
mRNA
或
miRNA
表达改变,以及蛋白或磷酸化蛋白丰度改变。
CNA
和突变一般是不连续设置,
而
mRNA
,
miRNA
和蛋白丰度是连续性设置。
< br>表达值转
换成
Z
Scores
,以利于比较和限定变异倍数。
Key
word
Data
Type
Categories and Levels
AMP Amplified
HOMDEL
Homozygously
Deleted
GAIN
Gained
HETLOSS Heterozygously
Deleted
MUT Show mutated
cases
MUT=X Specific mutations or
mutation types.
Default
Copy Number
Alterations
CNA
AMP and HOMDEL
All somatic,
non-synonymous
mutations
Mutations
MUT
mRNA Expression
EXP
EXP< -x Under-expression
is less
than x SDs below the mean.
EXP>x Over-expression is
greater than x SDs above the
mean.
At least 2 standard
The comparison
deviations
(SD) from
operators <= and >= also
work.
the mean.
PROT< -x
Protein-level
under-expression is less
than x SDs below the mean.
PROT>x Protein-level
over-
expression is greater than
x SDs above
the mean.
The comparison
Protein/
phosphoprotein
level (RPPA)
PROT
operators
≦
and
≧
also work.
At
least 2 standard
deviations (SD) from
the mean.
5.
Download
Data
,下载数
据。通过「
Submit
」可以查询并导出数据。可以另存为<
/p>
t
xt
文档,这个文档可以用
Excel
文件打开。
cBio
Cancer
Genomics
Portal
结果的查看和解释
p>
基于查询标准,
cBioPortal
把每
个基因分成有变异和无变异,
这种分法可用于分析和
可视化结果
。以下举例说明。
OncoPrint
OncoPrint
是一个一组肿瘤样本中多个基因的简基因组改变明扼要的图形化
结果。
行
代表基因,列代表样本。不同的符合和颜色编码用于区
别基因组的变异,如突变,
CNAs
(
扩增和纯合子缺失
)
,以及基因表达或蛋白丰度的改变。如果
把鼠标放置在图形上
还要以看到额外的信息,如
ID
号
(
每个样本代表一个患者样本或者细胞系
)
,可以与
患者的查看页面连接,同样还可以
显示氨基酸的改变。默认情况下样本根据变异进
行排序。我们可以存储原始样本文件。我
们还可以从图形化结果上移除未变异的样
本。多个样本的基因变异,
OncoPrints
可以帮助确认一些趋势,如基因之间的排斥
< br>性和共生性。
OncoPrints
< br>另外还包含一些基因查询信息,这些查询信息可以
Sanger
Cancer
Gene
Censu
s
上得到,并且和
NCBI
的
Gene
数据库相联系。
我们以视网膜母细胞瘤的基因
CDKN2A(
编码编码细胞
周期素依赖性激酶抑制剂
p1
6)
C
DK4(
编码细胞周期素依赖性激酶
4)
和多形性成胶质细胞瘤中的
RB1
作为样本。
1.
Select
Cancer
Study
选择「
p>
Gioblastoma
(TCGA,
Natrue
2008)
」
2.
Select
Genomic
Profiles
选择「
Mutati
ons
」,
「
Copy
Number
data.
Select
one
of
the
profiles
below
」和「
Putative
copy-number
alterations
(RAE,
203
cases)
」
3.
Select
Patient/Case
Set
选择「
Tumors
with
suqencing
and
CNA
data
(91)
」
4.
Enter
Gene
Set
中输入「
CDKN2A
CDK4
RB1
」
然
后「
Submit
」,可以得到如下
O
ncoPrint
图
从这个图上可以看到,
65
个样本
< br>(71%)
三个基因有至少有
1
个变异,其是每个基因
的变异情况也在图上进行了标示。
CDK
N24
多数的变异是
homozygous
< br>deletions
,
并
且有<
/p>
3
个突变
mutations
。
CDK4
是单纯的
am
plifications
。
RB1
包
含
1
个
homozygou
s
deletions
和
3
个突变
mutations
。
p>
有以下几点需要说明:
1.
当设置好查询条件后,提交查询,
OncoPrint
结果是自动生成的。
2.
如果基因过多,超出一个视屏,可以使用上下滚动条进行
完形查看
3.
cBioPorta
l
为了使
OncoPrint
更国简练
,
因此显示可能不能满足部分人的需要,
但
是可以通过「
Customize
」选项进行结果显示的细
微调节。一般要以有
3
个选项可以
调节
,
「
Zoom
」调节
< br>OncoPrint
的宽度,
「
Remove
Unaltered
Cases
」把未变异的基
因去除,「
Remove
Whitespace
」去除中间空白区域。
4.
可以把结果下载为
PDF
,
SVG
或
Txt<
/p>
格式进行保存。
5.
把鼠标放置在变异基因上,可以看到更多的信息。
6.
可以通过上方的「
Modify
Query
」进行查询的调整。
Mutual
Exclusivity
癌症中的生物学进程或者路径常常通过多种不同的基因或者不同的机制进行调节。
c
BioPortal
中的「
Mutua
l
Exclusivity
」可以发现既往不知道一些癌症发
病机制,这些
机制可能在肿瘤形成和癌症的进展中起到重要作用。在「
< br>Mutual
Exclusivity
」标签
中,和特定肿瘤相关的基因倾向于相互排斥,如果存在基因排斥,也就是说这个肿
瘤可能只有一种基因问题。相反是基因共生,一种肿瘤如果有多个基因同时存在,
那这几个基因可能共生,其都在肿瘤的发生和发展中起到作用,这个肿瘤也很可能
并非
单一基因问题。
如上例中的三个基因的变异可以通过「
Mutual
Exclusivity
」标签查看统计学数据。
从上图要以看到这三个基因之间都存在排他性,
其中又以
CDK4-RB1
的排他性最强,
p>
但是没有统计学意义
(P
=
0.11)
,可能是由于样本量较小有关。
CDK4-
CDKN2A
和
R
B1-CDKN2A
之间的排他性有统计学意义
(P
<
p>
0.05
,
红框表示
)
。
这也符合已知的
RB
信息通路在多形性成胶质细胞瘤的作用,可以通过
RB1
< br>本身的失活
(
突变或者删除
)<
/p>
引起失效,
CDK4
通过扩增而活化
p>
(CDK
要以抑制
RB1
< br>活性
)
,或者
CDK
抑制剂
p1
6
而使
CDK
失活,
p16
是编码
CDKN2A
的基因。
odds
ratio
(OR) <
/p>
的计算一般通过如下方法。
假设有两个基因分别是
G1
和
G2
,
这两
个基因之间的共生
OR
一
般如下计算。
OR
=
(A*D)/(B*C)
A
:代表两个基因中都有变异数量
<
/p>
B
:代表在
G1
中有变异但是
G2
中没有
C
:代表
G2
中有变异但
是
G1
中没有
D
:代表两个基因中都没有的变异数
P
值的计算主要是
Fisher
精确检验。
Correlation
Plots
cBioPortal
提
供了离散基因和连续基因的可视化分析,如
mRNA
或者蛋白丰
度,或
DNA
甲基化。
在查询时指定每个基因,
cBioPortal
会生
在不同的散点图。打开「
Plot
」选项,在「
P
lot
Type
」中的「
mRNA
versus
copy-number
」选项展示的盒须图表示
mRNA
表达
和它的拷贝数之间的关系。
Copy-number
sta
tus
可以是纯合子缺失,
杂合子缺失,
二
倍体,增进
(
即有少量拷贝扩增<
/p>
)
或者扩增
(
即
有大量拷贝扩增
)
。
mRNA-
versus-DNA
methylation
选项表示
p>
mRNA
表达与
DNA
甲基化之间的比较。
甲基化
β
值是
CpG
位
点甲基化水平的一个估计值,
是甲基化和未甲基化位点之间的比值。
RPPA
protein
level
versus
mRNA
选项表示蛋白
丰度与
mRNA
丰度之间比较的散点图。
基因和数据类型可以通过下拉菜单进行选择,
所有的散点图
可以导出为
PDF
文件格
式以利于发表
,也可以导出为
SVG
格式。
例如我们分析一下
ERBB2(
一个编码表皮
生长因子受体的致癌基因
)
在结肠和直肠腺
癌中的作用。
ERBB2
可以结直肠癌样本中扩增。
1.
Select
Cancer
Study
选择「
Colon
and
Rectum
Adenocarcinoma
(TCGA,
Provisio
nal)
」
-
-
-
-
-
-
-
-
-
上一篇:2017大英竞赛
下一篇:考研试题802植物保护学