-
全基因组重测序数据分析
1.
简介
(Introduction)
通过高通量测序识别发现
de novo
的
somatic
和
germ
line
突变,结构变异
-SNV
,
包括重排
突变(
deletioin,
duplication
以及
copy number va
riation
)以及
SNP
的座位;
针对重排突变和
SNP
的功能性进行综合分析;
我们将分析基因功能
(包括
miRNA
)
,
重组率
(
Recombination
)
情况,杂合性缺失(<
/p>
LOH
)以及进化选择与
mutatio
n
之间的关系;以及这些关系将怎样使
得在
disease
(
cancer
)
genome
中的
mutation<
/p>
产生对应的易感机制和功能。我们将在基因组
学以及比较基因组学
,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。
实验设计与样本
< br>(
1
)
Case-
Control
对照组设计;
(<
/p>
2
)家庭成员组设计:父母
-
子女组(
4
人、
3
人组或多人);
初级数据分析
1
.数据量产出:总碱基数量、
Total
Mapping Reads
、
Uniquely
Mapping
Reads
统计,测序深
度分析。
<
/p>
2
.一致性序列组装:与参考基因组序列(
Reference genome sequence
)的比对分析,利用贝
叶斯统计模型检测出每个碱基位点的最大可能性基因型,
并组装出该个
体基因组的一致序列。
3
.
SNP
检测及在基因组中的分布:提取全基因组中所有多态性位点,结合
质量值、测序深
度、重复性等因素作进一步的过滤筛选,最终得到可信度高的
SNP
数据集。并根据参考基
因组信息对检测到的
变异进行注释。
4
.
InDel
检测及在基因组的分布
:
在进行
mapping
的过程中,进行容
gap
的比对并检测可信
的
short InDel
。在检测过程中,
gap
的长度为
1~5
个碱基。对于每个
< br>InDel
的检测,至少需
要
3
个
Paired-
End
序列的支持。
5
.
Structure
Variation
检测及在基因组中的分布
:
能够检测到的结构变异类型主要有:
插入、
缺失、复
制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基
因组水
平的结构变异并对检测到的变异进行注释。
高级数据分析
1.
测序短序列匹配(
Read
Mapping
)
(
1
)屏蔽掉
Y
染色体上假体染
色体区域(
pseudo-autosomal
region
)
,
将
Read
与参考序列
NCBI36
进行匹配(包括所有染色体,未定位的
contig
,以及
线粒体序列
mtDNA
(将用校正
的剑
桥参考序列做替代)
)
。
采用标准序列
匹配处理对原始序列文件进行基因组匹配,
将
Read
与参考基因组进行初始匹配;给出匹配的平均质量得分分布;
(
2
)碱基质量得分的校准。我们采用碱基质量
校准算法对每个
Read
中每个碱基的质量进
< br>行评分,并校准一些显著性误差,包括来自测序循环和双核苷酸结构导致的误差。
(
3
)
测序误
差率估计。
pseudoautosomalcontigs
,
short repeat regions
(
包括
segmental
duplication
,
simple repeat
sequence-
通过
tandem
repeat
识别算法识别)将被过滤;
2. SNP Calling
计算(
SNP
Calling
)
我们可以采用整合
多种
SNP
探测算法的结果,综合地,更准确地识别出
SNP
。通过对多种
算法各自识别的
SNP
进行一致性分析,
保留具有高度一致性的<
/p>
SNP
作为最终
SNP
< br>结果。
这
些具有高度一致性的
S
NP
同时具有非常高的可信度。在分析中使用到的
SNP
识别算法包括
基于贝叶斯和基因型似然值计算的方法,
以及使用连锁不平衡
LD
或推断技术用于优化
SNP
识别检出的准确性。
统计
SNV
的等位基因频率在全基因组上的分布
稀有等位基因数目在不同
类别的
SNV
中的比率分布(
a
);
SNV
的类别主要考虑:(
1
)无
义(
nonsens
e
)
,
(
2<
/p>
)化学结构中非同义,(
3
)所有非同义
,(
4
)保守的非同义,(
5
)非
编码,(
6
)同义
,等类型
SNV
;另外,针对保守性的讨论,我们将分析非编码
区域
SNV
的保守型情况及其分布(图
a, b
)
3.
短插入
/
缺失探测(
Short Insertion
/Deletion
(
Indel
)
Call
)
(1).
计算全基因组的
indel
变异和基因型检出值的过程
计算过程
主要包含
3
步:(
1
< br>)潜在的
indel
的探测;(
2
)通过局部重匹配计算基因型的似
然值;(
< br>3
)基于
LD
连锁不平衡的基因
型推断和检出识别。
Indel
在
X<
/p>
,
Y
染色体上没有检
出值得出。
(2).
Indel
过滤处理
4.
融合基因的发现(
Fusion gene
Discovery
)
选择注释的基因信息来自于当前最新版本的
Ensemble
Gene
数据库,
RefSeq
数据库
和
Vega
Gene
数据库。下面图
例给出的是融合基因的形成,即来自不同染色体的各自外显子经过重
组形成融合基因的模
式图。
5.
结构变异(
Structure
Variation
)
结构变异(
Structure Variation
-
SV
)是基因组变异的一类主要来源,主要由
大片段序列(一
般
>1kb
)
的拷贝数变异
(
copy number
variation, CNV
)
以及非平衡倒位
(
unbalance inversion
)
p>
事件构成。目前主要一些基因组研究探测识别的
SV
大约有
20,000
个(
DG
V
数据库)。在
某些区域上,甚至
SV
形成的速率要大于
SNP
的速率,并与
疾病临床表型具有很大关联。
我们不仅可以通过测序方式识别公共的
SV
,
也可以识别全新的
SV
p>
。
全新的
SV
的生
成一般
在
germ line
和突变机
制方面都具有所报道。然而,当前对
SV
的精确解析需要更好的
算法
实现。同时,我们也需要对
SV
的
形成机制要有更重要的认知,尤其是
SV
否起始于祖先基
因组座位的插入或缺失,而不简单的根据等位基因频率或则与参考基因组序列比对判断。
SV
的功能性也结合群体遗传学和进化生物学结合起来,我们综合的考
察
SV
的形成机制类
别。
SV
形成机制分析,包括以下几种可能存在的主要
机制的识别发现:
(
A
)同源性介导的直系同源序列区段重组(
NAHR
)
;
(
B
)与
DNA
双链断裂修复或复制叉停顿修复相关的非同源重组(
p>
NHR
);
(<
/p>
C
)通过扩展和压缩机制形成可变数量的串联重复序列(
VNTR
);
(
p>
D
)转座元件插入(一般主要是长/短间隔序列元件
LINE/SINE
或者伴随
TEI
< br>相关事件
的两者的组合)。
结
构变异探测和扩增子(
Amplicon
)的探测与识别分析<
/p>
:
如下图所示
6.
测序深度分析
测序深度分析就是指根
据基因组框内覆盖度深度与期望覆盖度深度进行关联,
并识别出
SV
。
我们也将采用不同算法识别原始测序数据中的缺失片段<
/p>
(
deletion
)
< br>和重复片段
(
duplication
< br>)
。
7. SV
探测识别结果的整合与
FDR
推断
< br>(
可选步骤
)
(1).
PCR
或者芯片方式验证
SV
(2).
计算
FDR-
错误发现率(配合验证试验由客户指定)
(3)
筛选
SV
检出结果用于
SV
的合并和后续分析:
我们通过不同方式探测识别<
/p>
SV
的目的极
大程度的检出
SV
,并且降低其
FDR
(
<=10%
)。通过下属筛选方法决定后续分析所使用到
的
SV
集合。
每种<
/p>
SV
探测识别算法得到的
SV
的
FDR
要求小于
10%
,
并将各自符合条件的
SV
合并;对于
FDR
大于
1
0%
的算法计算识别的
SV
结果,如
果有
PCR
和芯片平台验证数
据,
p>
同样可以纳入后续
SV
分析中。
最后,
针对不同算法得到的
SV
< br>,
整合处理根据
breakpoint
< br>断点左右重合覆盖度的置信区间来评定;
8.
变异属性分析
(1)
neutral coalescent
分析
测序数据可以探测到低频率的变异体(
MAF<=5%
)。根据来自群体遗传学理论(
neutral
coales
cent
理论)的期望值可以计算低频度变异的分布。我们用不同等位基因频率下每
p>
Mb
变异数目与
neutral
coalescent
选择下的期望值比值,即每
Mb
p>
基因组
windows
内的
theta
观
测值,来刻画和反映自然纯化选择与种群
(
cancer cell-line
可以特定的认为是可以区
分的种
群)增长速率。该分布分别考察
SNP
< br>(蓝色线),
Indel
(红色线),具有基因型的大片
段
缺失(黑色线),以及外显子区域上的
SNP
(绿色线)在不同等位基因频率区间上的
theta
情况(参见下图)。
(2).
全新变异体
(novel
variant)
的等位基因频率和数量分布
分析对象包括全新预测的
SNP
,
indel
,
large deletion,
以及外显子
SNP
在每个等位基因频率
类别下的数目比率(
fraction
)(参见
下图);全新预测是指预测分析结果与
dbSNP
(当前
版本
129
)以及
d
eletion
数据库
dbVar
(<
/p>
2010
年
6
月
份版本)和已经发表的有关
indels
研究
< br>的基因组数据经过比较后识别确定的全新的
SNP
,
p>
indel
以及
deletion
。
dbSNP
包含
SN
P
和
indels; dbVAR
包含
有
deletion,duplication,
以及
mobile element insertion
。
dbRIP
以及其他基因
组学研究
(
JC
Ventrer
以及
Watson
基
因组,
炎黄计划亚洲人基因组)
结果提供的
short indels
和
large
deletion
。
(3).
变异体的大小分布以及新颖性分布
计
算
SNP
,
Deletion
,以及
Insertion
大小分布;计算<
/p>
SNP
,
Deletion
,以及
Insertion
中属于
< br>全新预测结果的数目占已有各自参考数据库数目的比例(相对于
dbSNP
数据库;
dbSNP
包
含
SNP
和
indels;dbVA
R
包含有
deletion,duplication,
以及
mobile element insertion
。
dbRIP
以
及其他基
因组学研究(
JC
Ventrer
以及
Watson
基
因组,炎黄计划亚洲人基因组)结果提供
的
short
indels
和
large deletion
)其中,可以给出
LINE
,
Alu
的特征位置。
(4).
结构变异
SV
的断点联结点
(BreakPoint
Junction)
分析
根据
SV
不同检出结果经过一些列筛选步骤构建所有结构变异
SV
的断点联结点数据库,保
留长度大于等于
50bp
的
SV
;分
析断点联结点处具有
homology
或者
microhomology
的
SV
;
并将同一染色体,起始和终止位置坐标下的不同
SV
进行去冗余处理。
分析识别
SV
的断点联结点(
Breakpoint
)
:
将
Breakpoint
按照可能形成的方式可以分类
为
以下几类:
(
a
)非等位基因同源重组型(
non-allelic
homologous recombination-
NAHR
)
;
(
b
)非同源重组(
nonhomologous
recombination-
NHR
),包括
nonhomologous end-
joining
(NHEJ)
和
fork
stalling /template switching
(
FoSTeS/MMBIR
);
(
c
)可变串联重复(
VNTR
)
(
d
)转座插入元件(
TEI
)。
图
C
SV
形成偏好性分析
分析
SV
形成机制与断裂点临近区域序列的关系,包括
染色质界标(端粒,中心粒),重组
高发热点区域,
重复序列以
及GC含量,
短
DNA motif
和
微同源区域
(
microhomology
region
)
。
-
-
-
-
-
-
-
-
-
上一篇:讲帝号
下一篇:那些综艺节目及真人秀台下的观众是怎么来的?