关键词不能为空

当前您在: 主页 > 英语 >

全基因组重测序数据分析

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-27 21:34
tags:

-

2021年2月27日发(作者:炫)


全基因组重测序数据分析



1.


简介


(Introduction)



通过高通量测序识别发现


de novo



somatic



germ line


突变,结构变异


-SNV


, 包括重排


突变(


deletioin, duplication


以及


copy number va riation


)以及


SNP


的座位; 针对重排突变和


SNP


的功能性进行综合分析;


我们将分析基因功能


(包括


miRNA




重组率



Recombination



情况,杂合性缺失(< /p>


LOH


)以及进化选择与


mutatio n


之间的关系;以及这些关系将怎样使


得在

disease



cancer



genome


中的


mutation< /p>


产生对应的易感机制和功能。我们将在基因组


学以及比较基因组学 ,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。




实验设计与样本



< br>(


1



Case- Control


对照组设计;



(< /p>


2


)家庭成员组设计:父母


-

< p>
子女组(


4


人、


3


人组或多人);




初级数据分析



1


.数据量产出:总碱基数量、


Total Mapping Reads



Uniquely Mapping Reads


统计,测序深


度分析。


< /p>


2


.一致性序列组装:与参考基因组序列(


Reference genome sequence


)的比对分析,利用贝


叶斯统计模型检测出每个碱基位点的最大可能性基因型,


并组装出该个 体基因组的一致序列。



3



SNP


检测及在基因组中的分布:提取全基因组中所有多态性位点,结合 质量值、测序深


度、重复性等因素作进一步的过滤筛选,最终得到可信度高的

< p>
SNP


数据集。并根据参考基


因组信息对检测到的 变异进行注释。



4



InDel


检测及在基因组的分布


:


在进行


mapping


的过程中,进行容


gap


的比对并检测可信



short InDel


。在检测过程中,


gap


的长度为


1~5


个碱基。对于每个

< br>InDel


的检测,至少需



3



Paired- End


序列的支持。



5



Structure Variation


检测及在基因组中的分布


:


能够检测到的结构变异类型主要有:


插入、


缺失、复 制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基


因组水 平的结构变异并对检测到的变异进行注释。





高级数据分析




1.


测序短序列匹配(


Read Mapping





1


)屏蔽掉


Y


染色体上假体染 色体区域(


pseudo-autosomal region



,



Read


与参考序列


NCBI36

进行匹配(包括所有染色体,未定位的


contig


,以及 线粒体序列


mtDNA


(将用校正


的剑 桥参考序列做替代)


)



采用标准序列 匹配处理对原始序列文件进行基因组匹配,



Read


与参考基因组进行初始匹配;给出匹配的平均质量得分分布;




2


)碱基质量得分的校准。我们采用碱基质量 校准算法对每个


Read


中每个碱基的质量进

< br>行评分,并校准一些显著性误差,包括来自测序循环和双核苷酸结构导致的误差。




3



测序误 差率估计。


pseudoautosomalcontigs



short repeat regions



包括


segmental duplication



simple repeat sequence-


通过


tandem repeat


识别算法识别)将被过滤;




2. SNP Calling


计算(


SNP Calling




我们可以采用整合 多种


SNP


探测算法的结果,综合地,更准确地识别出


SNP


。通过对多种


算法各自识别的

< p>
SNP


进行一致性分析,


保留具有高度一致性的< /p>


SNP


作为最终


SNP

< br>结果。



些具有高度一致性的


S NP


同时具有非常高的可信度。在分析中使用到的


SNP


识别算法包括


基于贝叶斯和基因型似然值计算的方法,


以及使用连锁不平衡


LD


或推断技术用于优化


SNP


识别检出的准确性。




统计


SNV


的等位基因频率在全基因组上的分布



稀有等位基因数目在不同 类别的


SNV


中的比率分布(


a


);


SNV


的类别主要考虑:(


1


)无


义(


nonsens e



,



2< /p>


)化学结构中非同义,(


3


)所有非同义 ,(


4


)保守的非同义,(


5


)非


编码,(


6


)同义 ,等类型


SNV


;另外,针对保守性的讨论,我们将分析非编码 区域


SNV


的保守型情况及其分布(图


a, b






3.


短插入


/


缺失探测(


Short Insertion /Deletion



Indel



Call




(1).


计算全基因组的


indel


变异和基因型检出值的过程



计算过程 主要包含


3


步:(


1

< br>)潜在的


indel


的探测;(


2


)通过局部重匹配计算基因型的似


然值;(

< br>3


)基于


LD


连锁不平衡的基因 型推断和检出识别。


Indel



X< /p>



Y


染色体上没有检

出值得出。



(2). Indel


过滤处理



4.


融合基因的发现(


Fusion gene Discovery




选择注释的基因信息来自于当前最新版本的


Ensemble Gene


数据库,


RefSeq


数据库 和


Vega


Gene


数据库。下面图 例给出的是融合基因的形成,即来自不同染色体的各自外显子经过重


组形成融合基因的模 式图。




5.


结构变异(


Structure Variation




结构变异(


Structure Variation



SV


)是基因组变异的一类主要来源,主要由 大片段序列(一



>1kb



的拷贝数变异



copy number variation, CNV



以及非平衡倒位



unbalance inversion



事件构成。目前主要一些基因组研究探测识别的


SV


大约有


20,000


个(


DG V


数据库)。在


某些区域上,甚至


SV


形成的速率要大于


SNP


的速率,并与 疾病临床表型具有很大关联。


我们不仅可以通过测序方式识别公共的

SV



也可以识别全新的


SV



全新的


SV


的生 成一般



germ line


和突变机 制方面都具有所报道。然而,当前对


SV


的精确解析需要更好的 算法


实现。同时,我们也需要对


SV


的 形成机制要有更重要的认知,尤其是


SV


否起始于祖先基


因组座位的插入或缺失,而不简单的根据等位基因频率或则与参考基因组序列比对判断。


SV


的功能性也结合群体遗传学和进化生物学结合起来,我们综合的考 察


SV


的形成机制类


别。



SV


形成机制分析,包括以下几种可能存在的主要 机制的识别发现:




A


)同源性介导的直系同源序列区段重组(


NAHR


) ;




B


)与


DNA


双链断裂修复或复制叉停顿修复相关的非同源重组(


NHR


);



(< /p>


C


)通过扩展和压缩机制形成可变数量的串联重复序列(


VNTR


);




D


)转座元件插入(一般主要是长/短间隔序列元件


LINE/SINE


或者伴随


TEI

< br>相关事件


的两者的组合)。



结 构变异探测和扩增子(


Amplicon


)的探测与识别分析< /p>


:


如下图所示





6.


测序深度分析



测序深度分析就是指根 据基因组框内覆盖度深度与期望覆盖度深度进行关联,


并识别出


SV



我们也将采用不同算法识别原始测序数据中的缺失片段< /p>



deletion


< br>和重复片段



duplication

< br>)




7. SV


探测识别结果的整合与


FDR


推断

< br>(


可选步骤


)


(1). PCR


或者芯片方式验证


SV


(2).


计算


FDR-


错误发现率(配合验证试验由客户指定)



(3)


筛选


SV


检出结果用于


SV


的合并和后续分析:


我们通过不同方式探测识别< /p>


SV


的目的极


大程度的检出


SV


,并且降低其


FDR



<=10%


)。通过下属筛选方法决定后续分析所使用到



SV


集合。


每种< /p>


SV


探测识别算法得到的


SV

< p>


FDR


要求小于


10%



并将各自符合条件的


SV

< p>
合并;对于


FDR


大于


1 0%


的算法计算识别的


SV


结果,如 果有


PCR


和芯片平台验证数


据,


同样可以纳入后续


SV


分析中。

< p>
最后,


针对不同算法得到的


SV

< br>,


整合处理根据


breakpoint

< br>断点左右重合覆盖度的置信区间来评定;



8.


变异属性分析



(1) neutral coalescent


分析



测序数据可以探测到低频率的变异体(


MAF<=5%


)。根据来自群体遗传学理论(


neutral


coales cent


理论)的期望值可以计算低频度变异的分布。我们用不同等位基因频率下每


Mb


变异数目与


neutral coalescent


选择下的期望值比值,即每


Mb


基因组


windows


内的


theta



测值,来刻画和反映自然纯化选择与种群 (


cancer cell-line


可以特定的认为是可以区 分的种


群)增长速率。该分布分别考察


SNP

< br>(蓝色线),


Indel


(红色线),具有基因型的大片 段


缺失(黑色线),以及外显子区域上的


SNP


(绿色线)在不同等位基因频率区间上的


theta


情况(参见下图)。




(2).


全新变异体


(novel variant)


的等位基因频率和数量分布



分析对象包括全新预测的


SNP


indel



large deletion,


以及外显子


SNP


在每个等位基因频率


类别下的数目比率(


fraction


)(参见 下图);全新预测是指预测分析结果与


dbSNP


(当前


版本


129


)以及


d eletion


数据库


dbVar


(< /p>


2010



6


月 份版本)和已经发表的有关


indels


研究

< br>的基因组数据经过比较后识别确定的全新的


SNP



indel


以及


deletion



dbSNP


包含


SN P



indels; dbVAR


包含 有


deletion,duplication,


以及


mobile element insertion



dbRIP


以及其他基因


组学研究


JC Ventrer


以及


Watson


基 因组,


炎黄计划亚洲人基因组)


结果提供的

short indels



large deletion





(3).


变异体的大小分布以及新颖性分布



计 算


SNP



Deletion


,以及


Insertion


大小分布;计算< /p>


SNP



Deletion


,以及


Insertion


中属于

< br>全新预测结果的数目占已有各自参考数据库数目的比例(相对于


dbSNP


数据库;


dbSNP




SNP



indels;dbVA R


包含有


deletion,duplication,


以及


mobile element insertion

< p>


dbRIP



及其他基 因组学研究(


JC Ventrer


以及


Watson


基 因组,炎黄计划亚洲人基因组)结果提供



short indels



large deletion


)其中,可以给出


LINE



Alu


的特征位置。




(4).


结构变异


SV


的断点联结点


(BreakPoint Junction)


分析



根据


SV


不同检出结果经过一些列筛选步骤构建所有结构变异


SV


的断点联结点数据库,保


留长度大于等于


50bp



SV


;分 析断点联结点处具有


homology


或者

microhomology



SV



并将同一染色体,起始和终止位置坐标下的不同


SV


进行去冗余处理。



分析识别


SV


的断点联结点(


Breakpoint



:



Breakpoint


按照可能形成的方式可以分类 为


以下几类:



a


)非等位基因同源重组型(


non-allelic homologous recombination- NAHR



;


b


)非同源重组(


nonhomologous recombination- NHR


),包括


nonhomologous end- joining


(NHEJ)



fork stalling /template switching



FoSTeS/MMBIR


);




c


)可变串联重复(


VNTR





d


)转座插入元件(


TEI


)。







C



SV


形成偏好性分析



分析


SV


形成机制与断裂点临近区域序列的关系,包括 染色质界标(端粒,中心粒),重组


高发热点区域,


重复序列以 及GC含量,



DNA motif


和 微同源区域



microhomology region





-


-


-


-


-


-


-


-



本文更新与2021-02-27 21:34,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/676185.html

全基因组重测序数据分析的相关文章