CNV简介
NGS检测策略
Reads-Depth原理开发CNV
局限性
1.CNV简介
拷贝数异常(copynumbervariations,CNVs)是属于基因组结构变异(structuralvariation);拷贝数变异检测是一种通过对特定基因或全基因组扫描发现基因组中大片段DNA序列的变异的检测方法。拷贝数变异包括染色体水平的缺失、倒位、易位、插入、重复等基因组结构的变化。(亚显微水平的基因组结构变异是指DNA片段长度在1Kb-3Mb的基因组结构变异)
2.NGS检测策略
Read-Pair(RP):RP是最早出现的算法,利用双端测序插入片段长度分布来检测CNV,也称之为PEM,pairendmapping方法。
Split-read(SR):SR方法利用一端能够比对,另外一端比对不上的reads来识别CNV。另外一端比对不上,可能是存在CNV,通过将单独的reads进行拆分,使其能够正确比对到参考基因组上,拆分的点就是CNV的断裂点。
Read-Depth(RD):RD方法利用拷贝数和对应区域测序深度的相关性来进行分析,基本模型是缺失区域的测序深度相对低,而插入区域的测序深度相对高。该算法采用滑动窗口的方式,统计每个窗口内的测序深度分布,然后根据不同窗口测序深度的分布来预测CNV区域。
Assembly(AS):AS方法利用测序得到的短序列进行组装,将组装的contig与参考基因组进行比较,从而确定发生了结构变异的区域。
3.Reads-Depth原理开发CNV
窗口reads计数:将人类参考基因组划分为长度一定或不一定的窗口,然后对窗口内的reads计数。
数据校正:常见的校正方法有基于已知特征的校正,比如GC含量、Mappability,和基于参照样本的校正。(cnvkit校正,利用滑窗取中位值方法进行校准)
染色体分段:由于拷贝数变化一般是基因组上连续的一段区域,所以根据校正后的数据对染色体进行分段。隐马尔科夫模型(HMM)和循环二元分割(CBS)是两种常见的分析算法。(建基线,基于基线验证case样本是不存在cnv)
4.局限性:
基于readcount方法检测CNV,最主要的是寻找基因组某一区段内的reads数量与CNV的关系。然而这种关系会受到样本GC偏好性、数据比对偏好性、实验操作背景噪音以及测序偏好性的影响。其次,在选择WES或TRS测序时,探针的捕获偏好性以及reads在不同外显子区的分布偏好性会影响到CNV检测时的数据统计,会成为CNV检测算法的背景噪音。最重要的挑战是肿瘤样本本身的复杂性,包括肿瘤纯度、倍性以及克隆结构异质性。
参考软件:cnvkit: