染色质的三维空间结构(3DGenomeorganization)是表观遗传学领域中的一个重要分支。近几年一系列的报道证实了染色质空间结构变化在细胞分化,重编程,以及人类发育疾病中都起到了很重要的作用。年,美国NIH投入超过1亿2千万美金成立了4DNucleome项目,资助了超过30个科研机构的参与,来共同研究三维基因组在基因调控和疾病形成中的作用。尽管目前可以用于研究三维基因组的实验手段越来越多,其中最重要的还是Hi-C(High-ThroughputChromatinConfirmationCapture)技术。Hi-C的最大优势在于它可以能够提供全基因组三维空间信息,但是由于人类基因组的庞大,想达到高分辨率(kbresolution)的Hi-C数据,需要超过数十亿的测序深度,耗费非常巨大。所以目前发表的大部分的Hi-C数据由于测序深度的限制,分辨率比较低,无法用于研究基因和其调控原件的关系。所以如何更有效地利用HiC的数据,挖掘更精确的有生物学意义的信息仍然是个巨大的挑战。
卷积神经网络(ConvolutionalNeuronNetwork)是深度学习领域中的一个重要构架。近几年来深度学习在语音识别,图像识别甚至是医疗制药和研究型基因组学等领域已经彰显了其超越传统机器学习的价值(相关报道:人工智能或将超越临床专家丨张康组Cell报道基于深度学习的视网膜疾病诊断工具——附专家点评)。
深度神经网络通过多层的拟神经训练原件将原始数据进行拆解与重组,进而从原始的海量数据信息中提取关键的抽象化特征信息。在计算机视觉中的超分辨率(super-resolution)研究中,通过在高清图片中训练一个多层神经网络,即可实现对低清图片的分辨率进行提高的效果。Hi-C数据和图片有一定的相似性,但是其特点又有很大的不一样,无法直接套用超分辨率研究中的方法。尽管如此,多层神经网络在超分辨研究中的成功,显示其在深度挖掘HiC数据中也有着巨大潜力。
日前,由来自宾夕法尼亚州立大学医学中心的的岳峰课题组与南卡罗莱纳大学/天津大学唐继*教授课题组合作在NatureCommunications杂志上发表了题为“EnhancingHi-CdataresolutionwithdeepconvolutionalneuralnetworkHiCPlus”的论文,该研究搭建了一个基于神经网络的提高Hi-C数据精准度的数据分析工具(HiCPlus),这个工作是深度学习3D基因组学上的先驱性的应用,其结果可以极大的提高现有的HiC数据的可用性,从而挖掘出更多的生物学意义,最终为3D基因组的的原理机制提供探索的依据。鉴于该工作的重要意义,BioArt特别邀请到了长期从事三维基因组学研究的清华大学颉伟教授点评,以飨读者!
对于任何一种机器学习的工具而言,高质量的训练数据集起着至关重要的作用,从而决定了其在实际问题中的准确性。在该研究中,研究员们利用迄今为止发表过的最高精度的Hi-C数据(来自GM——人B淋巴细胞和IMR90——人胚肺成纤维细胞),用一种切割原始数据的训练方法,以便获得更多的训练数据集。切割之后所得到的高质量数据集大约10,左右图像,达到以往深度学习所要求的级别。接下来作者们证明仅用6%左右的测序深度,HiCPlus就可以预测出和原始测序深度质量相近的HiC数据矩阵。同时他们还证明,在一种细胞中训练出来的模型,可以用来预测和增强别的细胞和组织中的HiC数据,这表明三维结构的形成原理在不同的细胞是有共通和保守性的。
HiC数据的难度在于它有着很强的系统性和技术性偏差,尤其是基于染色质的聚合物本性所带来的物理性距离效应(distance-effect)。目前并没有有效的办法能够扑捉到空间相近但直线上分散在不同间距之间的协同数据分布特性。HiCPlus恰好在这一点上弥补了之前算法的空白,利用多层神经网络成功模拟了测序数据在多距离间(multiple-distance)上的共同分布,从而能够更真实地反应染色质发生空间逼近时在数据上所反映的空间效应,使得比较性的研究中帮助区分多种细胞类型或者正常细胞与疾病状态之间的生物学意义上面的差异。最后,通过对深度学习增强过的HiC数据分析,研究员发现了在原本低分辨率中看不到的染色质联结,而这些联结恰好是位于增强子和基因启动子之间,从而有力地证明了HiCPlus的实际应用价值。
为了推动可重复性数据分析,研究员们已经将源代码放在了公开的网络源代码集成网站Github上面,以方便科研社区人员共同探讨。同时研究员们已经系统性地对之前发表的人类20多种组织的细胞类型进行了信号增强,增强后的数据可以在目前很流行的3DGenomeBrowser(3dgenome.org)网站浏览和下载。另,对岳峰老师实验室工作感兴趣的同学敬请浏览: