文献分享 | Evo:基因组级别序列大模型

引言
斯坦福大学Arc研究所团队开发了名为Evo的基因组基础模型,并在《Science》期刊上发表封面文章,该模型首次实现了从单核苷酸分辨率到兆碱基尺度(>1 Mbp)的DNA序列建模与多模态生成。该研究通过架构创新、超大规模数据训练及系统性实验验证,为合成生物学与基因组工程提供了全新的范式。
项目背景
DNA序列是生物体内的基本指令,包含数百万个碱基对,编码了DNA、RNA和蛋白质之间的相互作用。这些复杂的分子相互作用是细胞实现功能的关键。
并且,基因组序列的模式是经过长期进化选择的结果,理解这些基因组的设计模式可以帮助揭示某些复杂的生物功能和生物对环境的适应性。
近年来,大语言模型(如GPT,BERT)在自然语言处理领域获得了显著进展,展示了强大的多任务推理和生成能力。但传统热门架构Transformer在处理长序列时计算复杂度较高,效率较低,并且现有的模型通常以多个核苷酸为单位进行建模,在单核苷酸分辨率下性能不佳。同时,新的深度学习架构(如StripedHyena),同时结合了卷积和注意力机制,能够实现在长序列情况下更高效的建模。所以作者团队希望基于新架构开发一个在生物学领域,统一多模态,能够处理长上下文,并且在单核苷酸分辨率下实现高效预测和生成基因组的基础模型,从而推动生物学研究和应用的进一步发展。
方法论革新
1. Striped Hyena架构
传统Transformer模型在处理长基因组序列时,由于计算复杂度过高(O(N²)),难以高效处理长距离信息,同时分辨率也受到限制。Evo模型通过引入StripedHyena架构,在一定程度上解决了这一问题。StripedHyena架构是一种结合了卷积(Convolution)和注意力机制(Attention)的新一代架构,由Hyena算子层和多头注意力层组成,并且这些模块都由旋转位置嵌入(RoPE)进行增强。Hyena算子通过一种高效的数学方法(data-controlled convolutional method)实现了输入依赖的序列混合,能够在保留基因组中每一个基本单元(单核苷酸)的细节信息的同时,显著提升长上下文(131 kbp)的处理效率,将计算复杂度从平方级降低到亚二次级。
进一步研究表明,StripedHyena在处理DNA数据时,其预测能力随着模型规模(70亿参数)和训练数据量(3000亿核苷酸)的增加而显著提升,呈现出一种规律性的改进。这验证了生物学序列可以通过扩大模型规模和数据量实现更高效的建模能力(Scaling Law)。这一架构不仅大幅提升了计算效率,还保留了对基因组序列的精细建模能力,为处理大规模生物数据提供了新的技术路径。

2. 模型的预训练
Evo的预训练方法基于next-token prediction(NTP,下一个Token预测)方法,这是目前大多数语言模型常用的训练策略。这种方法的核心思想是让模型通过预测序列中的下一个token来学习输入序列的模式和结构。在Evo的预训练体系中,输入序列是基因组的原始核苷酸序列,模型的目标是预测序列中的下一个核苷酸。
总体来说,Evo的训练经历了两大阶段,第一阶段是8192个token上下文长度的序列,在这一阶段Evo主要学习局部的序列模式,有助于模型的快速收敛并且捕捉基因序列的局部特征。
第二阶段拓展了模型的上下文长度到131072个tokens,这有利于模型学习更长距离的基因组上下文信息,比如:学习基因之间的相互作用、基因组的全局结构等信息,拓展上下文也有利于让模型学习生物自然进化的相关信息,原因是生物体在进化中的基因组变化往往涉及到较大的序列范围,同时拓展的上下文长度可以让Evo能生成更连贯且更复杂的基因组序列,提高模型的生成质量。
3. 预训练数据集 OpenGenome
OpenGenome是一个为Evo模型预训练而开发的大规模基因组数据集,涵盖了广泛的原核生物基因组序列,主要包括了细菌、古菌、噬菌体和质粒的基因组数据,约有3000亿个核苷酸token。
OpenGenome数据集主要整合了GTDB、IMG/VR和IMG/PR三个数据来源的数据,并且从中排除了可以感染真核生物的真核病毒序列,只保留了感染原核生物的病毒序列。此外,OpenGenome还通过数据去冗余和过滤低质量序列等方法来确保数据集的质量。
同时针对两个阶段预训练的特点,作者团队使用了序列打包(Sequencing Packing)来将不同的DNA序列拼接成为一个上下文长度为8k和131k的训练样本。
总结来说,OpenGenome数据集是一个具有多样性、高质量和大规模的针对Evo序列开发的一个数据集,并且此数据集不仅可以应用于预训练Evo模型,可能在其他下游任务中也有重要的潜在作用。

多模态零样本推理能力
在无任务特异性微调(Zero Shot)的条件下,Evo展现出跨DNA、RNA、蛋白质模态的泛化能力:
- 蛋白质适应性预测:基于9个原核蛋白深度突变扫描(DMS)数据集,Evo的Spearman相关系数(平均r=0.62)与专用蛋白质语言模型(ESM-2 3B)相当。
- 非编码RNA功能:针对5S rRNA等7个ncRNA突变数据集,Evo预测性能(r=0.60)显著优于RNA-FM(r=0.40,p=1.9×10⁻⁹)。
- 调控元件协同效应:联合启动子与核糖体结合位点(RBS)序列输入时,Evo对蛋白表达的预测能力(r=0.61)超过单一元件分析(r=0.17),提示模型捕获了跨元件的转录-翻译耦合机制。
在零样本无微调的前提下,Evo显示出了与特定领域模型相当甚至更强的性能表现。

生成生物学序列以及实验验证
Evo通过进一步的微调,可以实现了多层级生物系统的从头设计,作者团队还针对了Evo设计出来的结果进行了体外的湿实验验证,用以证明Evo模型从头设计序列的能力:
CRISPR-Cas复合体:对72,831个CRISPR-Cas基因座微调后,模型生成的8 kbp序列包含完整Cas编码区(如EvoCas9-1,与天然Cas9序列相似度79.9%)及配套crRNA/tracrRNA。体外实验证实,EvoCas9-1的DNA切割活性与SpCas9相当,且其设计的sgRNA可优化切割效率。

转座子系统:基于10,720个IS200/IS605元件微调,模型生成序列中14/48个设计在体外验证了TnpA介导的剪切-粘贴活性。活性最强的ISEv01元件与训练集同源性仅67%,表明AI可能能够突破自然进化约束。


长上下文预训练****:为了使得Evo能够分析完整的基因组,作者团队进行了第二阶段的预训练,让Evo能够处理131,072个tokens的长上下文,并且依旧保持了单核苷酸分辨率。
兆碱基(MB)级基因组生成:输入物种分类标记(如“Escherichia coli”)后,Evo生成的1 Mbp序列在编码密度、四核苷酸偏差及终止密码子分布上均接近自然序列,尽管保守标记基因(如rRNA)的完整性仍需优化。


创新与挑战
Evo实现了单核苷酸分辨率上的基因组大模型,通过架构创新、大规模数据训练和系统的体外湿实验验证,为合成生物学和基因组学提供了新的视角,本研究的主要贡献有:
- 架构创新:作者团队没有选择当下主流且热门的transformer框架,而是引入了StripedHyena架构,并且首次实现长基因组序列的高效建模,为后续生物基础模型设立新基准。
- Scaling Law:提出并且验证了生物大模型领域的Scaling Law,发现Evo在DNA数据上的困惑度随着模型规模和数据量的增加呈现幂律下降,从而验证了生物学序列可拓展学习的规律。
- 实验验证:通过CRISPR与转座子系统的湿实验验证,确立了AI设计-实验检验的迭代范式。
- 伦理和安全考虑:作者团队在开发Evo时排除了真核病毒序列作为训练数据,降低了潜在的生物安全风险。
但在Evo具有良好的模型性能以及多样创新点的同时,此项研究仍然有许多不足与挑战:
局限于原核:当前模型限于原核数据,真核基因组的表观调控与剪接机制需纳入训练。
计算资源挑战:虽然通过架构革新实现了计算复杂度的降低,但是Evo模型的推理仍然需要大量资源,并且计算资源会成为未来同类模型的需求之一。
生成一致性:兆碱基序列缺乏完整功能模块(如核糖体操纵子),即生成序列可能在局部上合理,但从长上下文关系来看仍然缺乏连贯性,这与自然语言模型所遇到的问题相似。
生物安全:尽管排除真核病毒数据并开源模型,基因组级生成技术的双用途风险需国际协作监管(如GA4GH框架)。
未来展望
Evo的发布标志着大模型在计算生物学领域向着基因组级别系统级设计迈进的关键一步。作者团队预期Evo将会受益于更大规模,更长上下文,更丰富的训练数据,从而可能帮助多基因系统的定向进化。并且,通过进一步的prompt engineering,Evo有潜力成为下一代序列搜索算法的基础,能够在关系层面或者语义层面进行宏基因组挖掘(metagenomic mining)。同时,随着大规模基因组修改的进展,Evo将会把生物工程与设计拓展到整个基因组的层面。
原文及附加材料信息