千教网 > 生活 >
破解基因组的奥秘一直是生物科学的前沿挑战,怎么样叫人工智能(人工智能)了解 DNA 的复杂信息,并用它来设计和操控生命的“程序代码”?
通过深度学习算法,人工智能 不只能辨别基因组中细微的模式,还可以生成完整的基因序列,为基因编辑和新药开发提供前所未有些支持。
今日凌晨,斯坦福大学习化学工程助理教授 Brian L. Hie 团队以封面文章的形式在权威科学期刊 Science 上发表了一项开创性研究成就 —— Evo,一个可以解码和设计 DNA、RNA 和蛋白质序列的大规模基因组基础模型。
据介绍,Evo 模型基于 3000 亿 DNA token 练习,可以在长序列的单碱基分辨率下进行预测和生成,特别在跨物种的基因预测上获得了超越特定模型的表现。
Evo 模型专为捕捉生物学中两个核心方面:中心法则的多模态性和进化的多尺度特质。中心法则揭示了 DNA、RNA 和蛋白质的统一信息流,而进化跨越了分子、渠道、细胞到生物体的每个层级。
研究发现,Evo 生成的多基因系统成功率接近 50%,生成的 CRISPR-Cas9 蛋白也经实验验证具备功能活性。除此之外,在全基因组生成方面,Evo 生成的序列在基因组组织、编码密度和天然基因组方面显示出高度的相似性。
Evo 不只可以预测基因突变的效应,还拥有生成完整基因组序列的能力,在基因组设计、药物开发和生物工程范围具备广阔的潜力。
美国 Gladstone 心血管病研究所的 Christina V. Theodoris 在一篇文章中评论道:“Evo 的意义在于,初次从进化多样性中提取出 DNA 的‘语法规则’,将基因组信息的建模提高到一个新的层次。”
Evo :解码生命指令的基因组基础模型
基因组序列的演化过程展示了生物体对环境的适应与选择,伴随基因组测序技术的进步,人类逐步学会了绘制和分析基因组多样性的能力,从而揭示了基因在健康、疾病和生物适应性中的重点角色。
DNA 作为遗传信息的载体,通过四种碱基(A、T、G、C)序列记录了生物体的生命指令。
Theodoris 在评论文章中指出:“DNA 尽管只有四种碱基的 ‘词语’,却像一种语言,编码了调控细胞各层级活动的基础信息,从DNA、RNA到蛋白质。这类信息在指导细胞功能的同时,代代相传,驱动生物体的进化。”
Theodoris 指出,正是这种进化多样性中的 DNA 序列对比,赋予了大型语言模型学习 DNA 语法的潜力,而这一能力是此前基于单一基因组的模型很难学会的。
然而,建模基因组信息仍面临显著挑战。目前的机器学习模型多聚焦于特定分子(如蛋白质、RNA),在长 DNA 序列的生成与预测上存在局限性,特别是在涉及基因调控和 CRISPR 免疫等复杂系统的多分子、多尺度应用中。比如,基于 Transformer 的 DNA 模型受限于较短的上下文长度,多使用将核苷酸聚合成语言模型基本单元的办法,牺牲了单碱基分辨率。
为应付这类挑战,研究团队借鉴自然语言处置模型在长文本预测与生成中的成功案例,开发了 Evo 模型。
Evo 使用了混合模型构造 StripedHyena,巧妙地将数据控制的卷积算子与多头注意力机制相结合,克服了传统 Transformer 构造在长序列 DNA 处置中的计算本钱和分辨率问题,达成了在单碱基分辨率下对长达 131072 个 token 的上下文长度的高效处置,很大提高了基因组剖析的精准性和效率。
图|拥有 70 亿个参数的基因组基础模型 Evo ,可学习从单个核苷酸到整个基因组的生物复杂性。
Evo 模型用 OpenGenome 大型数据集进行练习,该数据集包括超越 80000 个细菌和古菌基因组与数百万个预测的噬菌体和质粒序列,涵盖 3000 亿个核苷酸 token。练习分两个阶段,先用 8192 个 token 上下文长度,再扩展到 131072 个 token 上下文长度,参数规模达 70 亿。
通过预练习,使得 Evo 在预测突变对蛋白质和非编码 RNA 功能影响时,可以全方位考虑分子间的协同用途,为基因突变的精准预测提供了可能性。
DNA 编码与自然语言中的单词和句子不同,DNA 是连续的,包括了重叠的多重信息。Theodoris 在评论文章中指出,“突变可能影响这类信息中的任何一层,因此大型语言模型需要在单核苷酸分辨率下操作,以全方位理解 DNA 信息的复杂性。”
Evo 模型在单核苷酸分辨率下操作的能力,正是应付这种复杂性的核心。
研究职员对 DNA 序列建模进行 scaling laws 剖析,比较了 Transformer++、Mamba、Hyena 和 StripedHyena 等多种构造。结果显示,StripedHyena 在不同计算预算下表现出更优的缩放率,能稳定练习,且在计算最佳前沿以外的性能也较好,这为选择该构造作为 Evo 的基础提供了依据。
Theodoris 评论道:“Evo 使用了 StripedHyena 构造,将计算时间增加较慢的 Hyena 算子与传统 Transformer 算子结合,提高了生成水平和计算效率,且其扩展规律与自然语言、计算机视觉的规律类似,为将来的模型扩展提供了计算资源分配的最好方法。”
多模态预测:跨物种基因突变预测的优秀表现
研究职员在多种预测和生成任务中测试了 Evo 的能力,来验证它解码遗传序列并在细胞内多层次调控中实行任务的能力。
实验数据显示,Evo 在预测突变对蛋白质功能影响方面展示出领先性能,在原核生物蛋白质的 DMS 数据集中,Evo 的零样本预测能力优于其他核苷酸模型,接近某些专注于蛋白质的语言模型。
在人类蛋白质数据集上,因为初始数据量有限,表现略逊,但 Evo 在进一步练习中的改进潜力巨大,特别在预测困惑度与适应性关联方面的发现提供了要紧启示。
图|Evo 学习跨越蛋白质、ncRNAs 和调控 DNA 的功能
Evo 的跨物种预测能力不只限于蛋白质。在非编码RNA的功能预测中,Evo 在多个 DMS 任务中的表现超越其他核苷酸语言模型。特别在预测 5S rRNA 突变对大肠杆菌成长影响时,Evo 的斯皮尔曼有关系数达 0.60,表现出优秀的突变影响预测能力。
除此之外,Evo 在调控 DNA 活性预测方面,以高零样本似然度显著关联启动子活性,结合监督模型后接近一流的预测办法,为非编码地区的功能研究提供了有力支持。
生成式设计:功能性 CRISPR-Cas9 与转座子系统的创建
研究发现,Evo 在生成式设计中的表现同样亮眼。经过微调的 Evo 模型可以参考提示生成多类型型的 CRISPR-Cas 系统,其中筛选出的 EvoCas9-1 被实验验证具备与天然 SpCas9 类似的体外切割活性。
除去 CRISPR 系统,Evo 生成的 sgRNA 可以提高 SpCas9 的切割效率,同时生成的 Cas9 系统部分与天然 Cas9 序列同一性较低,展示了较强的多样性与功能性。
图|Evo 可生成具备可信基因组结构的巨量级序列
在转座子生成方面,Evo 同样展示出灵活性和准确性。Evo 生成的 IS200 和 IS605 元素在体外实验中表现好,部分元件成功达成了切除与插入功能,显示出在生成功能性转座子中的潜力。比如, IS200 类似元件的成功率接近 50%,生成的 TnpA 蛋白具备功能性的发夹结构和低同一性,显示出在转座子生成中的广泛适应性。
Theodoris 称:“Evo 在基因工具生成中的表现,显示了 人工智能 在基因设计的广泛应用性。”
Theodoris 觉得,这项突破性的研究展示了怎么样在计算最佳的构造下达成数据和模型规模的合理配置,不只对将来更大规模的基因组建模有指导意义,也标志着基因组大模型与自然语言处置的跨范围革新。
不足和展望
尽管 Evo 生成的基因组规模序列(约1 Mb)在编码密度、GC含量、蛋白质结构预测、tRNA生成等方面高度接近天然基因组,但现在研究仍有瓶颈。
第一,Evo 模型在仅含 3000 亿原核生物 token 的数据集预练习,相比大量公开基因组数据只不过一小部分,这致使其预测人类蛋白质突变功能效应的能力受限。
第二,与自然语言模型类似,Evo 在生成长序列时很难保证连贯性和多样性。比如,生成 CRISPR - Cas 序列时会有 cas 基因缺失或不完整问题,生成百万碱基长的基因组序列时很难涵盖整套 rRNAs 等重点 token 基因,影响序列完整性和可用性。
研究团队指出,将来将通过扩云数据集、增加模型规模、丰富练习上下文等方法提高 Evo 的性能。
在功能拓展方面,借助基因组语言模型引导多基因系统定向进化,提升多基因环境下分子结构预测的准确性,并通过优化条件和提示工程让 Evo 成为下一代序列搜索算法核心,从关系或语义层面挖掘宏基因组信息。
在数据拓展和安全方面,计划纳入真核基因组,但因其复杂性高,需在模型工程、计算资源和安全校准投入很多资源。结合大规模基因组改造进展,Evo 将推进生物工程和设计扩展到全基因组规模。
在功能拓展方面,借助基因组语言模型引导多基因系统定向进化,提升多基因环境下分子结构预测的准确性,并通过优化条件和提示工程让 Evo 成为下一代序列搜索算法核心,从关系或语义层面挖掘宏基因组信息。
在数据拓展和安全方面,计划纳入真核基因组,但因其复杂性高,需在模型工程、计算资源和安全校准投入很多资源。结合大规模基因组改造进展,Evo 将推进生物工程和设计扩展到全基因组规模。
Theodoris 预测,将来模型可能学习人类及其他真核生物基因组,从而更有效地预测基因组中长距离调控交互的影响。
他还设想,通过环境原因或细胞状况的提示,可以进一步引导 Evo,使其可以在多细胞生物中依据不一样的时空条件实行特定的细胞功能。
Evo 模型的安全与伦理考量
值得关注的是,生物技术是一把双刃剑,像 Evo 如此的强大基因组基础模型在带来科研突破的同时,也引发了一些安全与伦理的讨论。
比如,恶意用户可能借助 Evo 生成抗药性或免疫逃逸的微生物,尽管实质操作困难程度较大,但伴随基因工程工具的普及,有必要对模型用权限进行严格监管,明确“滥用”行为的界定,以确保 Evo 的安全用。
除此之外,Evo 的开源性为科研带来了透明性,但其应用资源的分配也会引发科技不平等。
现在,主要能有效运用 Evo 的机构多集中于生物技术公司和大型科研组织,这可能加剧科技红利在特定人群中的集中。为达成全球科技红利的均衡,国际社会有必要推进资源匮乏区域的技术培训与支持,以弥合科技应用的差距。
在生态层面,尽管 Evo 本身不会直接操控基因,但其生成的基因编辑系统可能带来生态挑战。基因编辑生物体释放到自然环境中可能引发生态失衡。为此,研究团队建议,全球科学界应拟定更为严格的基因工程准则,以确保科技在尊重自然生态的首要条件下造福人类。
Evo 的诞生标志着生成式基因组学进入了一个新年代。
作为一款拥有跨物种基因预测和生成能力的基础模型,Evo 不只在基因组设计、药物开发等范围展示了前所未有些潜力,也推进了生命科学范围的革新。
然而,在推进技术进步的同时,科学家们也需维持对安全、社会公平和生态保护的高度关注。通过拟定健全的政策和全球协作,确保 Evo 模型的负责任应用,生成式基因组学将在将来迎来愈加广阔的应用前景。
编辑:学术君
- 上一篇:新能源汽车:驶向制造强国的道路
- 下一篇:没有了
猜你喜欢
- 2024-10-31 生命起源新发现:一同祖先“卢卡”远比大家想象复杂!
- 2024-10-16 “太空格物”“时空涟漪”“宜居行星”“地外生命”……国内发布首个空间科
- 2024-09-30 生命方舟攻略旅游
- 2024-09-29 手术室的“冰”境奇缘——低温与生命安全
- 2024-09-24 《守望先锋》生命值 《守望先锋》生命值如何看
- 2024-09-06 张人亚父子用生命和一生在守护的是什么? 张人亚父子守护的是什么
- 2024-08-28 “顺风耳”真的存在!生命探测雷达怎么样“听”到厚厚废墟下的微弱心跳
- 2024-05-21 水星是异国情态的盐冰川下生命家园
- 热点排行
- 热门推荐
- 热门tag