编者按:在生物学研究领域,传统基于分子、细胞、生理学实验方法进行的研究通常被称作湿实验,如今这些传统的生物学方法在某种程度上都遇到了瓶颈,而被称作干实验的计算机模拟和生物学相结合的研究,正在利用 AI、大数据等创新手段,为生物学研究打开了另一扇窗。今天就让我们一起来看一看三位在微软亚洲研究院从事计算生物学研究的研究员的跨界经历。
2020年,一场突如其来的新冠疫情让生物学与 AI 等技术的融合进一步加速。算力的提升、机器学习等模型的精进、大量数据的积累,都让计算生物学的研究条件越来越完善,传统生物学方法无法解答的问题,可以通过这样的跨界研究有所突破,因此,计算生物学成为了生物学研究的一个重要分支。
早在一两年前,微软亚洲研究院就开始涉及计算生物学领域,近年来,基于干实验的生物学研究已在研究院逐渐起步,研究院里也因此多了几位生物学博士。所谓干实验,是与传统生物学实验室的湿实验相对应的一种研究方式,它不需要在物理层面操作实际的细胞、分子等进行实验,而是用计算机模拟的方式,去做生物学的实验,甚至预测和推论。
计算机科学和生物学碰撞出了哪些火花?计算生物学的未来发展是怎样的?又是什么原因让越来越多生物学的人才选择加入了微软亚洲研究院?让我们从三位微软亚洲研究院计算生物学组研究员的故事中来发现答案吧。
王童
从蛋白质结构预测到分子动力学模拟
2019年,刚在清华大学完成博士学业的王童直接加入了微软亚洲研究院。读博期间,王童从事的就是计算生物学这个交叉学科的研究,“在计算生物学领域除了需要掌握计算机、生物学的知识外,还会涉及数学、物理等其他学科”。
做研究是王童所喜欢的,但在寻找适合的工作环境时,他发现不少研究机构都仅聚焦于单一领域的研究,同事们的背景也十分相似,对于需要跨越多个学科的计算生物学研究来说,王童感觉缺了点什么。“我之所以最终选择了微软亚洲研究院,是因为这里多元化的氛围和环境,不仅研究员们来自不同的学科背景,研究项目也是百花齐放,做研究在这里不会被设限。”
在微软亚洲研究院的这一年里,王童开启了从蛋白质结构预测,到分子动力学模拟等多个与蛋白质相关的研究项目。
从无到有的蛋白质结构预测
大自然里为什么会有生命?生命又为什么如此不同?如此精巧?其中蛋白质非常关键,一个蛋白质折叠的潜在构象(即结构)是一个天文数字,但一个蛋白质链却在几毫秒内就能折叠成为一个精确定义的天然结构。“想要探索蛋白质的结构,传统的生物学方法需要花费大量时间和人力,但随着如今计算机科学的快速发展,强大的算力和精巧的算法可以让蛋白质结构预测更加高效,”王童介绍道。
传统的生物学研究中有一个基于知识经验的Rosetta框架,可以预测蛋白质结构,在过去的二十余年间,研究人员不断“人工”地为其添砖加瓦。而王童和微软亚洲研究院机器学习组的同事们则一起在业界数据积累的基础上开发了一套蛋白质结构预测的深度学习框架。该框架可以自监督、自适应地不断迭代蛋白质的折叠方式,研究人员无需大量生物领域知识,也不需要关注蛋白质底层的生物构造,即可预测蛋白质结构,大大提升了蛋白质结构预测的效率,为传统框架的缓慢进化,带来了全新的 AI 节奏。
从静到动的分子动力学模拟
在生物湿实验中,实验结果只能预测静态解析蛋白质分子的空间结构,就像获取人的身份证、档案、静态照片等特征,但正如人是有血有肉、会各种表情和动作,每个蛋白质分子也都是在不断运动的,晚上睡觉、白天上班,不同环境下的分子活动也是不同的,需要动态地去看待分子变化。而模拟动态变化便是干实验的优势所在。
在微软亚洲研究院搭建的计算机系统中,王童和同事们模拟了在细胞真实水环境下蛋白动态变化的过程等等。拥有强大计算能力的平台支撑起了百万级原子的模拟计算量,数周就可以完成此前需要十几年才能完成的工作量,“以前只能模拟局部的构象,现在却可以做到对整个蛋白质结构的模拟,以及大尺度构象转变的过程,”王童说。目前,王童和团队将该研究应用在新冠病毒 SARS-CoV-2 的 S 蛋白上,发现了其中构象转变之间的关键作用和机理。
基于计算生物学的研究成果,微软亚洲研究院也希望从分子层研究上帮助创新药物的研发。一方面,在分子对接技术上做得更准、更快;另一方面,在分子生成上使用强化学习等手段来研究,以探索出前所未有的药物分子。
“相信随着 AI 和计算机技术在生物学各个领域的深入应用,一定会对生命科学和医学产生越来越深刻的影响,比如基因对比、基因鉴定就已经从之前难以企及的高端技术进入到了寻常百姓的生活中。未来将会有更多的生物高科技因为 AI 和计算而加速普及,”王童表示。
虽然在微软亚洲研究院工作仅有一年的时间,但王童已经带过7位实习生了。同学们的专业背景各不相同,有生物学、计算机科学、材料科学等等,与实习生们的跨领域碰撞也让王童感受到了自己的不断成长。在日常与同学们的交流中,王童会告诉他们:要相信科学、相信你所做的研究,这样才能永葆热情、持之以恒。而拥有开放的心态,才能让自己更好地应对未来的不确定性。
邓攀
免疫学和肠道微生物组学
邓攀从本科到博士一直都在生物学专业“摸爬滚打”,期间她听到过很多“劝退”生物领域的论调,也考虑过是不是毕业就“转码”,但每次跟朋友聊起人体奥秘、自然界的生物运行机制,她都兴奋不已。最后,她听从了内心,选择继续从事生物学的研究工作。
2020年5月,从康奈尔大学分子与细胞生物学系博士毕业近两年之后,邓攀重新回到了“学术圈”,加入了微软亚洲研究院。她笑称,自己曾经在很多场合都表达过对目前这份计算生物学研究工作的热爱,因为“这个工作真的使我快乐”,邓攀表示,“在微软亚洲研究院做研究相当纯粹,大家不需要比拼文章数量,都在做自己内心认为的真正的科学,这样一群目标一致的人在一起,交流起来特别舒服。”
“有很多计算机科班出身的同事,会经常跑过来跟我交流生物学知识,他们的提问都异常专业,”邓攀说。而此时她也刚好可以跟同事们请教一些前沿 AI 算法或者“实用调参”的技术知识。当看到有同事分享宇宙学知识的时候,她更是惊讶不已,“感觉在这里,只要是有大量数据的科学领域,研究员们就会想去做出点什么,无论跨界跨到了哪里,有什么挑战,似乎都不是问题。”
“事实上,我们目前对人体很多运行机制都并不了解。我们每个人都是从肉眼不可见的受精卵成长成人,从1个细胞变成10兆亿个细胞,细胞间的功能差异很大,人和人也各不相同,这中间有太多的事情值得去探索,”谈起生命健康的研究,邓攀的激动溢于言表。“但是,目前传统的生物学方法可能遇到了瓶颈。在这种情况下,把大数据和 AI 的方法纳入进来很有必要。以前用生物学的方法每次只能看到一点点发现,但如果用计算的方法,则有可能窥见更大的画面。”
邓攀目前的研究方向主要是免疫学和肠道微生物组学。在免疫学方向上,邓攀主要做的是T细胞的研究,以解决获得性免疫中的免疫细胞和抗原识别的问题。事实上,一个人体内平均有超过100万种不同的 T 细胞受体,而全部人群中可能出现的 T 细胞受体种类高达10的15次方,多样性极高、计算量极大,但这正是 AI 技术发挥专长的舞台。在研究过程中,邓攀参与了微软与西雅图一家生物技术公司的合作项目,旨在通过机器学习等 AI 技术,将 T 细胞受体语言转换为抗原语言,寻找身体正在对抗哪些疾病。对于肠道微生物的研究,其实也有类似之处,肠道微生物不仅多样,而且它们相互之间的影响以及对于人体机制的影响都相当复杂而隐秘,要找到其中的规律,必须依赖 AI 技术的帮忙。
除此之外,邓攀还对基因组学以及表观遗传组学的研究十分感兴趣,但“精力确实有限”,她也很希望有更多志同道合的小伙伴加入进来。
邓攀表示,生物学是一个发现性学科,主要目的是解释生物体的运转机制,所以生物学论文更强调发现的新颖性;但计算机领域则十分强调方法和思路的创新性,AI 正在倒逼传统的生物学领域去思考如何利用大量的数据挖掘其中的生物学洞察。“可以横跨在计算机科学、生物学等多个领域,并游走于不同的研究范式和思维方式之中,让我在微软亚洲研究院收获颇多。”
朱建伟
用深度神经网络预测蛋白质结构
朱建伟的本科专业是数学,在中科院计算所攻读博士时,他就开始了计算生物学的研究,且一做就是5年。博士毕业后,他也曾犹豫过是否要加入一线互联网公司,但与邓攀一样,在感受到了“探索生命奥秘”的召唤后,最终朱建伟选择了继续从事研究工作,并于2019年7月加入了微软亚洲研究院。
“研究院的工作氛围和企业文化非常适合我,研究自由,束缚很少,而且与我的研究兴趣也很匹配,”朱建伟表示。
朱建伟的主要研究方向是蛋白质结构预测,使用深度神经网络预测蛋白质残基之间的距离矩阵,进而通过距离约束恢复三维结构。人体行使各种功能都是由蛋白质特定三维结构的功能完成的,蛋白质氨基酸总体序列的数据量大概有260兆左右,其中只有0.17兆是有结构的,其他序列没有结构。研究人员的工作就是从蛋白质氨基酸序列中去预测每个氨基酸三维坐标的空间位置,形成一个构象,进而通过这个结构研究行使的功能。
朱建伟和团队通过引入创新方法,在蛋白质三维结构的任意两个氨基酸之间的距离预测中,取得了巨大改进。微软亚洲研究院的研究员们从多序列比对(Multiple Sequence Alignment,MSA)出发,直接使用大的深度神经网络预测两个氨基酸的距离,与之前先标注蛋白质属性、提取相关特征再预测蛋白质结构的方法相比,大大提高了后续三维结构预测的准确率。
朱建伟介绍道,“计算机领域方法的引入,给生物研究提供了全新的思考角度。传统的生物学家更偏重于生物的本质理论,从问题出发,通过解释生物体的内涵原理来做研究。而从机器学习的角度来看,则是从数据出发,利用已有数据去发现问题、解决问题。两方面相互推动,可以加快推进生物学的研究。”
自2017年前后精准医疗开始兴起,AI+生物也成了业界热点,尤其是2020年全球受到新冠疫情的冲击,社会各界对相关领域的关注度进一步提升。在朱建伟看来,未来 AI 技术除了在生物学的基础研究层面可以发挥更大作用,在卫生健康、疾病治疗等应用层面也将更快见效,像 AI+制药、AI+生物图像、AI+诊断结合、AI+基因检测,都会是下一阶段的重点。
在微软亚洲研究院工作的一年多时间里,朱建伟表示他最大的收获是深刻意识到了团队协作的重要性。学生时代,朱建伟有点“独行侠”的感觉,有了想法就直接去实践,但在微软亚洲研究院他发现,如果闭门造车绝对是一大损失。“来自不同领域的研究员都有着自己独特的想法,共同分享、集思广益总能给我带来诸多启发。而这也让我更能够站在对方的角度思考问题,拓宽思考的维度,”朱建伟说道。
如何更加有效地利用 AI 技术促进生物学,甚至其它科学领域的研究,是微软亚洲研究院的科研人员十分关心的问题。如果你对机器学习、计算生物学、计算化学、计算物理、高性能计算等方向感兴趣,愿意探索科学未知领域,欢迎加入微软亚洲研究院计算生物学组!
文章来源:微软研究院AI头条
(转载)