工程技术科学与高技术
人工智能赋能生命科学的机遇与挑战
访问量:
举办时间:2024-05-22 主办单位:中国科学院老科协
承办单位:中国科学院老科协数学院分会
支持单位:中国科学院老科协、中国老科协创新发展研究中心
目录
主要专家简介:
展开

【简介】

新世纪,科学研究和技术开发的关键突破对人类社会的发展,包括对科学技术进步的促进会呈现什么样的影响,进而形成什么样的局面,是值得关切的重大问题。人工智能(AI:Artificial Intelligenc)和生命科学(Life Science)是其中非常重要的话题。

经过几十年的持续努力,人工智能(AI)已经取得了让世界为之惊叹的进展。未来,人工智能还会得到怎样的发展,对人类社会的影响会怎样?每个社会成员都极为关心。而生命科学同样在近几十年突飞猛进的发展中亮点纷呈,在促进人类的健康以及延年益寿方面给人们留下了深刻印象。这两者的深度融合之前景如何?由此会引发什么样的重大研发课题,技术走向如何,相应的基础理论重点应向哪里关注?这些都值得深入思考。

经中国科学院数学院老科协分会理事会联系数学院内从事生命科学研究的相关研究人员,并与之交流,认为有必要组织一次沙龙活动,以促进相关工作的更好发展。活动的策划和组织者是中国科学院数学与系统科学研究院老科协分会理事长刘卓军研究员。该活动的计划和申请得到了中国科学院老科协理事会的支持。中国科学院数学与系统科学研究院张世华研究员及其团队给予了技术配合和相关嘉宾的邀请,中国科学院数学与系统科学研究院老科协分会理事会的成员白英、申玫玫、王宸泽瑶落实了具体的会务工作。

经多次商议,决定邀请陈润生院士做主旨演讲。陈院士是常年从事生命科学研究的著名专家。他在近年尤其高度重视人工智能,特别是积极应用大模型工具开展相关问题的研究。他的工作团队已经在这个方面取得了非常好的成果和进展,同时也积攒了非常多的经验。他的见解和对未来发展的一些看法是非常有价值和意义的。围绕陈院士的主旨报告,为了更好更深入地实现理解、交流,我们在设计上还安排了三个邀请报告,分别由卜东波研究员、伯晓晨研究员和张世华研究员,从计算机及信息技术、生物医学和数学的不同维度更有层次和交融地交流人工智能与生命科学已有的一些进展及对未来的发展做出展望。

沙龙的举办,特别希望能引发参与沙龙的研究人员、研究生们开阔视野、理解和认识可能的发展趋势,在人工智能赋能生命科学的大舞台上在今后有更好的成长。

[返回]

【主持人致辞】

张世华:尊敬的陈院士,各位专家,各位同学,各位领导,非常高兴大家能够到科学技术前沿学术沙龙活动的现场,我们的主题,大家看到了是人工智能赋能生命科学,也就是所谓的AI for Life Science。我们现在面临着机遇,同时也有很多挑战。我们希望在陈先生几位老师引导下就这个主题进行深入讨论,我们这次沙龙活动得到中国科学院老科协的指导和支持。这次我们的嘉宾中,大家看到了“80后”陈先生(陈润生院士),孙建国书记--中国科学院老科协理事长也到了我们的现场,我们数学院的王敬泽书记也在,还有好多老师和年轻的研究生们。非常感谢,首先请数学院党委副书记王敬泽致辞。 

王敬泽:内容略。重点,一,本次沙龙很有意义;二,欢迎各位参加沙龙活动,感谢嘉宾,感谢与会者;三,数学是科学研究的基础,我们希望这个基础作用在包括人工智能和生命科学的融合发展中发挥更大的作用;四,祝沙龙取得圆满成功。

张世华:感谢王书记热情洋溢的致辞,我们进入正式的报告环节,我们的嘉宾陈润生院士,从事生命科学研究几十年。他在20年前那个时候就用现在所谓的深度学习的前身神经网络来预测蛋白质相关的这些事情。陈先生是“80后”,80多岁的老先生,还在努力学习人工智能最前沿的东西,为我们树立了榜样。让我们用热烈掌声欢迎陈先生做报告。

[返回]

【领导致辞】

[返回]

【主旨报告】

陈润生:非常高兴跟大家进行交流,我是1941年生的,确实是83了,不过我觉得对我们搞科研的这是习惯,你总要敏感地去了解当前科技进展。今天跟大家主要谈大模型的话题,不仅仅限于人工智能。大家可能知道,人工智能已经搞多年了,但是大模型才是几年,应当说人工智能进展到大模型时代是进入了一个新的阶段。我想在座很多年轻人对大模型也有很多接触,我们也是做一个交流。

我们知道近年来生物医学跟其他学科一样进入了大数据时代。过去,大家知道看病是凭经验,现在我们知道随着数据越来越多,跟医疗诊断相关的定量的数据也越来越多。比方说,我们电子病历这是用自然语言由医生手写的,这是一类;第二类是生理生化指标,包括波形在内的各种各样的生理生化指标;第三类影像,CT、PET都是影像学,有组学,基因组、转录组、蛋白组、代谢组等等。这些数据如果去看,从复杂性来讲它是多尺度、高维度的,完全不一样的标准,怎么整合在一起,怎么建模,这些都要深入思考。

过去我们认为研究生物主要是关注蛋白,我自己是从事研究核酸的,现在发现决定生物功能至少和蛋白并列的,不比蛋白重要性差的是核酸,这个网络节点过去认为单色质蛋白现在至少是双色,一个核酸,一个蛋白,还有更复杂,还有脂,还有糖,在座都是数学家,从定量的角度建立所谓的解析的模型现在看来没有办法,太复杂,所以这种情况下怎么办,很多科学家就联想了,这好像是一个“黑箱”,上世纪维纳和香农在发展控制论和信息论的时候提出来很多系统就好比是黑箱,我们有越来越多的输入端的检测数据,越来越多表征我们健康的指标,但是我们需要了解中间机制是什么,这个机制从科学哲学来讲就可以认为是一套黑箱,我们希望把黑箱变成白箱。当然这个过程得一步步走,把黑箱一块一块变灰,把灰变成白。现实是,越来越多指标可测量,越来越多的疾病可以表征,但是中间机制和对机制干预本身依然是黑箱,而这个黑箱后来大家发现,和我们所谓的机器学习的深度学习是一样的,你去看这个模型,这个深度学习有大量的输入端,有输出端,中间有一块用神经网络概括出来的一套东西。

和表征生命体系相比,这是完全从科学的演绎来讲是可以比拟的,所以这个时候整个生物医学家和计算机科学家结合起来就考虑,与其对大数据生命系统如此复杂,很难直接写出它的解析表达,从科学哲学来讲我们应当可以用深度学习这样一个体系,我们只要把中间的神经网络解析清楚了,也许他的可解释性就可以很好的说明疾病的某些特征。因此这从科学哲学来讲,整个的人工智能,目前所谓的Learning的这些东西,就很自然纳入到解析生物医学当中来,从本质来讲它是有深刻科学哲学基础的。

深度学习我们知道具体怎么用,现在主要是用到人工智能和大模型。现在来谈谈我对大模型的了解,特别年轻人你们天天用大模型用的比我多,咱们一起讨论讨论大模型。

大家都知道ChatGPT、GPT4,现在可能正在运行的应当说最好的大模型是Claude—3,不知道大家试过没有,大家可以登录进去,可以给他一句话,假设用其他语言不方便,我把全界面改成中文立马改过来,Claude现在是最强的,大家登陆试一试。

目前大模型的知识集成水平,到2023年5月份的人类公开的知识都被学进到大模型里面了,就是人类公开发表的所有知识都进去了。到2023年年中,所以每个人跟它比简直没法比,因为它集成了所有知识,你一个人能学多少?当然现在我们知道这些模型里面只有Crok,是现在所谓能力最强的开源的,将来可以讲,如果你做垂直大模型,我建议最好的,最开放的模型把它下载,因为我最近接触搞大模型人太多,几乎每个人都谈搞大模型。但其中80%其实不是大模型,他们对大模型根本不了解,我们知道不是说你买两块A100片子在那儿一堆就是大模型,从性能到概念都有很大差别。

大模型实际上是一个平台,大模型叫Large Model,在早期提法Foundation Model基础模型,实际上大模型本身是互联网人工智能发展到高级阶段的一个通用平台,大模型就是一个新的平台,这个平台集成各种各样的应用和各种各样的知识,为整个现代的各个领域来服务。这个大模型我们知道中国人跟的很快,每个大模型都有名字这是惯例,华为大模型是盘古,腾讯大模型是混元,阿里大模型是通义,百度大模型是文心。作为用户来讲不管国内还是国外大模型都还是非常好用的,因为我们用的知识有限,所以任何一个大模型如果不做一个评价体系的话你根本分不清哪个大模型好,你要解决的那点事,可能哪个大模型都能干,分不出来。

早期人们老讲,GPT—4谁也考不过它,现在已经太容易解释了,他把人类截止2023年的知识都学了,你跟他比比不过的,这都不在话下。一年前津津乐道的事,这个大模型对经济商业,对生物医药,不仅仅对科学,对整个社会都有深刻介入,所以觉得大模型应当渗透到每个人生活当中,这在很短时间内就会实现。

下面讲大模型跟通用人工智能的比较,到底有哪点新意,哪点是所谓革命性、变革性,我觉得有两点,这两点是大模型跟一般的人工智能不一样的。

1、自然语言的处理,什么意思,就是大模型会读书了,我们知道我们每个人的知识增长都是靠读课本来的,小学、中学、大学、研究生,你念一大堆书,都是自然语言方式记录的知识,过去任何人工智能、计算机系统、互联网都不会读书,现在大模型会读书。

自然语言会读书了,换句话说,这个大模型只要体系足够大,只要它速度足够快,它读的书是没有限制的。所以一个好的大模型超过任何一个个体,非常容易理解的事,所以现在大模型是已经超过任何个体掌握的知识的,这是第一点。大模型能够读书了,所以它就能积累知识,就能像人一样的学习。你去看包括一般的人工智能,包括生物大分子结构,AlphaFold3已经做得非常好了,但是它不能实现自然语言,它不会读书。我们知道自然语言的能力,大模型做到了,其他人工智能没有做到,现在发展,伴随着理论的发展,不止是自然语言了,可以用到图像,可以用到视频,所以大家知道最近一两个月之前Sora出现了,文生视频,现在扩展不仅仅可以处理自然语言,也可以处理影像和视频,所以人们交流所有东西的大模型都出现了,这是变革性的。

2、多模态融合,这个搞科研是很重要的,包括生物医学,如果刚开始给大家展示片子,生物学数据各种各样的,是多模态的,大模型就是这个问题,它能够把多模态进行融合,这是一般的人工智能不能解决的,发展成大模型这个平台,主要解决的就这两个问题,一个是处理语言,一个是把各种不同模态的数据有机整合在一起,包括文生视频。

我没有把视频弄出来,我摘几个页面,这都是用自然语言生成视频,比方第一个你给大模型一句话,说我希望教堂里能发生海啸,这时一个教堂里面就产生了海啸,当然这是完全不科学的,但是整个这个文生视频就能处理,其他有好多,比如日本东京街头,比如古罗马的大运动场等等这些东西都是视频,我没有链接上,大家可以看到这些东西产生了非常重要的进展。因此大模型不是一般的人工智能,它解决了两个变革性的问题,所以他提供一个当前最先进的平台,这是我的理解。

最近几天如果你去看Claude3的技术报告,技术报告里举三个例子,这三个例子才是大模型值得我们思考的东西。一个例子,两个化学博士做一年实验,他交给大模型,Claude3帮助他做,用很短时间,只花5美金就把一年实验做完了,说明这不仅仅像我们过去津津乐道的大模型能够跟我们对话,能够帮我们分析文章,能够写论文,现在已经过度到帮助我们做实验的水平。下面还有一个例子,量子物理学家推了新的公式,他把想法教给Claude3,得到结果跟他发的论文是一样的,所以现在在我课题组里面,我是搞这个,强制让我的成员们干活,要想做什么实验,先用大模型看他能不能帮你做,如果帮你推进一年,你接着再做,不就省一年时间了吗?所以大家看到实际上它不仅仅限于我们日常了解的那些事,还可以做一些创造性劳动,创造性工作。我想人跟大模型结合起来,共同搞科研,是不是能够大大提高效率,这是一种新的工作模式,我们似乎可以做尝试。

一个极端例子,2003年年底公布的加州理工大学几个华裔,他们做数学大模型,把9万个数学定理现在搜集到全部大模型都学习好,用他证明一个简单的多项式定理,自动就能推定理,刚才刘院长跟我讲陶哲轩预言,自然科研领域大模型第一个消灭就是数学,因为数学全部是演绎的,我把所有定理学会自己演绎就完了,这个就是通过建立数学大模型去演绎数学定理。这个文章我在做这个片子没有发表,不知道现在发表没有,这个数学因为有严格演绎,所以如果你做大模型的话,我觉得它是一个辅助研究极好的工具,至少你一边做可以让他跟你一块做,这样结合起来,所以现在看来大模型提供的可能性远远超出我们简单的对话、聊天那样的一个水平。

GPT-5马上要上线,这个上线不会太久,GPT-5的能力是GPT-4的五到十倍,距离实现人工智能AGI,就是所谓的通用的人工智能,如果这个智能水平和人脑相比就说达到AGI,这个GPT-5他们讲这个智能已经可以接近AGI,到GPT-6的话,他们的目标将超过人的智能,超过AGI。李国杰前面发表的看法,他说对时代认识不能犯错误,错过时代转变机遇将遭受历史性的降维打击,不在一个层次上,被打到下一级,这是非常重要的一个东西。

专门讲讲多模态融合。这是我1988年用人工神经网络预测蛋白质二级结构,发表理论生物学杂志上,算法就是神经网络算法,其实不复杂。李雷教授讲这个系统是收敛的,如果系统发散的话神经网络是不工作的,它可能振荡,可能发散,所以非常重要的东西是利用系统之间的非线性,保证系统收敛,这样会得到一个稳态,这个稳态是作为知识存储在所有的神经元和神经网络传输,因此知识巩固在网络里。

这是Claude3最近发的图,我们知道跟AIphaFold2相比,AIphaFold3有革命性的变化,如果AIphaFold2预测了5亿多个自然界存在的蛋白的话,那么AIphaFold3解决了非常核心的问题,是研究生物分子的相互作用。我们知道研究单独大分子结构跟研究相互作用是本质不同的,不详细讲了。但是不管是AIphaFold,1、2、3,他们做生物大分子结构的研究和预测,所以我们认为它是人工智能高度发展结果,但是它解决的还是一类问题,是人工智能很重要的成果。

人工智能还有很重要成果,跟有经验的医生一样,这是眼底照片,可以看到你是不是黄斑变性了,是不是眼底有什么缺陷,这样一个东西也可以做的很好,问过协和的医生,他说至少你临床影像学医生没有十年经验,你跟好的AI模型比你是比不过的,换句话说完全在影像水平上代替一个高级医生,这个模型从人工智能来讲也是很成功的,也是很优秀的。但是依然是单模态,只能看影像,上一个模型只能预测结构。整个人工智能领域专家有个期盼,能不能缔造一个模型,又能预测大分子结构,又能够看影像,又能够读自然语言文章,又能下棋,这实际上就是要求多模态的融合,大模型实现了多模态融合,大模型是可以同时做这些事的,这就是第二个变革性的东西。我解释一下,为什么说它能看影像,又能预测结构,又能读书,它是一个变革性的,我们知道这些东西它的记录的方式,它的坐标系不一样的,比方说病历是自然语言,生物大分子是空间结构,空间位点,影像是图像,记录方式不一样,怎么让它融合?我们知道其实有了大模型以后,在用不同的数据同时进入这个网络的时候,在非线性改变每个神经元阈值和链接权重分非线性值的时候,它的融合就实现了,所以这是变革性,这句话的意义大家琢磨一下。

因为有了这两个东西,所以大模型不是简单的人工智能,我最近跟很多人讨论,我也参加很多评审会,现在我发现评审会任何一个人提出他的方案里都包括要做大模型,要做神经网络。结果每个人问他问题,90%都答不对,他那个大模型是为了申请项目,不是真正了解,真正大模型它是实现了自然语言处理,是实现了多模态的融合的,这才是它的不同的这个变革性的意义。

所谓的自然语言,就是所谓的LLM,Large Language Model,大模型里最典型大语言模型,专门处理自然语言,正因为大模型在国际上最早也是最权威的两家,一家是谷歌团队,我们知道他的模型最早BERT,另外一家就是OpenAI现在微软支持,所谓GPT模型,包括GPT-4、GPT-5,这两家做得最早,也是最好的。两家大模型,最有代表性的大语言模型,第一个关于大模型本身的变革性意义,我的体会跟大家交流,也欢迎大家批评。

因为在座的是数学家,我来谈谈大模型理论基础,要想做大模型是由哪些基本技术堆起来的。建大模型很多人现在不只是对大模型表观含义不清楚,大模型理论基础更不清楚,大模型理论有三类。一类我们叫做机器学习,在座都是机器学习专家,机器学习里面以复杂神经网络为代表,所以第一类大模型基础一定要用到机器学习,用到所谓机器学习复杂神经网络。复杂神经网络干什么,复杂网络我们知道就是由一堆的节点和节点之间连接权重组成的模仿人的神经系统的结构,这个结构是非线性的,非常重要非线性,这个系统用来通过不断学习,到系统收敛以后,通过固定在每一个节点当中的阈值和节点与节点之间连接权重的值来把知识记录在里面。脑子记录也是这样,脑子神经元和之间的连接,不断改变,也把知识记录在里面。它既然是记录知识的,所以这个系统随着存的知识越多,规模越来越大,芯片买的越来越多,这就是知识记在哪。到2023年人类知识都记了,记在哪,记在复杂神经网络里,所以神经网络规模不断扩大,以至于GPT-5的耗电相当于几十万人城市用电,所以萨姆奥特曼在做件什么事?他在投资能源,投资所谓核聚变,因为最后卡脖子的除了芯片之外,就是能源了,所以他现在已经投资了,投资到所谓的核聚变的能源,这是一个理论,这一套理论所谓复杂神经网络理论用于存储知识,存储在模拟系统复杂网络里面。

第二语言生成规则,用的是统计抉择规则,我们把任何语言想记录在系统里面,记录的肯定都是单词,因为语言是多变的,总不能把人说的每句话都记录下来。所以就需要一套理论,怎么从你储存的单词变成有意义的句子,实际上就是要决定所有单词在一个有意义的话当中彼此之间的这个关联是由什么决定的,大家想想这肯定距离越近的词,他统计相关性要高,所以你只要把所有单词之间在不同句子里统计相关性记录了,当然就能用单词造句了,这两个规则决定了语言存在哪,怎么从单词来造句,这两个理论大约是在上世纪80年代形成的,到现在为止,至少有40多年了,这是两类典型的,现在新的Hinton天天出镜,互联网看手机,人工智能天天有他镜头,加拿大科学家,第一个神经网络提出来的。预言是由Fred的团队,从上世纪70年代末,从统计相关决策,从单词造句。

那么这两个东西有了,为什么大模型没有出现,为什么40年之后才出现,我们知道这两个东西一个是单独研究语言的,它并没有跟计算机相关,它的研究是从单词造句的,一个是研究知识储存的,缺一个最核心的东西,就是语言怎么跟计算机交互,单词怎么用计算机记录出来的这一套编码解码的技术,就是让语言能够跟计算机发生交互,这个事情是2017年才出现的。就这个东西有了,还不能出现大模型,另外跟计算机语言没有单词,没有跟计算机发生直接关系,要发生直接关系需要出现一个所谓底层架构,一个底层理论,大家知道搞大模型的人如果关注他的身份,没有人不知道这个词的Transformer,大模型里最关键的词,这是2017年谷歌的团队提出来所谓单词,怎么记到计算机里去,由怎么从计算机里把它提出来,这一套所谓单词和计算机交互的编码解码理论。这一套我自己认为称不上理论,是一套技术,怎么把一个个单词编成计算机码,记到计算机里,提取出来怎么把码变成单词,这套技术是所谓开源的,所以全世界那么快做很多很多大模型,因为他开源,把它自己开源模块叫Transformer也公布了。所以国内腾讯阿里都是用他Transformer,这样语言编码解码就解决了。

所以有了知识存在哪,有了如何能单词构造句子,又有单词和计算机交互编码解码技术,三个凑起来语言大模型就出现了,因此语言大模型的出现绝对不可能早于2017年,因为2017年没有计算机和语言交互的技术,大家知道真正大语言模型出现变成人们知道的是2020年,因为这个出现以后被很多公司用来做整合,建模型用三年时间,2020年以后非常快的就发展。所以大家知道整个他的系统技术和理论,当然有很多专利,有很多东西,但是我自己的理解是由三块组成,这样形成了大模型。

大家会问我文生视频的Sora,它只不过是把影像切成子块,把每一个子块存在里面,用的也是Transformer模型,我们自己团队也做大模型,我们用的影像不是用这个,而是信息抽提,如果大家有兴趣可以深入来谈。

这里面非常重要的过程,各家不同,虽然大的都一样,三个理论,但是还有一个微调,这个微调各家公司有自己的专有技术,因为是人工的,为了提高他的精度,还有微调过程,这个微调可能依赖于专家系统或者需要人工,我们知道这个谷歌最早的模型是靠人力的,因为很多东西是人的知识来干预,我们国内很快,大约三四年前,现在我们跟美国拉开很大距离,美国的好得多,这个比较一下可以看出来,这是当时我们在腾讯阿里这些。

在三个月之前为了参加华为的大模型的会,我调查了一下,当时中国已经有116家大模型,都是通用大模型,每个堆这东西,我对这个有看法,所以我用大模型找了一个图,姜太公钓鱼,我说他们都是愿者上钩,根本没有用,自己想做一点没有效率,后来到华为去,华为说你这个东西已经老皇历了,我春节去华为,跟他们讨论两次大模型,他们现在已经有300多家,这个没有必要也没有意义,300多个大模型干什么,造一个好的大模型,会给大家一个参考的值。

这是盘古大模型,盘古3.0,他展示气象预报,还做的不错,大模型有优势,预报跟气象局预报准确度差不多,速度提高1万倍,这个实时预报就很准了,所以很有意义的,这个不详细讲了。

这是早期的大模型,集群多少钱,模型训练多少钱,运营成本多少钱,我算了下,要30亿人民币。这有一个矛盾,将来每个人都要用大模型,你又说造不起大模型,这个矛盾怎么解决,其实这个问题根本不矛盾,你可以用很好的大模型,不必要造大模型,可以用大模型,用国际水平大模型,无需造,只要你了解,造也造不成,我们在座的大家搞的范围多,都不具有30亿的实力。

这个GPT1当时整个Training data是很少的,节点也很少,GPT3还没有达ChatGPT水平,相当于GPT的3.5,他已经使用了45个TB的Training data,ChatGPT他的参数是1750亿,可以理解成神经网络的节点大约是1750亿,到GPT—4是他的8倍,1.76万亿,现在大家知道GPT-5马上公布,大约是节点数的大约5—10倍,10万量级,给大家定量指标参考。

我们知道随着大模型开始,第一个马上用的生物医疗,像微软伴随着ChatGPT开始,他已经有了GPT版本,我们中国国内一般都是在世俗方面的应用,但是美国一开始谷歌PaLM就有了用在生物医学的版本。这是一个界面,所有信息,包括影像学给他,下面黄字病理诊断就出来,所以有人说内科医生很快跟数学家一样就没工作了,不外乎开一大堆单子检查,把单子交给大模型知识更广,一下诊断就出来了。

我们国内可能这方面百度专注来做生物,专门成立子公司。我们知道这一波浪潮在生物医学当中,集大成的体现在新英格兰医学杂志,影响因子大约在70—100之间徘徊。

英伟达三个星期之前开了全球发展大会,现在英伟达把英特尔已经打下去了,它为人工智能设计了所谓专用的GPU,市场占有率最高高达98%,全世界所有用作人工智能大模型机器,98%的芯片都是他的,比英特尔最高还要高,英伟达三个星期开了一场所谓全球发展大会,CEO黄仁勋认为生物医药将来是大模型人工智能的最大市场,其中主管生物医药的负责人,他的总裁就是英伟达负责生物医药发展的总裁,他说我们英伟达能造出万亿这样的企业,那我为什么不能造这个万亿的为生物医药服务的人工智能,所以这个发展趋势是非常重要的。

我们的一些工作不讲了,人工智能我们搞的很早,国际上有人工智能想法我们就在做了,这个不详细讲了,大模型怎么做的,融合哪些东西不详细讲了。只想讲一点就是要解决大家一个概念。当然这个大模型我们起名字叫灵枢,灵枢的结构在座大家知道,这是按照整个大模型传统结构,我跟大家探讨一个问题,我们知道人类现在进入大模型时代,每个人都要接触大模型,这个李国杰院士讲,如果不用、不了解,就被降维了,但是讲了要造大模型没有30亿,造不了,怎么解决这个问题,解决这个问题就是建立垂直专业或者专用大模型,你没必要建一个朴实大模型,没有必要花30亿,没有必要为你自己工作建大模型。这个矛盾怎么解决?告诉大家这是我们经验,这不属于今天讨论的内容,一般来讲他们不知道,你实际上就是在国际上建立一套标准,这是需要的,你在国际所有Open大模型里面去筛选,找一个最好大模型把它拷贝过来,这是你的底层,你的机理。你的机理达到国际水平,以这个为机理把你知识加进去变成垂直大模型,具有世界级的高度,又没有世界级的投资,这就是我们建所谓大模型工作方式,没花多少钱,有几十张芯片就够了,但是你的水平是国际的,所以行业大模型很快成为最先了解人工智能,并且把它纳入自己研究工作当中一个最可解的方向,既不花很多的钱,又达到大模型应用的国际水平。

我下面主要讲讲这个AI一些思考,这个思考是当前震撼整个社会的。我们知道大模型的实验,做大模型的人发现,大模型规模大到一定程度以后会出现一些人们在计算机领域里从来没有出现的现象,一个叫涌现,一个顿悟,一个叫幻觉,出现三个事,大约大到什么程度,大到如果你的系统的参数大于1000亿的话,小模型不行的,会出现涌现,涌现什么现象,人工智能大家都知道都需要学习的,涌现现象是系统出现了,你在教给他的知识里面没有记载新的知识,换句话说大模型规模大到一定程度以后会产生新的知识,这个新的知识,你的教案、课本里面没有,这些出来新的知识是合乎逻辑的,是可行的,大家想一想什么意思,就是这个机器智能出现了超过人工智能的东西了,所以这就演绎出一个东西来,人工智能能不能超过人类智能,一个非常非常核心的问题。

当然,幻觉跟涌现是对着干的,我们知道人工智能大模型会出现很多新的东西,是课本里没教他的,但是这东西不都对,有一部分对,一部分错,一部分合逻辑我们叫涌现,不合逻辑的就是胡说八道,说文明点就是幻觉,他没想好,给他台阶下,实际上就是错的。另外一点顿悟,这个大模型会出现这个事,如果对其他科学家不了解,对数学家好一点,我们一个小孩学单词,不是你教他一遍就会,教一遍两遍三遍没会,第六遍就顿悟了,大模型在学习过程当中需要顿悟。因为第一遍没收敛,第二遍没收敛,说不定N遍以后系统收敛了,这个时候大模型才可以工作。我们搞计算机可不能顿悟,给他输入第一遍得这个数字,第二遍另外一个数字怎么用。所以计算机是严格的,而大模型是可以顿悟的。这样一个东西就导致一个非常深刻的问题,人工智能能不能超过人类智能,超过是一个什么状态。

我在讲这样一个重要命题之前,先讲另外一个相关的发展,这个相关的发展,其实研究大模型的科学家一开始就想到了这个事,大模型是一个系统,他一开始想做一件事,系统能不能推动硬件,比方推动机器人可不可以,从2023年3月24号OpenAI就干这个活,这个活想干,一个华裔科学家李飞飞就实现了,但是这个机器人啥也不会干,只是他能动,没有任何知识,李飞飞设计大模型控制机器人,按照李飞飞大模型设计,这个机器人做的活,也就说其实人工智能并不仅仅是知识层次的一种变革。

我们下面再看,我们知道,这是英伟达的三星期全世界发展大会,发展大会一开始,黄仁勋的九个机器人都是人形机器人加上大模型的芯片,也就说他还不像李飞飞用大模型驱动第三方,干脆做一个人加大模型一个脑袋,如果大家看视频录像,机器人做自己动作,将来完全可以做一个跟人一模一样的机器人,加上大模型的脑袋,那个时候你怎么分辨,甚至你混在一起好多都分不出来,哪个机器人加大模型脑袋,哪个是你自己,这个东西已经实现了,我们知道有的人形机器人做的非常好,跟人一样,分不出来,加上大模型脑袋你怎么说话他就怎么样,三个星期之前刚刚发布。

这些事情就促使我们想到一个事,非常重要的,关于大模型的思考,最核心的思考,是人工智能能否超过人类智能,何时超过,我们知道过去这就是科幻的,现在是科学了,不止是科学了,很快就可以实现,GPT-6就准备超过AGI,超过人工智能。这就导致深刻问题,导致什么深刻问题,就是将来如果人形机器人跟人能够比智慧,那这就是一个混合的社会,人类从来没遇到的才是极端深刻的,这个问题怎么解决,所以大模型的发展不仅仅像我们想象带来一个工具,聊天工具,而是带来影响社会深刻变革的东西,这才是我们值得担忧的。这个大家知道,就是ChatGPT的CEO,总经理,Sa Altman,一两年之内超过,他是主战派,他把OpenAI总技术官辞了,那个不让大力发展人工智能,他期望能发展多快就发展多快。

一个系统不详细讲了,这个系统很大,这就是刚才讲人工智能提出者,图灵奖获得者Geoffrey Hinton,他在2023年5月份从谷歌人工智能团队辞职,之后接受采访说了很长的话,我把其中一段截在这儿,他认为人类只是智慧演化过程中一个过渡阶段,换句话说人的智能是在整个社会,科技发展当中一个中间阶段,超过人类智能,有新的智能出现这是必然的,所以这个人工智能发展提出严酷的问题,社会不是人类主宰,将来要被混合的环境所主宰,这才是认可的人工智能大模型发展的深刻的问题。他为什么提出来,他因为是人工智能的创造者,他认为他现在无力控制他的发展,他意识到人工智能必然要超过人类智能,从这个环境自我解脱,就出来,出来目的批评阻止人工智能快速发展。

既然大家是数学家,我来讲讲这个非常重要,法国人工智能专家,图灵奖获得者叫Yann LeCun,他是一位法国科学家,他是典型法国人,他是人工智能专家,他是底层反对现行人工智能最得力的人物,我们大部分人,90%人只是津津乐道谈点人工智能,还有10%的人可能谈谈他的算法,而他是研究最底层算法的人,我估计绝对不会超过1%,他批评现在所有执行的人工智能的算法,包括刚才跟大家讲的什么机器学习,什么统计决断,什么编码、解码Transformer技术,他都反对,按他的标准四年以后所有技术都需要被更新,他提出一套自己建立所谓世界模型,这些理论不详细讲,只讲一点在座的专家,我们在研究生物大分子结构,两条主要技术路线,一条路线是蒙特卡洛,实际上我们是采样,采样以后看下一个位置跟这个样品比他的存在概率,这就是现在用的语言,是统计决断模型。我们知道还有另外一套模型,分子动力学,在势能面上让所有分子来运动,他认为有个道理,我们将来大语言要抛弃统计决断,要建立单词势能面,他说的我也同意,建势能面更好,单词势能面怎么建,他也没建出来,他的思想可贵,应当有权利在底层做原始创新的工作,可以去读读他的观点。

正因为大模型带来的冲力,2023年3月22日开始,一批著名人士,包括图灵奖获得者,三个图灵奖两位跟人工智能有关,这是第三位法国科学家Yoshua,他和马斯克造汽车的,还有苹果联合创始人,他们在网上发起签名运动,更多的人,我截图1060个著名人士签名,阻止人工智能发展,太快,人类现在没做好准备,发展太快将来出现新的现象人类没法对待,希望阻止比GPT-4更强人工智能在6个月不要发展,这批人阻止无效,现在该多快还多快,这个理由跟社会有关,这套东西不阻止,我觉得听了有点非常紧张。

举个例子,比方刚开始人工智能的时候,美国大数据统计,有7%的工作岗位就失业了,人工智能代替7%工作岗位,63%岗位受影响,我觉得再过五年可能90%工作岗位都会用到大模型,很多人没有准备的话会不适应,可能丢掉工作岗位,或者你会做一些非常简单的工作,而主要工作被别人代替了,这是深刻社会问题,因此,马斯克开源了大模型,现在开源大模型是Grok-1。

第二个要讲更深刻的东西,不太好理解,跟搞科学同仁们大家一起想想这个事。第一个事涉及到社会,人工智能如果超过人类智能,出现了混合结构怎么办;第二个东西就是数据能够生成归类吗?或者是数据是否一定变成可解释的,可直接表示的归类呢,马斯克最近一轮自动驾驶汽车,改变了原来的原理,我们知道原来自动驾驶汽车是有很多探头探针,有测距,测速度、测障碍物,现在最新马斯克自动驾驶用大模型,根本不需要任何的探测器,汽车遇到所有场景全部记录到大模型,将来哪个场景就怎么反应,自动驾驶穷尽了这个汽车行使过程当中可能出现任何场景,干嘛需要归类,这个归类隐含在你的大模型里,所以提出第二科学问题,是否所有科学归类都已明显形式表现在你面前,如果隐性的,你读不出那来,但是能解决你问题,需要不需要这样的科学,我们是否每个东西都要写出公式来,能干活就行,将来大模型提出来可能把所有出现场景都记录下来,你要解决问题都包含在这里面,你难道需要去得到他的解析表达式吗,这个其实反映东西也很深刻。

我最后说一句因为人工智能的影响是深远的,是社会的,所以从去年3月份开始欧盟生成人工智能法案了,哪有一个自然科学领域让一个社会形成一个法案,现在大家去查查全世界相关法案有170多个,我们国内北京的人工智能的宣言还是法案大概一个月之前刚提出来,一个自然科学领域全世界170个法案出来,说明他的影响绝不是我们今天谈的范围,深刻关系到社会。

最后讲讲如果我们和人脑来比,这是一个实验结果,生理学家做的,新生儿、三个月幼儿和两岁儿童,中枢神经系统神经网络结构,他是伴随知识增加,时空复杂度是明显增加的,而这个时空排列的方式,恐怕要复杂,胜过现在的人工智能。所以将来人脑的研究和人工智能的结合,也许能够更好的来提高当前大模型的效率,我们还有很多并行的工作可以开展,我说的太长了,谢谢大家!

张世华(主持人):感谢陈先生精彩报告,感受到陈先生对我们领域有非常前沿的把握,时间非常宝贵,难得这么近距离见陈先生,有兴趣可以提一两个问题跟陈先生交流,有没有老师或者同学给我们起个头。

李雷:陈老师讲的太专业了,想了好多。   

卜东波:我们到底是人的高贵之处在什么地方,现在搞人工智能搞的自己往往很困惑,陈老师讲的一方面相信它,另外一方面很难受,不舍得放弃人作为物种高傲的地方。

伯晓晨:我最近感悟到另外一个,他对咱们实验科学有很大的冲击,感觉到所有实验科学家没有反对这个事,现在比如说以前我们要,他是以观测为起点,如果没看到,或者看不清,可以造更好的机器看。现在很多AI补这个事,数据缺失补上去,按说你没有看到,但是现在有点违反实验科学的原则,但是我发现无论物理、化学还是生物很自然接受,后面会不会大家当真。   

陈润生:我最后谈这个问题,你看你补的这块是否包含了真正的知识,有的知识我们过去太强调,我们眼睛看到的,我们用公式能写出来,或者能用什么东西描述,如果这东西他能做到,但是你又没法表述,含合理东西,认识论给我们提出新的对于知识衡量的标准。

伯晓晨:我觉得很颠覆。

陈润生:认知的颠覆。  

张世华:其他老师和我们的前辈们。我们年轻的同学。

王敬泽:陈老师,请教个问题,在座这么多年轻学生,他们要写博士论文,大模型一有,逐渐医学都淘汰了,他们将来一查重很可能都是重的,将来怎么通过?现在国科大所有博士论文都要查重,从这儿引发,我的意思是,你这样就会带来现实中很多的约束,怎么样去完成这个东西,如果要是一查,我估计这个可能差不多90%都毕不了业,这怎么解释,我在研究生院呆过,做学生工作。   

陈润生:现在不止国内,国外也是深刻面临,很多文章都是大模型写的。所以这个要求我们整个的评定系统,要顺应这个环境。怎么办,怎么界定,现在根本控制不住,几乎每个人都这么写。其实脑机接口出来后,又提出更复杂的问题,将来知识可以定制,我希望拿到化学博士学位,做一个芯片把化学博士的知识都放到脑袋里,直接就化学博士了。随着脑机接口发展,当然没有那么快,原则没有障碍,这个科学发展是非线性的,我自己越来越想,科学发展越快,甚至跑的跟不上趟,你跟也得跟,不跟也得跟,很多东西一定会出现新的事物是离开你想象的。当然作为社会来讲,一定有抉择,那些社会都立法,包括美国也成立咨询组,他要解决这个问题,其实对他们决策层来讲也不见得跟得上,我们国内已经成立专门机构,要不然这些事你阻止不了。所以论文现在已经是当前的,这是很多人都这么写,没办法。  

提问:陈院士我有两个问题比较具体一些,第一个您如何看待AI在药物筛选,药物设计方向的前景,我觉得它和自然语言不同,它是有门槛的应用,制药仍然需要长时间临床实验,这一块很难被AI所取代,您如何看待AI在这些领域的价值?  

陈润生:我觉得这点很明确,Claude—3出来以后,对药物设计是变革性的,过去药物设计实际上就是一个受体和配体之间相互作用,你做大量筛选工作,现在Claude-3解决了所谓两个相互作用之间的这个理论预测。我们知道原则来讲过去筛选上万个Copy data你才能找到几个合适的模型,你总不可能做一万个实验,都是现在这个问题比如Claude-3给你筛选出20、30个范围,所以你知道现在的提法是Claude-3对于药物设计是变革性的。他甚至提出来了人可以长生不老的问题,什么意思?你所有药很快就设计出来,有什么病肿瘤,靶向找好,所以这个事是进步很大的,但是这个所谓Claude-3跟大模型并不矛盾,Claude-3的data这个东西是融合大模型所谓多模态当中一个模态,这两个是和谐的。

提问:如何让非AI领域愿意尝试AI模型,比如医院还有制药企业,短时间内AI用在他们的领域不靠谱。

陈润生:不尝试就淘汰,现在的环境正好像当年用互联网,你爱用不用,人家查文献几个单词查完,天天泡图书馆,大模型普及速度要比那个还快,脑子里不存在问题,很快就有。

提问:我是北京中医药大学的学生,今天慕名而来,我们课题组现在做抑郁症相关的研究,刚好回答上一个同学问题,我们在临床方面对大模型的结合是非常有需求的,我们也会希望尤其在精神心理疾病,不完全靠药物处理,尤其在精神心理疾病方面,我们会觉得结合大模型做早期诊断预测,包括后面结合语音或者图像输出可能对整个社会化的普及或者说预测都产生比较良好的效果。但是目前的问题,从我们中医药背景出发,它的理论流派非常丰富,它的理论的方向可能也不是很一致,我们现在在跟大模型的相关的技术方面接触的时候,遇到的问题是,我们怎么能够在比较短的时间里筛选一些合适的语料库对它进行训练,在后续模型生成之后对它进行微调,按照我们设想还需要很多人力投入对它进行核实,这方面请教各位老师,尤其陈院士这方面怎么看待这个问题。

陈润生:我们大模型里中医这块加上,大模型本身多模态知识一点点加进去,抑郁症包括很多很多,包括组学数据,虽然是中医的,也是必须的,所以这个是很复杂系统,这很适合大模型,因为没法判断,很多知识。

第一个问题关于你中医很多流派怎么办,这个没有关系,大模型就是解决这个多模态融合的问题,这个在大模型里面,真正符合客观的,随着你知识的增加,随着Training data的增加,自然所谓不科学东西被淘汰,这才是大模型存在的优点。我是靠知识越来越丰富,就是把噪声,那些所谓不是重要的东西就逐渐放在不显著位置,这才是真正体现,没有一个工具能做到,所以你不用担心这个,只要你data足够丰富,随着概率增加的话,当然把你优势的真正符合客观集成起来,恰恰反映你大模型能够解决最严重的需求,我知道中医各家甚至老先生开的方子都差很多,没有关系,多了自然有效的东西就凸显了。

因为整个大模型是个复杂系统,所以非常重要的你要有个顶层设计,你刚开始要包括哪些data然后一点点去加,这样的话,伴随着增加你会看到大模型能力逐渐加强,所以第一点是顶层设计;第二建立评价体系,怎么知道模型出来结果这次比下次好还是坏,这两点建立以后,大模型用中医解决抑郁症问题是非常有利的工具。

张世华:时间关系,请焦总提最后一个问题。

焦少灼:因为我们是做生物技术的,做单细胞检测的,我们现在做的是单细胞转录组,大家明显一个方向大家想做多模态,多组学,做蛋白质组、做表观组,刚才您讲降维,这些东西最终都可以降维到一个层面,比如转录组都能反映出其他组学特征,我的问题是,是不是这种组学单一层面的维度的,就能反映出来整个细胞的状态,还有必要开发多组学技术吗?

陈润生:多组学是需要的,但是你过去没有有效的把多组学的知识融合统一判断的技术,你测一大堆基因组,测一大堆转录组甚至蛋白组,测完以后每个都是孤立的组,怎么整体判断,大模型是帮助你做这件事。我在大模型,里把你基因组、转录组、蛋白组知识都学了,就把这些知识融合在一起,虽然不知道怎么融合,给你答案是融合结果,这就解决你的问题了,你把最后融合的答案跟你疾病关联起来当然是最好的,所以大模型是提供了前所未有的多模态融合的一个场所,怎么融合的?我告诉你,你是一个非线性的网络,你不断用基因组的这个知识来学习,就变成能够预测基因组的机器,但是你又用转录组的,单独用转录组学习,他就变成帮助转录组判断的机器,你现在如果这样学习,一次用基因组、一次用转录组,一次蛋白组学习,最后实际上是代表他给你用非线性系统融合好的,一个代表三个知识的一个综合判断,过去永远没有这样一个系统,大模型才第一次给你提供这样系统,根本解决这样一个问题。    

焦少灼:假设多组学知识涵盖大模型里面,大模型可以对细胞作为一个特定表示,特定表示,是不是单独的一个转录组为主,或者表观为主,是不是单独降维的范围囊括了。   

陈润生:不会,不改变你知识结构,过去需要多少知识,他也需要多少知识,只是把知识融进去了。

张世华:感谢焦总提问。时间关系我相信大家还是有很多问题想跟陈先生交流,我觉得陈先生肯定激情澎湃再给我们讲一个小时,特别强调一下在座年轻人有没有感受到陈先生激情澎湃,今天特别我们课题组,你们一定要来,不光学知识,学前沿的研究,而且学习陈先生的精神,让我们再次用掌声热烈感谢陈先生。

    (茶歇)

【邀请报告】

卜东波:AI辅助的算法设计与蛋白质设计

谢谢各位老师,谢谢各位同学,今天有各位老前辈在,我感到诚惶诚恐,今天我想讲一下我们最近的一些进展,还有一些思考,当然还有一些困惑,我自己主要做算法设计,我一直在计算所学算法,但是算法毕竟是个工具,所以我选题是生物,主要做蛋白质结构预测和蛋白质设计。另外一方面关于算法自身,我最近做了一些东西,怎么样用AI把人的灵感给学出来,还有生物本身非常有意思,所以我设计了几个生物学实验,最近我设计的领导了三个生物医学实验,最近第三个也成功了,写了本教材叫算法讲义,是研究生的。我想这也是那一次对我的一些触动。

我想说大预言模型它的确是一个很重要的事情,因为引发了我们研究范式的颤变,新的研究范式叫做AI4R。过去我一直想非常回避研究范式,很多人提研究范式,我觉得这个题目特别的大,所以我自己从来不讨论。但是最近大模型出来之后,我读了很多的书,想了很多的东西,我们看一下历史上我们做研究怎么做。最古老的科学家,我们第一位科学家是泰勒斯,他那个时候观察星体是怎么样运行的以及思辨,他比苏格拉底还要早,所以那个时候获得知识是观察这个世界是怎么运行的,进行思辨,得到知识。再往后是欧几里得,我们大家数学系的肯定都清楚,主要是用演绎的手段一个一个得到新的定理,这样获得新的知识。再往后到1618年的时候,伽利略他和弗朗西斯培根,他说泰勒斯你光观察星体,可是你没法改变它,你的规律就得到的不完全,我们能不能把它给动一动,星体当然不能动了,他就把那星体做成小球,用小球来模拟,放在一间屋子里,拿我们来做实验,那间屋子讲实验室就是我们所说的实验室话,他所用的主要是做实验和归纳。比它略微晚一点1619年左右是开普勒,开普勒主要是做的是在第谷做的大数据的基础上,经过大量的演算得到的规律。所以我们现在说大数据不是现在咱们才有了这个专利,在第谷时代在开普勒那个时代就有了。到现在为止,大模型出来之后,可能就是第五类研究范式AI4R。我自个的总结,跟JimGray微软的院士他总结的几个范式不太一样,反正我有我的一些道理,我也读了一些书。

凭什么说大预言模型会造成一研究范式,我不妨看一下这张图,这在前四类的研究当中,这种范式当中,我们来看看做研究,尤其是做生物的,做物理的化学的,我们最重要的是提一个猜想,他这个猜想从哪来?前四类都是人做探索和猜想。大家一上研究生,周围的好多研究生,请问你如何产生一个Idea,导师肯定说读paper读一遍100篇paper,你自然就有Idea了。蒲慕明老师上海神经所的所长,他说指导研究生怎么干,他说你尽量少读paper,先看综述,这是他的观点,怎么选题,他给他的研究生写了长长的一篇博客,怎么选题。可是现在大预言模型出来了,像陈老师说的一样,我们谁读paper都没有大模型读的paper多,是不是可以让他帮我们产生猜想,这是一个。

陈老师刚才也说了,大模型常有幻觉,他常常爱胡说八道,经常会说一些不知所云的东西。可是我们想想看杨振宁老师说的一句话,杨先生在他的传记里说,有个人每天早上一进实验室就说Ihavegoodidea,anewidea,一天他能有10个idea,其中9个半是错的,杨振宁的文集里专门写的那9个半是错的,杨振宁老师的意思是说你不能全听他的,但是后面还有1个半个不是说全错,还有半个是对的,假如说我们能把那半个找到,我们就赚了,实际上我们这句话要正反两方面来说。所以李国杰老师就说大语言模型是一个不确定性计算,是个猜测集,他是会猜想。他猜想能力可能超过我们,因为他背后是一个概率的,每个人都产生下一个词是依赖概率的,每回问他都不一样,这是我们用它跟用搜索引擎最大的一个不同的地方,每回问他都不一样。所以现在大模型就使得我们可以人g了,把这些对的拿过来,再经过遗传算法杂交,再这么不断地循环,典型的是用大模型做一个猜想器,后面有个验证,这样不断的循环得到一个好的程序,现在用它能解决装箱问题,解决的比人好。所以说这种架构得到很大的成功。

我们看关键就是验证器,验证器咋整,我把验证器分了两个维度,这一维看它是验证器,是人工的还是自动化执行的,纵轴是验证器,是主观的验证还是客观的验证。刚才陈老师展示了文生图、文生视频Sora产生一个视频,这个视频产生之后咱们人来看,所以我们人是一个验证器,觉得他这个视频产生的好还是坏,我们判断的时候,肯定是人工的,判断依据是啥,为啥说视频好还是视频坏,他是半主观半客观的,因为客观的是说画1个人手里的5个手指头,假如你有6个7个就不对了,生成就错了,所以有客观的标准,但是大部分还是主观的标准。大家看看这文生视频的评价,常常说这个特别酷,特别惊艳,但是你没法给他一个定量的衡量,说你这个视频是100分或者99分,没有这个质量。

另外一块像刚才生成一个算法,写一段代码出来,代码或者程序的验证可能是完全自动化的,而且是完全客观的。我们做蛋白质设计,我们要设计蛋白,你怎么验证设计出的蛋白是不是能够折叠成固定的结构,以及它是不是有功能,我们可要对它进行验证,得人工做实验,所以它是人工的还是一个,但是你做出来之后就是客观的,我们怎么来看。从这个角度来说,我们一分析看的很明白了,所以这个是第一个取得成功,因为大家看看这个肯定是文案,你要说它好还是坏,全是公司的宣传,这个东西你只要做的不错,一宣传不是一个给多少打分,所以这个肯定第一个成功。第二个取得成功是定理证明算法,因为它的验证器可以客观的自动的执行,会跑得非常快。这个比较麻烦,我们涉及蛋白这一块,它是人工的劳动,所以这一块他最后才取得成功。

再往下接着来说我们做的第一个工作,AIa计划AI辅助的算法设计。我2001年博士毕业的时候,博士毕业之后没有导师的指导了,完全独立的开展工作,立刻就现了原形了,手足无措。当时也是跟着陈老师,跟着李明老师,许多老师一开始转入生物信息,我当时就接触这么一个问题,这是蛋白质的质谱的鉴定,给了一个质谱,质谱就相当于一个指纹,质谱就是蛋白质的一个指纹,给了一个指纹,怎么把蛋白质它到底是什么序列给弄出来。当时有个很好的一个方法叫做双端动态规划的一个方法,我一看那个方法之后,那个算法我觉得特别吃惊,特别的巧妙,我就想你反而搞得我很沮丧,看到别人的paper我就懂,可是不看paper我就死活想不起来,我为什么想不起来,那个人为什么能想得起来。后来发现不仅是我有这个困惑,伟大的数学家叫波利亚,他也有这个困惑,他在上中学的时候说,是的,这个解答看来是可行的,也是正确的,但是别人怎么发现的这个事实,我怎么样才能想到这么一个解答?原来大牛人在他中学的时候也有这个困惑,后来我想想此道不孤。

所以我从2001年到2008年的时候,我那一段非常的痛苦,非常的迷茫,看了很多的书,这里面的书有严肃的书,像算法导论组合最优化,也有不那么严肃,但是非常有真知灼见的,像刚才讲的陶哲轩写的《陶哲轩教你学数学》,陈老师讲的陶哲轩,还有刚才讲的波利亚写的名著《怎样解题数学思维的新方法》,以及张景中老师写的《计算机怎样解几何题》,几何定理的机器证明。这里面我觉得我们现在常常的数学书里头写什么的比较多,直接写答案的比较多,尤其对中小学生直接写答案的比较多,可是写这个答案到底一步步怎么想出来的,解题的过程以及中间碰到的探索、失败、回溯,怎么样继续尝试这个写的少,像陶哲轩还有波利亚写了一些读了很多的书,直到2008年整整七八年的时间,终于顿悟了。我总结了一下波利亚,波利亚在他的书里头怎样解题的前言的最后一页列了一个表,他碰到问题如何下手,有这么一个表。陶哲轩在他的书里头有一个解题大法,怎么样从已知的到我的目标做一个搜索,他说你取一张纸,把已知条件写在上头,目标写在下头,把中间结果写在另外一张纸上头,不断进行搜索,这是右面的张景中老师的证明法。总之我们可以概括成一句话,是从已知到目标的一个启发式搜索,周围的有好多的数学系的同学,我不知道诸位解题的过程是不是如此,如果你有更新的Idea,我非常想知道你的思路,我回去跟你学一学,回去教我女儿。

下面我再花很快的时间,我们做AI辅助的蛋白质设计的工作,这个是跟微生物所和北航合作的。蛋白质设计特别的简单,一句话,蛋白质就是一个字符串,这个就是一句话,只不过这一句话是20个字母,每个字母是个氨基酸,氨基酸只有20种,如果知道这个字母出来,我们能够把蛋白放到水里头,它就折成这么固定的结构,每个字母有xyz固定的坐标,这个叫结构画成这个样子,单位的设计是说你有这个结构,我去哪找一个啥样的字出来,合成之后它就折成这样子,这个是药物设计,这个东西非常重要。因为我们新冠的时候,在新冠病毒表面的蛋白它就是绿色的样子,这个蛋白是跟我们人体ACE2细胞蛋白结合的,所以我们才能被感染。戴维贝克他们装了个创可贴,彩色的是一个蛋白质,像一个创可贴一样,预先先贴到绿色蛋白给我们人结合区域先给它堵上,你先把它堵上之后,蛋白就再也不会跟人体结合了,这是戴维贝克做的,所以蛋白质设计非常重要,这一个例子大家就能明白。

我们这里头近期都是用AI来进行设计,我就不一一的讲,这些具体的技术我都要跳过去,我只回到我们这一页,我们设计完之后,再请微生物所的团队和北航的团队把基因合成蛋白质表达结晶。我们想设计出个蛋白,具有绿色的结构,真正设计出来序列放到水里头,我们把它结晶灰色的结构,两个叠合在一块,你看非常像MSD误差只有1.4a,可惜它不亮,绿色荧光蛋白本来该发光的。后来我们又在第二轮做了实验,把它又再改进了一下,我们程序重新设计了20条,其中5条是发光的,这是2023年春节之前我们发光了,我在培养皿上用发光的细菌,有病毒有蛋白的细菌写了一个字ICTlight是计算所的简称,计算所闪闪发光。在这里头跟AI有什么关系?我想用这个图来说明它是有什么关系。

我们想这么干,想设计蛋白就干一个事,就是估计一下我这个B是我的结构,S代表secrets,我把它做一下分解,看每个字母,第二个字母跟他的环境,它的环境match程度,他左邻右舍哪几个字母,左邻右舍几个字母情况下应当采取哪个字母,看这么一个概率。

我们看看,用这一页来看,AI到底改变了什么,在1991年的时候你怎么来刻划你的左邻右舍,这是核心问题,1991年的时候艾森伯格他纯粹是凭借人的经验拍脑袋,就是我周边的形状是这个样子,把它分成18类,这18类纯粹是凭人的,我们叫灵感,或者非说自己特别聪明。

我们怎么走的,这是我,这是我的第一个邻居,二号邻居、三号邻居,我有这么多邻居,我把我所有的可能的邻居都喂给大模型,让他去学,所以不再是人工凭经验来设计,而是我收集大量真实数据,让真实数据来说话。过去我们做很多都是做了一个东西,在真实情况下,那个可能不对,所以我们就用数据累计,他累出啥分布就是什么分布,才不管是不是高斯,是不是其他那些分布,我只用大数据给他累,这是背后AI带给我们启示。

回到刚才那一页,这个先突破了,这个再突破,现在正在突破,那这个蛋白很麻烦,我设计完之后总得让生物学家去验证去,一验证就得花上至少两个星期,这个东西特别慢,必须得往这儿拉,才能有所突破。你要老这么人工的,这种验证器老这么人工的就完了,我们很难突破,所以我们也想突破一定往这儿拉。北航的老师跟我们合作,做高通量的平台,一是高通量,二是快速,使得验证器速度要提高,这样才有可能使我们去成功,猜想器就靠大模型,那个没有问题,关键是验证。

我的愿景2024年我就想,2024年AIA计划,有一位同学用CoPA人机协同写出过去写不出的程序,快过半年,今年5月已经完成了,这个没完成正在做,写一个agent,自动输入Prompts自动检验答案这个正在做。

ProDESIGN有一位生物学家用AR+AI人工协同设计出有功能的抗体,这个正在做,期望在年底之前我的愿景能实现。

我们大家都知道这个PITAGORAS,他说万物皆数,他看到铁匠打铁,发现铁匠用的锤子重量比是一个自然数字比,特别悦耳,两把锤子,后来发现弦长也是,重物也是,自然数之比,两个弦特别好听,合起来和弦,但是现在咱们知道这肯定都是错的,后来RKarp叫万物皆算,这个自然过程以及人的过程都是一个计算。

我写一幅字万物皆算,挂在学生工位区,现在告诫学生,你苦候灵感,不如一算,就讲到这些,谢谢!

刘卓军:谢谢卜老师精彩状况,至少让我们看到蛋白质的相关研究大致是怎么状况,大家有没有什么问题交流一下。下面咱们还有两个报告,提一个问题,一会儿最后一起再进行交流。

提问:我看您提到研究方式随时代发生变化,有人做探索,想到人机协同,包括我也见到机器做猜想的一些设想,我想问的是机器包括大模型能够提出新的理论框架,这是很难的,如果机器不知道什么概念,恐怕很难从对于方程这些数据中提炼出规律,现在深度大模型提出这种灵感,或者进一步他这种研究范式边界在哪里,探索怎么样的灵感?

卜东波:你问的问题恰好是我的困惑,陈老师也说一方面我觉得他的能力很强,另外一方面我好像觉得他还有边界,我觉得只有探索才知道,不探索我们不知道。还有一点我想说,你像Sora出来之后国人都很焦虑,很有名的问题,为什么Sora没在中国出现,这个问题特别宏大,很刺激,反映我们极为焦虑的心态。只有一个回答,他说Sore成功有两个,一个叫做多样性,我们一个团队里头既有信这个东西,也有不信这个东西,我们允许多样性探索最终可能出来。第二点要有信仰,你信它,支持你往下做,不信它可能真出不来,这个时候不知道这个问题,我觉得我们应当是探索往下做,它现在能有产生新东西能力,但是界限在哪里,我们回答不出来,与其坐而论道思考,不如咱们自己思考思考,自己写大模型。现有大模型基础上让他找新的理论框架,看能不能搞得出来,有时候咱们的这种讨论不行,干脆自己做试试,这是我的答案。

伯晓晨:人工智能赋能科学发现的控制论视角与生物复杂系统研究前沿

我跟着卜老师一样诚惶诚恐,我们工科出身数学三脚猫的功夫到数学所演讲有挑战,后来说是沙龙,可以讲讲我们一些感受。刚好我这个背景跟卜老师相近,我们是好朋友,我们两个一个计算机出身,一个自动机出身。我们对于AIforLifeScience,我刚才跟卜老师的感悟跟我们自动化的感悟很像,所以我今天讲讲我们自动化怎么看AIforLifeScience,跟我们现在在做的,特别是军口的生物复杂系统,为什么要研究一些事情,为什么对于AIforLifeScience感兴趣,给大家做一个简单的概述。

首先谈一下,刚才卜老师从上学谈起这个困惑,我也从我们上学谈起,我们自动化学经常被人家问三个问题,第一个问题,为什么这是个万金油的学科,其实可以说文艺一点,你的研究范畴为什么这么宽广;另外学科有两个爸爸,维纳是《控制论》之父,咱们数学科学院应该是按照这个脉络下来的,同时大家也听说过钱学森也是《工程控制论》之父。我们上学时,老师没讲清楚这两个区别是什么,答案是我后来一直自己慢慢看他们两个原版的书才搞明白,这两个不太一样的事情;第三基金委也在问这个事情,去年专门开一个会,F02是计算机,F03自动化,两个里面都有人工智能,两个处长总想把这个掰扯清楚,计算机人工智能跟自动化人工智能到底什么区别,这三个问题困惑到我。

第一个问题我们看为什么说我们自动化学科是一个万金油,回头看维纳最早《控制论》的书,本身讲很杂乱,从物理开始讲起,讲到统计力学,讲到了当时刚开始发展起来的电信技术,又讲到神经科学,讲得很多。到底想说什么?这个书一开始三个领域来源,非常宽泛,包括统计物理,包括里面讲动物行为、神经科学、大脑思维,这三个之间现在来说完全不搭界。写一本书里,用《控制论》观点串起来,到底做什么,三个方向引导出来我们自动化学科后面的三个比较不一样的形态,所以现在大家可以看自然基金F03下的目录,复杂系统是放在自动化学科,这个很偏统计物理,包括北师大复杂系统很多数学物理出身,自动化学科有这样分支,自动化机器人这些东西,自动机器,人工智能这个学科里面,这个都可以追溯到原来《控制论》三个理论起源。《工程控制论》解决自动化机器里面的问题。所以维纳的格局是更大科学认识论、方法论格局,我们钱老主要讲自动化系统是怎么去做,他俩视角不一样的。

维纳到底发现什么事情,这个《控制论》思想,叫一个论与别人什么不一样,把这些事情串到一起,这个就是刚才卜东波老师讲的,非常详细。我们传统认为从科学到技术他是一个线性的,总是先要认识世界,然后再改造世界。拿现在手机来说,先有电磁效应发现,后来有线电话实现了;发现扩频技术,无线电话开启了这个时代,到手上手机。要从科学开始入手,维纳发现有很多问题其实不是这样去解释的,很多不像我们能够做物理题,事先能够求解出来这样轨迹,像数学是这样,比如说简单的,一个鹰去捕捉一个兔子这个问题,鹰有没有可能在看到兔子的时候就开始把自己轨迹规划好,有没有可能去求解,把兔子模型建好,算一下就算出来,其实是不可能的。这样的问题,他必须是一个从黑箱到白箱是不断打开的过程,先尝试走一步,根据他的反馈不断去做,所以他的所谓解决问题的方法是在于他调节闭环的规律上的,这就是我们现在控制学科。他意识到完全不同于经典物理学这套思路,总的来说它提供了一种以终为始,甚至是不分终始,是循环往复的去求解这样的不断逼近的方法论,这个就是现在控制一个核心的思想。像导弹怎么打飞机就是这样,大家可以看到先往上走,无目的无目标垂直先走,得到一个加速度,中间调整完全根据它跟目标之间差距慢慢调整,而不是坐在下面就开始有一个求解器。当时维纳也是军方找到他,给他的问题不是导弹的问题,是火炮怎么打飞机的问题,所以书里专门提到,当时意识到不是物理问题,不是我们求解问题,是走起来边走边看的问题。

我听到有人说,你们说这么悬乎,自动化你们就是一句话,走一步看一步,就是这个意思,这个话说得对,也不对,看一步走一步,先要度量目标,然后再走,这就是控制论思路,怎么走,数学院研究控制规律很有讲究。

怎么跟人工智能扯上关系,这里想提一个观点,是自己的感悟,人工智能技术发展越来越体现控制论思想。早期我们做控制系统,控制论工程师也是这个形态,设计这样一个系统,这个系统是人去设计的,虽然他的过程当中这些反馈回路它是自动运行的。

到后来强化学习,大家看到强化学习好像是新的。20多年前开始,只是那时候没有做出特别漂亮的结果。强化学习以后开始走另外一条路根本没有这个形态,不要建模,你只告诉这个机器什么是对的,什么是错的,他自己去摔打就好了,当然收敛会很慢,成本很高,最后它把所有控制规律浓缩到神经网络当中去,相当于左边这张图已经画出来,这个过程人只告诉他对错,这是一个典型的靠反馈去建模的思路。

我们说深度学习出来以后,这里面我觉得计算机科学家可以不同意,我们是看这个控制论架构,喜欢看信息流,神经网络信息流,它很像反馈,它是一个多路密集反馈,早期的神经网络开始有BP反馈过来,我自己回忆上大二最早看到神经网络,觉得很颠覆,从物理学来讲这个架构非常颠覆,虽然数学和计算机科学很容易接受这个事情,输入层当时是直接输是特征量,比如说识别一个人,身高体重在后面开始往一块加了,不分量纲的往一起加,加到最后说这个人是谁,让物理学家看,觉得很混乱。不同物理量怎么往一块加,中间那些隐蔽的又往一块加,但是数学家看这个问题没有问题。后来学到多元统计,多元统计出现多元分布的时候不管这个单位是什么,看统计分布就开始推,这个轴的分布是重量也好,还是身高也好,不管这个事,我只管二维分布、三维分布这样去做就好了,拓扑里面更不管什么单位不单位的事情,数学家很容易接受。到深度学习以后特征提取都没有,就是端到端建模,识别问题也好,其他问题好,中间一定要反馈建这个模型,所谓的BP算法,BP算法到底是不是反馈,是不是控制?

所以讲到这里,如果猜他结构不是一个回路,大家可以看上面最早控制论的自动控制模型也是回路,但是它回路非常多。所以到了BP算法出来以后,我觉得我们上学的时候学的人工智能和我们自动化系统学的人工智能就会师了,上学这两个系开的不一样,两个都听了,很明显差别,自动控制人工智能讲的这一套,一定要有反馈,一定需要端到端,中间过程不管,中间过程是建模的问题,但是计算机多年前人工智能,讲的是逻辑,要变成问题求解的序列,他是一个开环的架构,到了BP算法以后,两边都认可这个事,又像自控的,又像计算机的,融合在一起,这是控制论最早维纳的一些思想。

另外一个观点AIforLifeScience工科角度来理解,我说这话可能科学家比较反感,他就是科学发现工程化。什么意思?比如研究一个生物问题,生物学家去研究的,现在发现我们计算机的工程师可以去研究,就跟下棋程序一样,AIphaGO下棋的,其实编下棋程序几个人基本上两三段水平,我看报道真实不真实,但是编的程序可以打败十段、八段都没有问题,同样像用AIforLifeScience方法做mark设计,非常震撼的文章,那几个工程师未必是很顶尖的物理学家,但是他做的程序可以打败物理学家,物理学家没有求解的问题他可以求解,所以从这个角度来说这个就是工程师做科学的时代,我看最近的Nature发一篇文章,Nature认为工程师该回归,在解决问题当中发挥角色,我认为AIforLifeScience感觉是一样的。所以这个时代给数学物理不太好的工程师给了一个机会,你也可以碰一碰这些科学问题。

这张图跟卜老师一样,AIforLifeScience不仅是科学发现的工程化,也是科学发现的自动化,还回到自控里面来。以前我们认为科学发现,特别是实验科学,都是按照观测、归纳、解析、预见的步骤。最典型的力学发展,主要是观测,开普勒归纳出了这个定理,但是这后面到底是什么原理,建立这个理论体系,到爱恩斯坦认为这些理论体系扩展到没有质量的,建立引力理论,他就是更有预见了。预见没有质量的物质他们之间也会。这个过程是一个所谓天才引导的科学发现的过程。现在AIforLifeScience这些东西都可以用AI赋能来观测,AI来做归纳,AI来做可解释的机器学习,来做解析,他来做预测,刚才同学也问能不能提一些猜想,完全可能,AIforLifeScience科学发现的工程化和自动化。

接下来的话题跟生物复杂系统有关,我们做的事情的价值,跟AIforLifeScience有关系。生物复杂系统在复杂系统科学大科学里面它有独特的价值。它的独特价值从几个方面来说,首先一开始它就是策源地,正是生物系统本身的复杂性启发了贝塔朗菲理论生物学家提出一般系统论,才有了复杂系统这样一个学科。按照钱老划分,生物复杂系统不仅仅是典型的复杂系统,是复杂的巨系统,涉及到人体科学钱老划为复杂巨系统。

另一个独特价值,它是一个跨尺度最多的,如果你要研究复杂系统里面跨尺度问题,这个现在是一个非常时髦的问题,特别是物理里面跨尺度,2021年诺贝尔奖。你要看跨尺度的生物尺度有多多,如果从DNA一直到群体至少跨10到12个尺度,每一层和每一层之间规律都是多对多的,我们说话的时候经常跨尺度,没有意识到逻辑上是有问题的。比如经常说某个地方人,他们那个地方的人就喜欢抱团,或者喜欢不抱团,这样从遗传,从他的基因一直说到行为、个体、群体,至少跨十几个尺度,每一个尺度上都有不一定的确定性,要研究复杂系统的跨尺度的行为,生物复杂系统是最好研究对象。

生物复杂系统是活的复杂系统,体现两个方面。第一个方面他是能够自我复制的,我们要研究一个复杂系统怎么诞生另外一个复杂系统,或者一个复杂系统怎么脱胎于另外复杂系统,那么研究生物复杂系统这是最好的分享,其他的系统很难是活的,这个是他一个特征。体现它活的在演化方面,生物复杂系统有演化特性,从简单到复杂,我们说城市交通网复杂系统有演化,但演化中间过程的复杂性远不如生物。

我也稍微讲一下作为一个军科研究的生物复杂系统。第一个生物制造很多产品,包括军用品都要从简单的化学合成变到生物合成,生物合成把要合成的物质那几个反映链路嵌到细菌也好,真菌也好,放入一个复杂代谢物当中去,往哪里放,怎么保证高效生产,这个里面就是为了获得一个高效短通路,你必须研究整个代谢,它对这个方面一定的需求。

还有类脑智能,特别在我们军事当中,不能走刚才陈院士说要耗一个城市的电这样一个形态,因为到战场上你首先没有网络,你也不能依靠后面的服务器,你需要低功耗的小算力,这个方面最可以学习的就是我们自己,我们人脑,大家吃一个简单的早餐就可以推复杂的公式,可以做艺术创作,类脑系统对我们军用计算系统是特别有启发的地方。

还有群体宏观行为复杂系统构建,特别自组织过程,对未来包括我们军队的无人机作战,蜂群作战特别有启发,他是怎么去从简单的个体变成复杂的群体,这个过程怎么去做,当然传统的方式其实是物理学家在引导群体科学,咱们生物数学里面做生态很多都学习这样方程,希望用一组方程解析生物群体,把它变成一个我们无人机做这样一个规律,AIforLifeScience这个以后,我们自己有些单位合作开始在变化,我不要这些公式,只要端对端,只要从狼大数据行为当中去学一个神经网络,表现狼群组织行为跟真实的非常像,我最后把神经网络移到所谓无人机里面去,可以做到像右边我说这样围捕,三架无人机怎么去抓另外一架无人机他可以完全按照动物的行为方式去抓,一个堵后路,另外几个是包抄,这些行为是从这个里面学出来的,但是免推导不用公式方式。

还有关于复杂指挥体系的设计跟生物复杂系统密切关系,这个里面讲一个非常生动的例子,大家可能看到所谓马赛克战组织,要打破军事旅团的常规的编排方式,根据任务自动编排一个战斗单元怎么去做,想法非常好,如果部队形态变成这样,它的指挥体系要重塑,什么样的理论能够支撑这样一种马赛克战事指挥,当时在2019年疫情之前DAPRA委托兰德公司研究这个问题,最后的交卷交的就是,最像马赛克战组织就像人自己的免疫系统,免疫系统就是这种不分层级网络化自组织,这是他独特军事架构。

关于复杂系统研究方向按照我们的基本的原理性的研究,包括系统生物学、脑联结网络、免疫网络、复杂生态系统等等,应用里面包括疾病治疗到生物制造,到类脑智能等等。系统生物学主要用复杂系统的方式来研究医学的问题,包括药物的问题。脑联结的网络,脑功能联结是很复杂的系统级对象,希望用复杂系统原理去指导这方面的工作。

免疫系统,免疫网络在很早以前就提出来了,而且获得诺贝尔奖,把它能够定量化,做成可计算的复杂系统,这几年刚刚开始,变成免疫的复杂网络现在是非常前沿的方向。还有复杂生态,复杂生态研究比较多,特别是在数学生物学当中。

具体到这个前沿有哪些问题是需要大家去研究的,我们总结概括就是三个机制。还有三个应用,两个技术。这两个技术与我们AIforLifeScience有密切关系。

三个机制简单说一下,一个是刚才卜老师讲生物群体的自组织和涌现机制,这个完全从信息角度去看,比如说从小规模神经元到大规模神经网络怎么变的如此聪明这个机理是什么;第二个里面是比较的科学问题,一个复杂系统的能量运用规律和信息流的流转是什么样的关系,物质能量转化的机制,这里面物理学家现在做的,从这个角度做的比较多,提出的物理生物能量学,虽然这个能量非常小,像脑网络涉及到能量皮焦耳这种范围,但是总之有规律,从能量角度先不管它连接是怎么样,看复杂系统应该怎么样,这是第二个科学上的途径;第三,我们看到研究信息处理的机制,主要是讲噪声在复杂系统的组织和运行当中他到底起什么样的作用,展示这个例子,北京大学关于噪声驱动细胞状态转换工作,说明噪声绝不是传统意义上理解的无用的信息,起到非常重要状态转换的作用。

生物复杂系统应用首先是对大脑理解,这是特别有挑战的,大家可以看到在脑科学里面走两条路,一条走脑电这条路,脑电是时间上的保证,因为每个时间点都知道,时间分辨非常高,但是没有空间的意识,从表面的脑电,拿到脑电是内部脑电一个综合体,综合多路反馈的,所以没有空间位置,虽然电极有位置,反映里面脑内是加权组合。另外是从核磁成像研究,这个很有空间分辨率,每一个点都明确,因为在成像过程中做时间上积分,动物或者人等一段时间,所以一积分时间动态性要消掉,所以没有时间分辨率,怎么把这两个相关数据融合在一起解析,大家看形态这个靠公式推导很难,怎么把这两个完全不一样模态信息融合在一起,就像陈先生讲的多模态,可能是AIforLifeScience发挥重要作用的地方。

刚才系统生物组怎么发展系统医学不展开了,还有研究群体智能。

技术问题怎么破解生物复杂系统,这里面人工智能起非常重要作用。两个方面,一个自动建模方面,复杂系统建模,如此复杂不能靠人推导,端对端训练网络,刚才陈院士说的我非常赞同,最后网络输入输出都对,代表他认识这个世界,他的原理,他也写不出来。

右边这个刚才用非常典型控制方法,怎么理解免疫系统的规律,强化学习方法告诉你免疫细胞的构成是成功还是失败,最后你只要知道这个,得出来免疫系统运行的结构跟我们真实观测到的免疫系统非常相似,这个就是非常典型的AI辅助建模思路。

AI做原理验证,特别是在生物学很多实验当中,我们实验往往都是模型化实验,没办法像工程那样,像造房子一样验证规律对不对,一方面要验证,如果你按照你说的规律不能够造出来这样的系统,说明没有真正理解,我们可以怀疑你的原理。怎么做,这个数字孪生的建模,我在机器上按照你说的原理做一个虚拟运行,这是一个现在前沿的,作为非常重要的生物复杂系统认知工具技术。

看到比如血管里面的血管瘤,哪里有斑块,开始有完全数字化、数字孪生建模体系,拉开人体数字孪生建模赛道,我讲这么多,有点散。

最后结束语,原来我们生物学最早是物理学家引导的,后来接力棒转给化学家,一直到现在,现在最近这些年开始,特别是AI起来以后,相信主要的对生物学的推动力量将是信息科学,一起努力,希望这一天能早日到来,谢谢大家!

张世华:计算生物学新时代

非常感谢大家,一上午我相信大家收获很大,前面我们陈先生卜老师、伯老师讲很多AIforLifeScience事情,我快速讲一些很有意思的内容,回应一下几位老师。

今天主题就是人工智能赋能生命科学机遇与挑战,重点讨论一下机遇。大家可能已经感受到了,应该有哪些挑战,当然我给自己临时起一个题目叫做“计算生物学新时代”。你要想知道新时代,你就需要多多少少要回顾一些旧时代,很快的。我们要了解计算生物学的史前时代,所谓史前AIforLifeScience史前时代,回想大概70年代、80年代,主题80、90年代到2000年、2010年这段时间,我记得我念书的时候,我们去学的时候发现当时所谓的计算生物学或者生物新学,我们从一个数学者角度,研究者或者研究生角度看的时候发现,这里面那么多组合优化问题,统计计算的问题,包括后面做矩阵计算,矩阵分解这些问题,我们发现确实是我们应用数学或者是计算的研究者能够可以进入到这个领域,好多都是这样,我相信伯老师有同感,当时我们也学很多伯老师的工作。

那这个时候我们去想想我们做序列比对,是在干什么,当然今天我们说有很多序列。我们就来看一下,首先我们知道数据一直是我们驱动科学进步的重要一环,前面几位老师都提到这一点,在90年代或者80年代他们在做序列比对。他们在干什么?从数据角度来说,在那个时候我们开始测出来一些序列,今天我们说大数据,那时候少量的数据,拿到少量数据,序列的数据大家去看这里面是不是有什么特殊的规律,比如说多少物种一段序列,这一段序列大家已经给对齐,也找到一种pattern在那里,可以看到有一些地方,可以看到它是一样的,称之为保守的。另外一部分可能是有差异的,或者是部分有差异的,可能是半保守的或者部分保守或者根本不保守的,另外一种后来大概90年代开始有所谓数据库,叫PDB数据库,非常多上万的蛋白质结构,那个时候可能是几十几百这样一个概念,拿到结构的时候,大家想干什么,看看这些结构里面有相似的,图式的意思这是Global项目,但很多结构可能是局部的,我们在小数据时代,我们会尝试找这样的事情。

今天我们说AIphaFold3很popular,但是在90年代时候大家说蛋白质折叠可能是什么样子,有所谓简单的HP模型,今天看这个model可能是非常toys的一个模型,在当时来说,这个模型其实很有影响力的,而且是典型组合优化的问题,尝试说我要通过建模方式去优化找到一个能量函数去做一个优化,这是一个基本的组合优化问题,也是难的组合优化问题,最终我们还是通过优化的方式要找到pattern,这个pattern更好的满足亲水疏水的特点。

左边是复杂网络,找到里面局部的比如说连接很稠密的complex,我不知道卜老师是不是对这个很熟悉,这是我读研究生读卜老师的论文,那个时候卜老师刚进入生物学领域跟陈先生。今天你们如果看这篇论文,这个论文里面内容所涉及到对象今天看比较简单,当时来说非常有引领性的,当时分析蛋白质相互作用的数据2022年刚出来,那个时候新的数据出来,经济学家在数据当中找到一些pattern。

后面我们在数学院大家知道矩阵分解的事情,我们在数据存储矩阵形式以后做基本分解,这个分解可能满足各种可能的约束,我们有很多做矩阵分解的方法。矩阵分解的方法回应数据当中可能蕴藏很多潜在问题,这样方法后来做了很多升级,比如你多个组学数据,找他规律性的pattern,大家肉眼看到一些事情。

最想跟大家分享的,我们会发现我们前面做的那些事情都是在做一件事情,我们在尝试找它的规律,所谓科学探索在找规律,找pattern,找什么样的pattern,看起来没有规律的规律,如果那个规律一眼看到可能觉得是toyed,好像没有那么深刻。大家想想你有没有特别喜欢听的曲子,那个曲子当中大概率就是有你特别喜欢的pattern在里面,每个人喜欢的不一样,不同乐曲当中是这样子,有的人特别喜欢拿一幅画,也代表是人们可能对pattern特殊喜欢,让他很兴奋,很高兴。打牌现在非常流行的掼蛋游戏,大家在座有很多都玩过,为什么让大家觉得这么happy,有很强的pattern或者规律。

比如说现在到我们轻松时刻,比如说这个图上能不能找到图像里面的一格里面的pattern,难住了,有同学说倒过来,现在可能大家都看到pattern是什么,这里86、88、89、90,提示我们很重要信息,有时候复杂事情摆到那里看不到什么pattern,如果我们换一个角度,我们突然看到pattern,我觉得神经网络做这个事情,数据当中他有pattern,我们需要换一个角度,但是角度不像这里这么简单,要旋转一下就看到了,要经过不停的变换。这个过程当中看起来稍微复杂一点,仍然是这样一个过程,但凡自然的一些事物,他一定是有一个pattern,或者有潜在规律,如果换一个角度看,应该在这个过程中找到pattern,科学研究相当一部分,我自己认为是全部,可能有争议,都在找pattern。

我相信科学在任何的领域里面应该都是pattern,包括前面讲的那么多例子都是努力找这个事情,只是方式不同,尝试工具不同,或者我们面临困难点不一样,我们尝试找到最合适的工具。

我们旧时代的时候刚才所说序列、结构,包括网络,包括各种各样的组学数据,我们后来发现最近几年里所有这些,原来23年前找pattern方式,随着数据增加,我们方式角度多以后,我们发现人工智能,所谓现在人工智能深度学习,其实可以更好帮助我们去寻找这样的pattern,这是新的利器。

深度学习是什么,神经网络是什么,我们在座的听了那么多有一点感受,问题是那么一个复杂的事情在work,就像前面说的,它虽然复杂,不一定那么很好理解,但是它背后一定也有pattern在那里,应该关注的一个角度,那神经网络或者深度学习本身的pattern是什么,或者大概有哪些pattern,我们可能会找出很多不同角度的pattern,但是大概率来说深度学习本身有这样的pattern,我们称它为是原理性质的,这个原理是物理的,也可能是其他角度的,那当然关于神经网络本身pattern探索问题,最大原因我们神经网络越来越复杂,已经是上万亿参数量模型摆在那里,但是他work,说明他背后一定有pattern,我们需要理解这样的pattern。

这个话题不是今天才有的,比如说Nature2016年已经说了,得到一个perfect的神经网络深度学习,他工作很好,问题和知识都学到网络当中去了,我们人类带给什么东西,当然面临困境,有条件情况下训练尝试,学生一开始很高兴,帮助找很多工作,过程中也有各种困惑,觉得这东西不靠谱,我自己有学生感受到他遇到这个困境,他觉得好像做了很多也没那么work,特别到了稍微大一点的模型,像陈先生提到大模型的时代,可能没那么大的时候,包括伯老师提到那是工程师时代,我们大部分人说做工程容易,像做科学一样,科学很难,其实工程也没那么容易,也是非常难,可能做不明白,背后规律更难了,在过去很多学者都尝试去从不同角度去想,举简单例子,比如说原来我们讲矩阵分解,原来深度学习跟我们多层的吸收编码模型,他自然他是一种矩阵分解,他跟多层矩阵分解有很强一些关系。

最后我们要迈向计算生物学的新时代,它的背景有了很多的数据,现在有了一个新的工具,新的利器,这个利器帮助找pattern,找规律,找pattern不能完全丢给机器去找,需要知道真正的一定程度所关注的生命科学问题,充分理解数据的一些特点或者奥秘,当然结合AI的原理去做这样的事情,时间关系我就讲到这里,谢谢大家。

【讨论与交流】

刘卓军:我们一上午很艰巨的任务已经完成了,按照原先计划有交流环节,安排半个小时的时间,大家不要着急,我们不会持续那么长时间,我们沙龙给大家准备了工作餐。交流一段时间,刚才张世华已经讲到新时代可能是科学家+工程师,工程师的时代,科学家的时代,还有像卜老师一开始讲小孩子学习也是未来嘛,加上大模型,今天这么几个概念揉在一起,剩下一段时间,我们一起交流一下,特别年轻人,老同志也可以,也一起来分享一下。

焦少灼:刚才讲AI,讲的是一个把权重嵌入到黑箱中,我就提挑战。刚才张老师说要知道当前遇到的挑战,知道挑战我们才知道怎么去解决它,因为我做生物的,刚才有位老师讲生物是有物理、化学还有数据,唯独没有生物人,所以生物人只能提出来问题,我就提出来一个这样的问题,现在大家知道制药很难,需要十几年投入,失败率很高,10%的成功率,像现在对于制药的人像开盲盒的过程,我设计一个分子,这个分子能和我靶点进行结合,现在AIphaFold出来之后,大家知道这个黑盒子很准确预测这个结合,最终到临床一期二期三期变成开盲盒,大家都希望把这个盲盒开的时候确定性强一点,涉及到首先动物实验,独立学实验,保障对人没有危害,这个仍然开盲盒过程,有没有可能咱们在分子阶段我相信伯老师说AIphaFold类似东西,能不能把后期到人临床三期中间过程变成参数嵌入到模型,我在设计分子之后在临床之前我就直接预测一下,相当于刚才老师说数字孪生,我先做一系列数字孪生代表不同的病人,去把这些药物分子输入进来,先预测一下结果,我再做临床试验,和临床试验结果很符,得到很新药物开发的一个数字模型,这就是生物医学界面临最大问题,很多药很多需求没有有效解决手段。  

伯晓晨:我们确实有个小组,我们有个小组在做药物分子设计,现在看到两个方面的不同趋势,一方面就是计算机科学家认为很有信心,认为这个会取得很大突破。今年6月下旬英特尔要搞一个计算药物设计会议在海南岛,是非常乐观的。另外一方面我参加好多做药物的产业方面的会议,对于AI+药物开始有很多负面评价,我认为是把问题想简单了。

    算力租用是计算中心给我反馈回来,好几个大计算中心反馈过来的,药物设计的需求量在做计算的人积聚减少,他们最客观的,谁在用卡他们很清楚,所以刚开始那些模型都开始发现有很大问题,生成式可以生成很多新奇古怪的分子,大多数都有毒,刚才讲好几个链条,中间几个链条,可能一个个攻克,比如毒性预测、适应症预测,这个模型将来如果一个模型解决不了,一个分子这么小,可能成为靶标蛋白大概10万个,每个蛋白表面可以作为靶点地方假设1万个,这个组合有多大,还针对6000种疾病,一个小分子跟哪个靶点哪个位置结合扭转6000种疾病哪个,这个算起来非常大,还不包括吸收代谢,心肝脾肺肾这些都不管,技术总是这样,刚开始大家很乐观,会回归理性,药物很有可能会成为生命科学AI for Life Science仅次于大脑的难度。我听说,我没有核实,第一批AI药物十几个,全都是临床失败的。

焦少灼:今年刚发文章,2024年总结2023年底之前,基本上只提高了一期毒性能够预测的,从原来60%提高到90%,二期有效性还一样30%40%有效性,这是刚发表的,之前没有用AI的技术去做的小分子和用了AI之后辅助这种成功率,在疗效上没有,在毒性上有。 

刘卓军:好了,大家讨论交流的很热烈。张世华老师讲颠三倒四方式发生pattern就好了。因为咱们这次沙龙是中科院老科协主办的,中国老科协给予的支持,今天一直参加活动的中国老科协孙建国副理事长,也是中国科学院老科协理事长。最后请孙理事长给我们讲几句话。  

[返回]

【总结与建议】

孙建国:时间很晚了,简要说一点,今天数学院老科协组织这个沙龙,我觉得非常好,整个沙龙的效果达到了我们设定沙龙的预期,我们设定一个选题最前沿,这个无疑是最前沿的。生命科学是21世纪大家最关注的东西,人工智能那就更不用说了,所有的人无论学历高低在网上讨论,知识界顶尖怎么样,而且科学院现在考虑抢占制高点上也把人工智能作为非常重要的环节,所以刚才讲这个选题非常好,符合我们老科协系统设置前沿学科的沙龙,这是第一句话。

第二句话大家今天讨论应该说还不是太充分,主要是时间确确实实很短,只有一上午。因为如果再充分的话,大家可以再展开讨论,我听下来人工智能赋能生命科学里边其实还有很多问题需要解决,包括他们搞应用研究的,希望在这里边能够形成答案,哪怕有些线索,哪怕是有些提示,几位专家给出非常好的解答,特别是陈润生院士的报告,我觉得我们在座的学习了很多。为什么,因为他提出了一个就是深度学习,怎么样来用人工智能和大模型,特别是他今天对大模型一个解释,我觉得深化了我们对大模型的理解,现在网上大家很多对大模型有一种误解,今天讲这个事以后可能对我们是一个澄清,对我们下一步研究是非常好的帮助。

第三方面,我觉得今天的水平很高,有院士先讲,还有我们很多做人工智能方面,跟我们生命科学怎么样去结合,这就是交叉学科,当今世界发展到这种程度,纯做这种研究和利用最先进人工智能特别是大数据把这些自然科学结合起来变成一种交叉学科,可能更容易出成果,所以这个也是需要科学院也用它抢占科学制高点,非常重要的山头,水平非常高。

最后感谢,感谢陈院士百忙当中来作报告,院士特别忙,科学院抢占科技制高点,我估计在座很多科技工作者,也都在忙这个事,所以我想要感谢,也感谢三位今天来做专题报告的几位专家,确实很忙,不同角度来理解,比如说有从计算机角度,有从自动化角度,还有从数学角度,不同的视角来看,怎么样看人工智能,怎么跟生命科学的结合。同时也要感谢所有与会人员,包括年轻学生们。我们沙龙有一个目的,通过举办这个沙龙,一个是探讨最新东西,同时也是要把老科学家精神和科学家思想、知识传承给新的一代。所以几个目的都达到了,最后对会务保障组织人员表示感谢,谢谢大家!

刘卓军:我们这次科技沙龙圆满结束,谢谢各位!

[返回]

刘卓军:我们一上午很艰巨的任务已经完成了,按照原先计划有交流环节,安排半个小时的时间,大家不要着急,我们不会持续那么长时间,我们沙龙给大家准备了工作餐。交流一段时间,刚才张世华已经讲到新时代可能是科学家+工程师,工程师的时代,科学家的时代,还有像卜老师一开始讲小孩子学习也是未来嘛,加上大模型,今天这么几个概念揉在一起,剩下一段时间,我们一起交流一下,特别年轻人,老同志也可以,也一起来分享一下。

焦少灼:刚才讲AI,讲的是一个把权重嵌入到黑箱中,我就提挑战。刚才张老师说要知道当前遇到的挑战,知道挑战我们才知道怎么去解决它,因为我做生物的,刚才有位老师讲生物是有物理、化学还有数据,唯独没有生物人,所以生物人只能提出来问题,我就提出来一个这样的问题,现在大家知道制药很难,需要十几年投入,失败率很高,10%的成功率,像现在对于制药的人像开盲盒的过程,我设计一个分子,这个分子能和我靶点进行结合,现在AIphaFold出来之后,大家知道这个黑盒子很准确预测这个结合,最终到临床一期二期三期变成开盲盒,大家都希望把这个盲盒开的时候确定性强一点,涉及到首先动物实验,独立学实验,保障对人没有危害,这个仍然开盲盒过程,有没有可能咱们在分子阶段我相信伯老师说AIphaFold类似东西,能不能把后期到人临床三期中间过程变成参数嵌入到模型,我在设计分子之后在临床之前我就直接预测一下,相当于刚才老师说数字孪生,我先做一系列数字孪生代表不同的病人,去把这些药物分子输入进来,先预测一下结果,我再做临床试验,和临床试验结果很符,得到很新药物开发的一个数字模型,这就是生物医学界面临最大问题,很多药很多需求没有有效解决手段。  

伯晓晨:我们确实有个小组,我们有个小组在做药物分子设计,现在看到两个方面的不同趋势,一方面就是计算机科学家认为很有信心,认为这个会取得很大突破。今年6月下旬英特尔要搞一个计算药物设计会议在海南岛,是非常乐观的。另外一方面我参加好多做药物的产业方面的会议,对于AI+药物开始有很多负面评价,我认为是把问题想简单了。

    算力租用是计算中心给我反馈回来,好几个大计算中心反馈过来的,药物设计的需求量在做计算的人积聚减少,他们最客观的,谁在用卡他们很清楚,所以刚开始那些模型都开始发现有很大问题,生成式可以生成很多新奇古怪的分子,大多数都有毒,刚才讲好几个链条,中间几个链条,可能一个个攻克,比如毒性预测、适应症预测,这个模型将来如果一个模型解决不了,一个分子这么小,可能成为靶标蛋白大概10万个,每个蛋白表面可以作为靶点地方假设1万个,这个组合有多大,还针对6000种疾病,一个小分子跟哪个靶点哪个位置结合扭转6000种疾病哪个,这个算起来非常大,还不包括吸收代谢,心肝脾肺肾这些都不管,技术总是这样,刚开始大家很乐观,会回归理性,药物很有可能会成为生命科学AI for Life Science仅次于大脑的难度。我听说,我没有核实,第一批AI药物十几个,全都是临床失败的。

焦少灼:今年刚发文章,2024年总结2023年底之前,基本上只提高了一期毒性能够预测的,从原来60%提高到90%,二期有效性还一样30%40%有效性,这是刚发表的,之前没有用AI的技术去做的小分子和用了AI之后辅助这种成功率,在疗效上没有,在毒性上有。 

刘卓军:好了,大家讨论交流的很热烈。张世华老师讲颠三倒四方式发生pattern就好了。因为咱们这次沙龙是中科院老科协主办的,中国老科协给予的支持,今天一直参加活动的中国老科协孙建国副理事长,也是中国科学院老科协理事长。最后请孙理事长给我们讲几句话。