【简介】
近年来,随着大算力、大数据和AI算法的快速发展,GPT-4、Sora和Gemini为代表的人工智能大模型的成功标志着人工智能从以专用小模型训练为主的“手工作坊时代”迈入到以通用大模型预训练为主的“工业化时代”,成为新一代人工智能发展分水岭。国内人工智能研究也热潮迭起,涌现出了DeepSeek、讯飞星火、紫东太初、阿里通义等诸多大模型。两个报告分析大模型的技术发展现状、能力涌现机理、幻觉和可解释性;介绍国内外算力的布局,国内算力发展的困难与挑战,以及人工智能多模态大模型分布式训练方法、模型结构设计和学习机制等技术情况,以及知识和检索增强大模型方法;探讨大模型在各个行业的落地范式和垂直应用效果、存在的问题,分析和讨论经典落地案例以及存在的问题和调整;最后探讨人工智能大模型的未来发展趋势。
【主持人致辞】
【领导致辞】
【主旨报告】
王金桥:多模态人工智能驱动新一代技术变革
人工智能自1956年诞生以来,经历了一系列具有里程碑意义的重大事件,其中尤为瞩目的是2016年AlphaGo战胜世界围棋冠军以及2022年ChatGPT的横空出世。从感知理解到生成创造,大模型技术成为通用人工智能的主流探索方向。大模型凭借海量数据训练和庞大参数规模,展现出令人惊叹的通用能力和涌现特性。从GPT系列到DALL-E,从Claude到国内的千问、文心一言等,大模型正在深刻重塑人们对人工智能的认知与期待。
大算力、大数据、大参数"铁三角"持续驱动着模型性能的升级。预训练的尺度定律表明,算力规模、数据量和参数量的增长与模型性能呈正相关。从早期的BERT(3.4亿参数)到GPT-3(1750亿参数),再到最新的GPT-4和Claude 3 Opus(参数量可能超过万亿),模型规模的不断扩大确实带来了性能的显著提升。当模型规模达到一定程度时,会出现"涌现能力",即模型表现出训练中未明确教授的能力,如复杂推理、代码编写和多步骤规划等。这种涌现能力使大模型超越了传统AI系统的局限,展现出更接近人类智能的特性。但我们正面临数据枯竭的严峻挑战。预计到2027年或2028年,可用于训练的海量数据将基本耗尽,未来的发展方向将转向合成数据。目前,合成数据已逐渐成为主流。以Deepseek为例,其成功之处在于拥有80万条合成的思维链数据。思维链数据对质量的要求极高,而数量则不必过大。通过这些精心设计的合成数据,模型能够实现智能涌现,展现出强大的推理能力。目前,预训练已转向这种合成数据策略,这是应对数据枯竭挑战的重要技术突破。后续训练同样是大模型发展的关键环节。尽管大模型在本质上具有通用性,但在实际应用中往往针对特定任务,因此需要通过行业数据进一步增强其专业能力。在私有域数据的支持下,模型能够在特定领域展现更强的专业性。随着分布式训练成本的降低,大模型开始在各行业落地应用,而由于许多数据具有隐私性要求,不适合公开共享,后续训练的重要性日益凸显。这种针对性的训练使得大模型在特定场景下能够展现接近人类专家的专业水准,为行业应用提供了坚实基础。
人类认知和交流本质上是多模态的,单纯依靠文本模态的语言模型难以满足复杂场景下的交互需求。因此,多模态大模型应运而生,通过整合文本、图像、音频等多种模态信息,可为人工智能系统提供更全面的感知和理解能力。多模态编码的核心在于将不同类型的数据转换为统一的向量表示,使模型能够在同一特征空间中处理,这是实现真正类人智能的关键一步。语言模型本质上是一个词语预测器,通过互联网上的海量数据进行自监督学习,预测序列中下一个词的概率分布。视觉信息的处理同样需要编码,主流方法是采用Vision Transformer架构,包括MAE和CLIP等技术,将图像划分为多个区域,每个区域(patch)类似于自然语言中的词嵌入。通过这种方式,一张图像可以展开成一个token序列,从而与语言进行对齐,实现图像的每个patch与语言的每个单词之间的精确映射。语音处理也采用类似方法,通过MFCC特征提取和变换,将音频信号转化为序列表示。三维数据通过3D CNN进行处理后展开,视频则通过采样关键帧并拼接成序列来进行编码。这种序列化处理使得不同模态的信息可以在统一框架下处理,从BERT到GPT再到后来的多模态模型,都是通过这种编码-解码结构实现的。这种统一的处理方式是多模态大模型的重要技术突破,为不同信息的融合提供了可能。
模态之间的处理涉及两个关键步骤:先将各模态编码成向量,再在向量空间中进行对齐。对齐架构主要有三种:双塔结构、单塔结构和交叉注意力结构。核心方法是让图像的每个patch与语言的每个token进行对齐,基于相似性度量在特征空间中建立联系。通过损失函数使相同pair之间的距离更近,从而提高它们之间对齐的概率。在训练过程中,模型学习图文对中图像区域与描述文本单词之间的对应关系,实现跨模态理解。这种对齐技术是多模态大模型的核心突破,使得不同类型的信息能够在同一框架下被理解和处理。
尽管我国在大模型领域取得了显著进展,但与美国相比仍存在差距,主要表现在四个方面。首先是算力差距,高端芯片特别是NVIDIA的GB200等顶级AI芯片在性能和管理便捷性上具有明显优势。国内华为的Ascend系列虽能在某些方面对标,但在功耗和调度复杂性上仍有差距。这种算力差距直接影响了大模型的训练效率和规模。数据资源是第二大差距。互联网上高质量的中文语料不到英文语料的5%,这使得中文大模型在训练初期就面临数据劣势。更为关键的是科学数据的获取问题,中国的优质科研成果多发表在国际期刊,存储在IEEE、ACM等国外数据库中。需单独购买访问权限,且只能通过检索方式获取,从而限制了大规模训练数据的积累。第三个差距在于分布式训练和工程化能力。大模型训练是一项复杂的系统工程,需要协调成千上万张GPU卡的并行计算。管理大规模训练集群,处理数据、内存、CPU与GPU之间的协调,以及模型和算子的拆分优化等工作具有挑战性,需要高水平的工程化能力。第四个差距是专业数据处理人才。将行业原始数据转化为有效的训练样本,尤其是高质量的思维链和问答数据,需要同时具备领域知识和AI技术理解的专业人才。这类人才能够确保数据被转化为机器可理解且有助于推理能力发展的形式,对大模型的专业能力提升至关重要。
面对这些挑战,我国科研机构积极探索突破之路。中国科学院自动化研究所早在2020年就成立了大模型研究中心,基于华为、曙光等国产化算力开展紫东太初大模型训练,目前已发展到4.0版本。研究团队分为三个核心部分:负责数据收集和清理的爬虫团队、负责模型训练的技术团队、及负责评测的评估团队。中心团队在国际上首次提出全新的多任务多模态自监督学习框架,在令牌、模态与样本三个级别实现了深度融合和跨模态对齐。从技术架构看,紫东太初大模型实现了从1.0多模态大模型到2.0全模态大模型,再到3.0多模态智能体大模型的重要演化,创新性地提出了统一原生编码机制,无须显式的模态关联融合过程,直接实现了多模态能力的自然涌现。在数据处理层面,建立了弱关联多模态数据的语义统一表示方法,支持三种或任意两种模态数据的混合训练,为多模态大模型的发展提供了重要技术支撑。这些突破性进展表明,我国在多模态大模型领域已经形成了自己的技术路线和创新能力。
【邀请报告】
王士进:星火认知大模型的技术阶跃和应用思考
今天从三个方面汇报,一个是对大模型技术的解读与分析,二是介绍我们当前的技术进展,三是我们的典型行业应用。
一)从感知到认知的大模型技术进展
语音合成技术是一个非常典型感知技术,经历过三个技术阶段,参数合成、神经网络、大模型阶段。早期的合成技术包括波形拼接和参数合成,机械感比较强。我们现在主要是围绕更高表现力,使其听起来更像人在真实环境下交互,实现在更少资源情况下个性化语音合成。这种高表现力体现在很多点,包括律、声音独特性、情感、环境等。
跟合成相对的是识别。从 HMM、GMM开始,走到神经网络阶段,从 DNN到 CNN到 RNN路线,分别有不同类型的探索,现在则统一到语言大模型了。围绕复杂语音,动态评估噪声并且对内容进行分离处理是最关键的一个过程。针对低资源的多语种的处理,第一是端到端,第二是统一建模,把所有的语种在语义和语音空间上集合在一起。针对一些资源比较多的语种,我们的识别率能够达到97%甚至98%以上。针对小语种,我们也能够做到基本可用。
语言翻译技术是一个非常古老的技术。翻译跟语音处理很像,有一个翻译模型,还有一个语言模型。语音翻译或者语音同传,先进行语音识别;再进行机器翻译,把一种语言转换成另一种语言;最后进行语音的合成,把文本又转成另外一种语音。这三个系统级联带来两个问题,时延和误差放大。需要把端到端的思路做进去,即把语音识别和机器翻译统一化,用一套网络去实现。通过这种方式,整个语音翻译效果有了大幅提升。现在我们的语言翻译的效果有了更大提升,体现在翻译三种境界,即信达雅。信大家比较清楚,达是翻译出来大家都认可这么回事,雅则指有艺术的感觉。大模型出来后,我们发现大模型产生的雅的效果无论是对于我们的翻译、歇后语,还是基于场景想表达的一些比较隐晦的语言意思表达,都挺好。
语音和图像其实没有特别大的区别,到大模型就更没有区别了。我们研究图像主要聚焦于OCR。对象第一是手写体,特别是在教育和司法常见的、复杂版面下的书写体;第二是混杂文字,如中文英文、数学符号等,混杂在一起。我们研制的黑板产品可以将黑板上面的内容转换成数字信息,并通过后台调用知识库,进行更精细化的处理。这样的技术也能够应用于很多场景,包括二类形象合成和3D形象合成、以及多种模态的交互等场景。
自然语言理解也很重要。我们看到的文字和文字背后所要表达的语义,其实差别很大。大模型带来语义上的一大进步,体现在对语言的理解及模型的通用能力。大模型从文字层面到语义空间上实现了更好的映射。正是因为有了语义的映射,用大模型去训多语种时,很多语种在数据量上占比可能只有百分之零点几,但仍可以使得这个语言整体表现良好。
未来发展方向是具身智能。现在很多团队都在做数字世界和物理世界的对齐,我们也希望在该方向发挥作用。以自动驾驶为例,让车在真实世界中不断行驶和分析数据、学习数据,并在虚拟世界中自己仿真去学习。如果数字世界和物理世界的对齐做得好,那么自动驾驶会有更好发展。
二)科大讯飞的技术工作
我们的技术模型(快模型)和生物推理模型(慢模型)和行业里最好的模型能够做到基本对标,今年的高考数学题的解题做到了140分,明年大概率都能够做到近150分。
在多语种和多语言也取得很多成果。早期我们用传统技术做十几种方言就遇到瓶颈。现在用大模型,上百种类型的方言都不成问题。今年世博会的中国馆,就用了我们的多语言模型。
和华为合作,持续突破国产化算力芯片应用技术难点,现在能够在接近5万卡集群里,把 MOE框架和强化学习框架的训练效率保持很好的水平。
基于深度推理的长思维链对技术有促进,但在行业应用时还存在很多问题。我们围绕行业应用对思维链方式和算法做了很多改进。如对教育领域应用的一个简单问题,无论大模型还是推理模型,都会生成一系列内容。这些内容机器可理解可用,但不是我们人类完全理解可用的。如果拿这些内容去教育孩子,就可能让孩子难以理解。所以我们在研究如何结合行业需求,让思维链生成内容可解释,并符合认知规律。
三)科大讯飞的行业典型应用
教育是讯飞的第一大板块,整个集团的1/3收入来自于教育。教育分基础教育和科学教育。在基础教育领域,有大模型以后,我们原来很多不敢做的事情现在都能够做得更好。用大模型能够把书本上的数字变成虚拟人,而虚拟人能够具备人设的特点,可以实现跟老师和学生更好的交互。个性化学习也是这样。成绩并不能准确反映孩子是否已掌握知识点,而大模型可以对解题的过程更深入理解,使得学习的效果能够持续提升。
科学教育在中小学面临两大挑战,一是最新的技术和最新的知识很多;一是如果不是这个领域的专家,想把这个知识深入浅出地讲好,难度很大。我们把知识库或者互联网接入大模型,引入最新知识,并基于优质数据,进行一些人设的训练,解决了这两个问题。
判断心理健康状态需要交互过程,如行为、动作、表情、甚至一些微表情,及在交互中的言行表现。通过汇总这些信息,大模型可以给出相应的心理健康判定。我们现在有两个团队在做心理健康教育,一个团队围绕医疗市场,一个团队围绕学生群体。虽然这两个团队的底层技术有点类似,但是要求不太一样,最终的产品也不一样。
我们将AI4S分为三类。第一类为科研基础工作的提效,即怎么去理解众多的文献情报,更好地服务科研人员的需求,包括领域调研、成果提炼、文献问题解读、及写作辅助等。第二类是科学计算加速。早期是对一个理论公式的计算模拟,现在用深度学习,用深度神经网络去逼近。一旦这个领域能够产生高通量的数据,那么用神经网络去模拟,只要模型做得好、参数训练好,往往就能超越很多传统公式。第三类是科研知识的创新,即整合以前在实验室里积累的大量的高端数据和文献里积累的结果性的知识,生成新的结果、新的知识。
大模型是一个对多行业多能力的一个赋能行业。越来越多的行业都在开展大模型的微调或知识库的定制,以服务行业里的相应的工作。我们已成立一个叫星火军团的团队。星火军团需要去构建整个行业应用体系,帮助其他行业去构建行业模型或场景模型或领域模型,以便更好实现大模型的行业应用。
虽然大模型很好用,但面临行业的一个或多个具体问题时,并不能完全依赖大模式,而是必须把原来行业里的工具、传统的AI算法和大模型整合,形成智能体去实现更好的应用。并且通过这种操作,实现数据的不断迭代,从而使得效果越来越好。
四)总结
1)讯飞在大模型及相关业里做了一些工作,取得了一些成绩。
2)讯飞一直非常注重数据的安全和隐私保护。
3)讯飞认为未来中国大模型一定是朝产学研密切结合的方向发展。
4)讯飞认为在同一个大模型底座平台上开展工作是未来推动中国大模型共同发展的一个好模式。
【讨论与交流】
问:多模态大模型是在语言大模型的基础上把其他模态转换到语言模态输入形式吗?
答:大多数都是这种形式,把更多的信息统一编码进去。
问:到底是通用大模型的发展潜力大,还是专业领域模型更好?
答:现在底座大模型还在持续发展中。很多的专业知识都在互联网上包括在开源的数据集上都获取不到,所以现在重要的应用还是在专业领域,因为最终并不需要特别通用,而是需要在通用基础上有专业的能力。我觉得专用大模型是人工智能发展更具有潜力的方向。
问:关于同声传译大模型,从语音识别,到翻译,再合成,有什么特殊性?建模优化设计需要什么特殊考虑?有没有更好的策略?
答:语言大模型的能力是通过对各种不同类型的数据学习获得的。在这个领域,可能只需要少量、但是有一定覆盖度的质量更高的数据去激发即可。所以我们现在更多的创新点是在数据上。
问:是在基础大模型上进行参数微调?
答:对,但是参数微调的关键是获取高质量数据!
问:在多语种方面你们做了哪些工作?对比鹏城,系统性能有什么不一样?
答:三年前讯飞承担了一个中科院的C类先导项目,就是多语种处理。囊括了约60种语言,效果较好的约20多种。我们的技术最后应用在华为手机、奇瑞汽车上。跟鹏城一样,大家都在围绕这些方向持续突破。
问:如新闻联播一样,现在的大模型能直接同声翻译吗?
答:现在的技术都能做到,新华社用的就是我们的技术。
问:华为在发展自己的算力芯片时,有没有研发类似CUDA架构和编程语言?
答:华为有自己的CUDA,但是只开放了三个接口,所以现在工信部要求华为像鸿蒙一样进一步开放。
问:目前国内鸿蒙系统的生态是已有规模了吗?
答:建立生态的过程不是一蹴而就的。一旦生态起来,用国产产品也就顺手了。
问:讯飞跟华为合作,用的是CANN吗?
答:是的,现在整个算法就在华为集群上运行。但是不同产品的算法和算子可能不一样,所以使用华为的算力芯片时,每一家可能都需要做定制化。
问:你们什么时候开始训练的?训练稳定吗?
答:实际上我们在2023年就开始使用。训练过程中,我们和华为一起讨论出现的问题并予以解决,所以现在训练比较稳定。
问:从讯飞角度最看好的AI应用领域是哪几个? 咱们国内的大厂对华为算力及英伟达算力的布局和使用情况是怎样的?从你们的角度如何看待国内算力的建设现状和发展的趋势?
答:现在很多开源模型都做得很好。原来哪个方向业务做得好,再把大模型结合起来,才能继续帮助这个行业。对讯飞而言,在教育、医疗等做得最好,所以我们现在大模型主要针对这几个领域。
关于算力,现在国内分几类。一类是英伟达体系。另一类是国产卡,如华为、寒武纪等,现在各种配套做得很好,而且模型验证也比较充分,可以放心用。
问:现在的Deepseek是否已经像人一样可以真正推理了?
答:现在的大模型是一个大型神经网络,整个推理过程是一个黑盒,还不具备可解释性。但是在增加了强化学习后,开始具备反思和思考能力,可以引经据典了。
问:关于大模型的幻觉问题,有什么好的解决办法吗?
答:一是要更换数据,二是一定要做优化。
问:多模态模型训练时,如果出了问题,怎么确定哪个模态学习不好?
答:不同的能力取决于用不同品质的数据集。用各种数据集进行评测每项指标,目前主要靠自建的数据集。而用公开的一些数据集来评测,目前也没有一个特别好的方法。
问:你觉得科学技术大模型AI4S能走多远?它对于整个科学的影响是所有的领域还是只限于某些领域?能不能把大模型和数学模型两者结合起来?
答:自动化研究所在牵头做科学技术大模型,把AI作为一个工具来支撑各个学科的科研创新,主要有三个方面,一是文献的管理和理解,二是生成科研方案,三是科学问题的最优解决方案和求解。我们的解决思路是让大模型和数学模型平行求解,并不断优化。如果这两个结果特别接近,那就使用;如果差距大,那就继续训练。现在很多科学家在做数据的对齐,这块工作量很大。
问:Deepseek热度不在,难道现在陷入了低谷?另外,针对社会问题或宗教问题或世界观问题,大模型未来的发展是什么?
答:Deepseek现在没以前热,可以理解,因为有投入、数据、服务、人才队伍的问题。但针对社会问题或宗教问题或世界观问题,大模型很容易解决,包括两个方面,一个是 security,一个是 safety。先把安全和可信度做好,再对外开放。
我觉得Deepseek激发了国内和国外团队在这个方向快速进化的动力。大模型可以把互联网上各种信息和知识进行综合,形成一条推理链条。也许不一定准确也不符合某个群体的观点,但是它至少是自洽的。
问:在大模型的训练过程中,是否有可能通过数学方法提升训练效率和模型品质?
答:形式化推理可以求解数学问题,但复杂数学问题进行形式化表达是巨大挑战。大模型并不进行形式化推理,而是解决从复杂的文字性描述转成对这种形式化表达的确认。形式化确认后再进行推理,则需要结合大模型和形式化推理。从应用讲,我们更希望解决前端的输入问题。
【学术及政策建议】
1) 我国应加大对人工智能基础理论和关键技术的研发投入,特别是在多模态表示学习、模态对齐与融合等前沿方向,建立长期稳定的支持机制。
2) 加快国产AI芯片和计算集群的研发与部署,建设国家级人工智能计算中心,为大模型训练提供强大的算力支持。
3) 建立国家级多模态数据中心,整合政府、企业、学术机构的数据资源,并推动科研成果的本土化发表,减少对国外数据库的依赖。
4) 人才培养是大模型发展的关键。我国应改革人工智能教育体系,强化跨学科培养,建立产学研协同的人才培养机制,吸引和留住高端AI人才。
5) 支持开源多模态大模型的研发和社区建设,鼓励企业和研究机构开放模型和数据,形成良性的技术创新生态。
6) 在保障国家安全的前提下,积极参与国际人工智能标准制定和技术交流,推动建立公平、开放的全球AI治理体系。
7) 建立政府引导、市场主导的应用推广机制,支持多模态大模型在医疗、教育、制造等重点领域的示范应用,促进传统产业智能化升级。
问:多模态大模型是在语言大模型的基础上把其他模态转换到语言模态输入形式吗?
答:大多数都是这种形式,把更多的信息统一编码进去。
问:到底是通用大模型的发展潜力大,还是专业领域模型更好?
答:现在底座大模型还在持续发展中。很多的专业知识都在互联网上包括在开源的数据集上都获取不到,所以现在重要的应用还是在专业领域,因为最终并不需要特别通用,而是需要在通用基础上有专业的能力。我觉得专用大模型是人工智能发展更具有潜力的方向。
问:关于同声传译大模型,从语音识别,到翻译,再合成,有什么特殊性?建模优化设计需要什么特殊考虑?有没有更好的策略?
答:语言大模型的能力是通过对各种不同类型的数据学习获得的。在这个领域,可能只需要少量、但是有一定覆盖度的质量更高的数据去激发即可。所以我们现在更多的创新点是在数据上。
问:是在基础大模型上进行参数微调?
答:对,但是参数微调的关键是获取高质量数据!
问:在多语种方面你们做了哪些工作?对比鹏城,系统性能有什么不一样?
答:三年前讯飞承担了一个中科院的C类先导项目,就是多语种处理。囊括了约60种语言,效果较好的约20多种。我们的技术最后应用在华为手机、奇瑞汽车上。跟鹏城一样,大家都在围绕这些方向持续突破。
问:如新闻联播一样,现在的大模型能直接同声翻译吗?
答:现在的技术都能做到,新华社用的就是我们的技术。
问:华为在发展自己的算力芯片时,有没有研发类似CUDA架构和编程语言?
答:华为有自己的CUDA,但是只开放了三个接口,所以现在工信部要求华为像鸿蒙一样进一步开放。
问:目前国内鸿蒙系统的生态是已有规模了吗?
答:建立生态的过程不是一蹴而就的。一旦生态起来,用国产产品也就顺手了。
问:讯飞跟华为合作,用的是CANN吗?
答:是的,现在整个算法就在华为集群上运行。但是不同产品的算法和算子可能不一样,所以使用华为的算力芯片时,每一家可能都需要做定制化。
问:你们什么时候开始训练的?训练稳定吗?
答:实际上我们在2023年就开始使用。训练过程中,我们和华为一起讨论出现的问题并予以解决,所以现在训练比较稳定。
问:从讯飞角度最看好的AI应用领域是哪几个? 咱们国内的大厂对华为算力及英伟达算力的布局和使用情况是怎样的?从你们的角度如何看待国内算力的建设现状和发展的趋势?
答:现在很多开源模型都做得很好。原来哪个方向业务做得好,再把大模型结合起来,才能继续帮助这个行业。对讯飞而言,在教育、医疗等做得最好,所以我们现在大模型主要针对这几个领域。
关于算力,现在国内分几类。一类是英伟达体系。另一类是国产卡,如华为、寒武纪等,现在各种配套做得很好,而且模型验证也比较充分,可以放心用。
问:现在的Deepseek是否已经像人一样可以真正推理了?
答:现在的大模型是一个大型神经网络,整个推理过程是一个黑盒,还不具备可解释性。但是在增加了强化学习后,开始具备反思和思考能力,可以引经据典了。
问:关于大模型的幻觉问题,有什么好的解决办法吗?
答:一是要更换数据,二是一定要做优化。
问:多模态模型训练时,如果出了问题,怎么确定哪个模态学习不好?
答:不同的能力取决于用不同品质的数据集。用各种数据集进行评测每项指标,目前主要靠自建的数据集。而用公开的一些数据集来评测,目前也没有一个特别好的方法。
问:你觉得科学技术大模型AI4S能走多远?它对于整个科学的影响是所有的领域还是只限于某些领域?能不能把大模型和数学模型两者结合起来?
答:自动化研究所在牵头做科学技术大模型,把AI作为一个工具来支撑各个学科的科研创新,主要有三个方面,一是文献的管理和理解,二是生成科研方案,三是科学问题的最优解决方案和求解。我们的解决思路是让大模型和数学模型平行求解,并不断优化。如果这两个结果特别接近,那就使用;如果差距大,那就继续训练。现在很多科学家在做数据的对齐,这块工作量很大。
问:Deepseek热度不在,难道现在陷入了低谷?另外,针对社会问题或宗教问题或世界观问题,大模型未来的发展是什么?
答:Deepseek现在没以前热,可以理解,因为有投入、数据、服务、人才队伍的问题。但针对社会问题或宗教问题或世界观问题,大模型很容易解决,包括两个方面,一个是 security,一个是 safety。先把安全和可信度做好,再对外开放。
我觉得Deepseek激发了国内和国外团队在这个方向快速进化的动力。大模型可以把互联网上各种信息和知识进行综合,形成一条推理链条。也许不一定准确也不符合某个群体的观点,但是它至少是自洽的。
问:在大模型的训练过程中,是否有可能通过数学方法提升训练效率和模型品质?
答:形式化推理可以求解数学问题,但复杂数学问题进行形式化表达是巨大挑战。大模型并不进行形式化推理,而是解决从复杂的文字性描述转成对这种形式化表达的确认。形式化确认后再进行推理,则需要结合大模型和形式化推理。从应用讲,我们更希望解决前端的输入问题。