• 汇集公众科学智慧交流科学思想见解
  • 点燃科学智慧火花构建互动交流平台
科学智慧火花
科学前沿学术沙龙
查看评论  0                

机器人视觉关键技术研究与应用

主办单位: 中国科学院老科协
承办单位:中科院老科协自动化所分会
举办时间:2018-04-03       【字号: 访问量:

目录

简介
主持人致辞
主旨报告
邀请报告
讨论与交流
主要专家简介:
  1. (以下按姓名拼音顺序排列)
  2. 董士海:北京大学教授,博士生导师,计算机图形图像学
  3. 桂文庄:研究员,中科院老科协副理事长,原中科院高技术局局长
  4. 何远光:中科院老科协执行理事长兼秘书长,原局长
  5. 洪继光:中科院自动化所研究员,模式识别
  6. 胡包钢:中科院自动化所研究员
  7. 李亚男:中科院老科协办公室主任助理
  8. 林  鹏:中科院自动化所研究员,模式识别
  9. 卢国刚:中科院自动化所研究员,智能制造
  10. 麻莉雯:中科院老科协办公室主任
  11. 石秋声:中科院自动化所科技处
  12. 吴显礼:汉王科技公司
  13. 肖锋立:汉王科技公司
  14. 肖攻弼:中科院自动化所研究员,
  15. 张恭清:中科院自动化所研究员,原所长助理,中国自动化学会秘书
  16. 张尤腊:中科院网络中心/软件所研究员,原中科院软件所所长,软件工程
展开

【简介】

 

当前,人工智能和机器人技术已经成为国家创新驱动发展的重大战略技术之一。机器人视觉技术作为人工智能和机器人技术的重要组成部分,它可以通过视觉传感器获取环境的图像,并进行分析和解释,使机器人能够辨识物体,并确定其位置。机器人视觉在电子、机械、智能机器、医疗、军事等许多领域都有非常广泛的应用前景。但是,由于技术方面的原因,目前高性能机器人视觉系统的多个技术瓶颈尚未得到突破,因此限制了其应用的发展。本次沙龙介绍机器人视觉系统的部分关键技术的研究发展现状,讨论其进一步发展的方向和问题。

[返回]

 

【主持人致辞】

 

顾学真:各位专家,早上好。今天是我们自动化所老科协分会举行的第三次沙龙活动。今天沙龙的题目是机器人视觉的关键技术与应用。沙龙主旨报告由原魁研究员来做,他从事机器人的研究的。另一位是北京大学的查红彬教授,他是从事计算机视觉研究的。下面咱们进入正题,请原魁老师先做关于机器人视觉关键技术研究和应用方面的发言。欢迎原老师。

[返回]

 

【主旨报告】

 

原魁:机器人视觉关键技术与应用

各位老师,大家上午好。非常高兴有这个机会跟大家交流一下。我今天跟大家想交流的是机器人视觉技术方面的事情。我们所做工作有很多,今天想简单的说一下机器人视觉相关的内容。

首先,机器人视觉很重要,机器人视觉系统是智能机器人进行环境感知的主要途径,但也一直是智能机器人发展的主要技术瓶颈,技术上远远达不到需求,限制了机器人视觉的发展。

工业机器人有用到视觉的。2D视觉伺服技术已经比较成熟,得到了很好的应用,但不是很普遍。3D的也有,但是并不是很成功。

1  2D视觉伺服技术已经比较成熟,在工业机器人上得到了很好的应用。

2  3D视觉伺服技术还任重道远,实际应用也非常有限。

下边简单介绍一下机器人视觉的关键技术。智能机器人的控制一定是先做环境感知,根据环境和任务做控制决策,最后才执行相应的动作。这里面对机器人视觉的要求是,首先你得看得懂环境,包括环境的感知和理解,然后可能要执行任务,就要能够找得到目标。简单环境下,像咱们的天空对接是最最简单的任务。实际上很多地方很复杂,你要找到你想要的目标是很难的。我们的学习也基本上集中在这个地方。

一定要满足实时性要求,不像我们平时处理的任务,你学一个小时也行,学一天也行。机器人不行,机器人对实时性要求很高,我们人的视觉系统是眼睛加大脑。眼睛解决看得到的问题,大脑解决看得懂的问题。所以理解的问题实际上是机器人视觉要解决的问题。

视觉系统一般是硬件软件两个部分组成,硬件解决看得到的问题,软件解决看得懂的问题。

现在的视觉系统国内分几种,一种通用型,通用计算机加不同类型的机器人视觉系统。再有就是现在越来越多的开始出现嵌入式机器人视觉系统,有的是嵌入式,有的干脆做成一体,这种类型也比较多。硬件实际上除了计算机相关的之外,还包括镜头类的东西。比如说鱼眼镜头,虽然会发生变形,但是视野非常大,在很多地方有特别的需要。

还有一种叫全方位视觉系统,可以看到360度。基本上是这样一个结构,用的比较多的是我们进行足球比赛里边,也有不同类型的,不去讲了。

普通相机得到的是2D图像,为了获得3D信息,可以用深度信息传感器。当然了,目前不同类型的深度信息传感器的分辨率低一点,也有很多种类。我们各种类型的激光传感器,实际上它处理方式跟视觉是比较接近的,所以这种我们一般来说,它的硬件都是视觉系统。

图3  深度信息传感器

光有硬件是不行的,硬件解决看得见,软件解决看得懂,看得懂比看得见的难度要大得多。软件的任务是这样的,它要对采到的视觉信息进行处理,通过处理之后,要找到给定的目标,可能还要识别这个目标到底是什么,是不是要找的那个。这里面包括两个方面的任务,一个是要做图像处理,一个是做模式识别。

图像处理里边包括预处理,有特征提取,特征提取里边有直接的图像特征,直接的和底层的,也有看不见的特征。有的特征计算机能够提取出来,但是人是看不见的。现在很多人工智能就是这样,但是它就是根据那些特征识别到它找的物体。有了特征之后就可以做目标检测。

工业机器人视觉用的不是特别多,但像这种抓点心的视觉系统,它的特点就是速度非常快,能够把所有的点心所在的位置,都能实时识别处理。机器人控制器可以控制手臂,把杂乱无章在传送带上的点心捡起来,最后让它整整齐齐地放在一块儿。

图4  抓点心的视觉系统

视觉系统在无人驾驶车和机器服务人方面有着广阔的应用前景。

种服务机器人很多,比较有代表性的是日本的新一代仿真机器人,看看它现在都能干什么。这个机器人上边是有眼睛的,还有各种各样的传感器。它现在已经可以跑得很快,每小时跑九公里。它可以听得懂三个人同时发的命令,能简单对话。这个手已经很灵巧了,能拧杯子。它可以主动绕开对面走过来的人,有的时候靠视觉,有的时候靠身上其他东西。能踢球,做手语。我们希望这样的机器人能早点进入我们的生活,但是有两个问题没解决,一个是电源,充满电只能工作半个小时,再一个,智能还差的很多。

图5   仿真机器人

这样的机器人当然也是需要有视觉的,而且对视觉要求蛮高。简简单单避障是很容易的,但是要理解环境,找到目标,是比较难的,所以先要识别。

现在需要解决的关键技术问题就是有良好通用性的高性能的嵌入式视觉系统研制开发。这也是我们在努力解决的问题。

视觉信息的高处理速度和高系统功耗是难以平衡,所以电源一般用的时间比较短。同时使用FPGA和DSP,能够发挥二者的优点。采用专用芯片,用硬件直接实现多种复杂操作。

下面简单介绍一下我们所相关工作。我们所做视觉的很多很多,我们做了几块处理卡。有一个FPGA加DSP,我们把常用的图像处理算法都用DSP实现,远远高于普通系统,高几十倍几百倍很正常的。我们用到了很多地方,这只是一个例子。这里面算法做了很多,像这种预处理基本上都是每秒做到上百帧都没有问题。SIFT的特征点提取用我们的要快很多倍。

其中一个有代表性的工作,我们大型的武器装备的数码迷彩的喷涂,已经在部队几个研究所验证了好几遍。主要工作一个就是自动建模,可以自动扫描,自动建模,生成模型。最重要的技术就是可以自动编程,可以自动生成机器人的控制程序。像这个喷涂过去是战士喷的,这样一台车一般是五个战士喷七天。国庆60大庆的时候很多车喷的所有的都是同样的图案,起不到伪装作用,这个有现代迷彩的伪装趋势,自动建立模型,自动编程,这儿有一个识别,它在测距,会自动把误差送到机器人控制器,做自动的补偿,才能保证喷的宽度都是一致的,否则保证不了一致。

面向机器人视觉系统的MR二维码,它的用途蛮广的,它基本作用就是,有了它,它就可以定位,看到它之后就知道你的视觉系统和它的位置,而且它是专门面向机器人视觉的,所以离这么远也可以提取出来。我们把它用到了视觉导航的AGV上,视觉导航AGV除了我们做,国内外基本上很少,因为这个还是很难的。我们一般的AGV只能在室内环境,我们这个是可以在室外环境跑。看到二维码就可以决定你视觉系统和它坐标系之间的关系。还可以用到其他地方,比如说我们用到了移动机械臂上,机械臂很贵,如果把普通的AGV加机械臂之后,就发现机械臂和机器人的坐标系对不上。我们用二维码的技术,现在是两种,国外的机器人和我们的AGV连起来,做智能的移动机械臂,这是一个例子。这两台车是在随意的移动,它的任务只是要把那边的东西抓起来叠放在这儿,它看一眼就知道两个之间的距离,可以对得很准。地上贴的也是二维码,因为二维码有信息,所以给了它位置信息。像这也是,停下来之后,两个车之间相互的关系根本是一点都不准的,没有一个准确的关系,但是用我们现在这样的系统可以准确地对上。这个应用应该说在很多地方可以应用,比如说简单的仓库,你在超市的货架上取东西,都可以用这种技术。

图6  面向机器人视觉系统的MR-二维码,左图是MR-二维码,右图(1)和(2)是MR-二维码在不同光照下的识别效果

到现在为止大概国内是信托公司做到了,信托公司有这样的产品。国外只有库卡做了,但是他们都是用成熟的技术在做集成,成本比我们高很多。车完全是自己做的,视觉系统完全是自己做的,机械臂可以用不同厂家的,将来这种智能型的移动机械臂的应用场景还是比较好的。各种各样的原因,没有把它用上,这是一点遗憾,希望我下边的人能够接着做下去。

我们AGV技术也是,我们用了视觉导航,一个是不用铺磁带,定位的话,可以用二维码,我们是一些地方在用,在天津的亚马逊,还有在青岛一家做衣服的公司。我们做的还有激光导航的叉车,这个技术比较成熟了。

视觉引导AGV

我们研究所,做科研是我们的强项,做成功推广不大行。因为做科研的人做不了销售,这是两类人。我们曾经试着想做成果推广,发现不行,我们还是比较弱,还是要找一些公司。今天下午有一个韩国的公司专门找我,想把我们的二维码用到垃圾袋上,每一家的垃圾都自动有一个码,可以远远看到就识别。我们的视觉技术可以用到托盘的自动对准。

简单总结一下,视觉系统的应用总体上较为广泛,但是现在实际能用上的确实是不太够。现在人工智能很热,大家现在再静下来仔细看看,只有两个应用,一个是视觉,一个是语音处理。机器人视觉非常非常重要,对我们搞机器人的来说特别有这种感觉。机器人视觉系统发展本身确实比大家想象的要慢很多。像我们这样的,做了硬件,没有人做软件,推广起来不容易。做软件的人只会做软件,做的再好也没用。比如说现在的深度学习,未来可能有用,现在用不上。所以机器人视觉系统还是未来的难题,谢谢大家。

[返回]

 

顾学真:谢谢原魁老师。他概括地介绍了机器人视觉的发展,目前存在的技术上的关键点,以及应用。咱们听了以后很受启发。下面查红彬老师主要介绍机器人视觉中感知和建模方面的问题。下面有请查老师。

【邀请报告】

 

查红彬:基于三维数据流融合的场景重建与传感器定位技术

谢谢顾老师。今天非常荣幸,非常高兴,见到这么多老前辈。本来原魁老师跟我说跟大家做个交流,没想到见到了这么多老前辈,以前很多在不同场合见过,特别我想提到的是董士海老师,在我们学院无论是从公从私来说,都给我们很多很多帮助。今天能见到董老师,非常感谢对我的指导。

今天我要讲的题目是SLAM(Simultaneous Localization and Mapping)技术,它是基于所谓的三维数据流。应该说这个SLAM技术在机器人领域里面,作为机器人视觉部分很有传统的研究领域,它是个老话题,这些年讨论得比较多。今天汇报有两部分,我们在现在的环境下,发展到今天,再来看SLAM问题是什么问题,对这个问题给各位老师做一个交流。

其实SLAM说穿了,第一就是定位,我们一台机器人在什么位置,这个位置要给它确定好,要在每时每刻把位置确定好。通常我们讲定位,讲传感器或者机器人的时候有不同的参数,一般来说有两个不同的参数,一个是位置,它在三维空间中XYZ是什么样的值。另外是什么方位,对着哪个方向,也需要三个参数,所以我们基本上要定六个参数,它在空间中的什么位置,是什么样的姿态。这块原魁老师已经说过了。Mapping是测绘,我们讲机器人的时候是说建一个小构图,比如说我进到房间里面,我要知道房间是什么样的结构,如果没有结构三维描述的话,我要建一个房间构图。我们一般来说机器人在4G环境中工作的时候,一方面要知道传感器的定位,另外要知道环境怎么样,三维结构。在机器人应用当中也是两个不同的子任务来做的,比如说导航这部分,用GPS进行大规模的导航,还要MV做一些小范围的导航。另外设置一些标志,像二维码这些东西,来帮助机器人导航。所以是把它看成是一个单独的问题来做。当然了,像GPS也好,MV,有他们精度和分辨率的问题在里面,通常在应用中不是很方便。

其实这两个问题是相互依存的,我要做定位的时候,通常我们是需要知道地图的。如果没有地图,我没法看清楚我环境当中是在什么位置。另外我要建一个地图,传感器的姿态我要知道,我要不知道传感器的姿态,放不到一起去。后来搞计算机视觉研究的人就觉得应该把这两个问题放到一起考虑,不应该独立开,所以就形成了SLAM。

我们在这种假设条件下,怎么来把这两个任务同时完成,让机器人,或者让其他的一些移动终端,或者移动传感器能够更好地完成我们所要求它所做的工作。这是我们所讲的SLAM的基本概念。

机器人应该说现在越来越多,一个很重要的特点,机器人传感器系统是在移动中工作的。以前拿一个摄像头摆在那儿,这个传感器本身是固定的。我们现在讲的传感器,基本上都是可移动的。像自动驾驶,自动驾驶的车,传感器都是装在车上,车每时每刻都在移动,所以传感器的移动性很强,提出的各种要求也很高。要做好传感器和观测目标都在运动变化情况下的定位,是最难的。我们现在讲智慧城市,里面需要把不同的位置的信息,以不同的形式放在一起帮助我们做很多事情。这些都需要同时做定位和建模。

我们现在讲机器人很重要,移动传感器很重要,单就定位来说,对我们人来说,我们定位或建模都非常重要。世界上没有哪个人工系统能像人的视觉系统一样定位做的好。我们每时每刻都在动,我们睁开眼睛都看到一个场景,但是你的头怎么摆,不会看到场景在晃动。我们拿摄像头摆来摆去,肯定看到场景是抖动的,但是我们人感觉不到。所以人是非常非常好的,具有很好定位能力的传感器。当然人有很多巧妙的东西在里边,比如说耳朵里面有定位的传感器,另外大脑里面,对于每一个行动都有一个控制指令,这个指令也会传达给感知系统。

现在在机器人领域,或者说在人工智能领域,现在对定位这个东西越来越重要了。今年马上要在澳大利亚开一个很重要的机器人方面的会,关于定位的论文就占了将近三分之一,应该是非常大的比重。在计算机视觉更多的还是深度学习,但是在定位领域会越来越多。

我们从4D的角度出发,我们现在用的大量的视觉摄像机,如果有三维的传感器的话,这个工作会做的非常简单。所以三维传感器是非常关键的,五年前我们讲SLAM的时候,讲的不是很多,因为当时传感器水平比较低,现在传感器水平有比较大的提升。微软之前有一个Kinect传感器,它很重要的就是每时每刻能够检测到三维的信息。我这个传感器到不同的空间的距离它能测出来。摄像机只能有规律的变化,而它能够把每一个点的三维位置检测出来。这个传感器也有很多局限性,精度很低,分辨率很低。但是有个好处,速度快,便宜,大概一台一两千块钱就能买一台。基本上我们那边的学生每人有一台。这样的话三维传感器就有很多应用了,像手势识别,包括三维空间的感知,用的很多。它自然也会给SLAM带来很多影响。同时有很多传感器,移动,便宜,大家都能有,带来很大的进步。

8 微软的Kinect三维传感器

但是反过来说,有这么多传感器,但是从应用角度看,它们是不是足够好呢?如果把这些三维传感器拿来,把这些三维的应用拿到一起,是不是就可以满足要求呢?不是这么简单。尽管我们有一些很好的传感器,但是要做到4D的应用,差距很多。主要有几个方面,一个是数据本身的信息,还有处理的复杂性。

图9 问题与对策

第一个就是数据,尽管我们会得到三维数据,但是数据本身非常粗糙。我们现在要面对的环境是一个大环境,是一个动态的环境。例如自动驾驶时,你自己在动,同时周围的车辆行人也在移动变化,我们要对付的是这样的复杂场景。但是我们的传感器精度并不够。另外有一个很大的问题,就是采样不均。二维图像数据能排列得非常整齐,但是我们的三维数据排的并不是很整齐,数据量远远大于二维图像,特征取列独特和困难。现在各种不同的传感器,有立体视觉的,不同的传感器之间的差别也比较大。对数据本身,要考虑其不确定性。所以要用概率统计的方式做处理。

第二个,我们应用时间性很强的,数据在不断地往里流入。所以在流进来的数据你可以做实时交互。但是有一个很重要的,你不能做包处理。你处理的时候,你要每时每刻都要考虑到数据它本身是什么样的性质,然后得到结论。一个很重要的要求是我们现场要处理掉。但是同时,既然数据源源不断进来,数据之间有很多关联性,前面的数据和后面的数据有很大的相关性,如何利用数据流时间上的相关性,这是非常重要的,这也是必须利用的。因为讲视觉技术都是图像识别,有什么样的物体,什么样的分类,这都是静态的。但是数据流进来之后就是动态的,这是计算机视觉里面比较重要的方面。

第三个问题,定位和Mapping互相关联的关系。其实我们讲定位的时候,可以放很多别的传感器帮助我们定位。虚拟现实的头盔上面装了很多小圆球,就是通过环境的摄像机来定位,所以环境能够来帮助你定位。这时候是环境当中能够帮助你摄像头存在的时候才能这么做,一旦你到了新空间,到外面去就不行了。所以要尽量摆脱这种东西来帮我们定位。

我们讲的定位有六个参数,Mapping的参数更多,一般来说解决这个问题就是非常复杂的分析性优化的问题,这是我们目前为什么大家都在注意SLAM问题,会给计算等等带来很多挑战。

第四个问题,数据的实时处理。对所采集的数据,你必须实时处理完成。这个实时性的要求也非常强。我们要使操作过程对输入的数据流有很好的适应过程,把在线的学习,机器学习这些问题能够很好地用到这里面来,才能帮助你使这个过程能满足实时性的要求。有很多机器学习的方法,比如说在线学习就是一个例子。例如在家里,我手机的摄像头一直都开着的话,各种各样的数据不断地往你手机里面跑,这些数据都可以用来学习。我可以把家里面的构图做好,我在什么位置可以给我定位,能够每时每刻了解你的行为和动作。从这个角度来看,我们讲的定位,这跟我们人活着一样,终生不断地学习过程。只要设备是开着的,数据不断地进来,帮你做定位,帮你绘制构图,同时也是一个学习过程。所以实时处理是很重要的要求,同时也给我们带来了很好的研究的机会。

下面我再给大家具体说一下这些问题怎么解决。这里面解决了一些,从概念上非常容易想到的办法,但是很多需要下一些功夫。数据的不确定性,我们可以用概率统计的方式,对数据进行建模。数据流怎么办?能不能很好地利用数据之间的时间的一贯性,另外用传感器的姿态做定位,像更好的一些优化的东西,能不能帮助我们解决优化的问题。像实时处理,我们其他一些更好的节省计算量的方法可能要开发出来。

这里有一些对策,我给各位介绍一下相关的研究。我前面讲的第一个问题,就是数据的不确定性的处理。我们做定位也好,做建模也好,要有一个通用的空间的描述,这个描述有了以后能够把这些做好。空间的描述就是方位构图,有各种各样的描述方式。以前讲的描述方式是“零、一”关系,里面有物体就是一,没物体就是零。但是现在描述空间可能不是“零、一”的关系,对空间只能有一个概率的描述。应该把这个场景的面的存在的概率是多少先计算出来,用一些推理。如何用更复杂的非参数的推理来做,有一系列问题在里面。能不能把三维空间看成格子状的结构,这里面的每一个点它到底在不在这个面上,它有一定的概率,把这个概率数据收集进来以后,数据对概率产生了改变,我可以更有把握地说有这个表面。通过我进来的每一个采样点对这个空间的概率分布做修正。这是这篇文章所做的工作。我们实验室有些学生对这方面做了更好的改进,现在投到了ECCV这个国际会议上,把空间的表示用概率的描述表示了。

第二个方面的工作,我们讲的要做定位,要做建模,就是优化问题。有很多不同的方法,最核心的还是要把你所谓的重要的因素,构图当中一些重要的因素怎么考虑进来。比如说这是室内环境的布图,里边有各种各样的结构特征,把这些特征很好地提取出来,建立图模型,这个图模型出来以后,对它用概率统计方式做优化。

第三个,我们考虑动态变化的环境。我前面讲做定位等等都是传感器在动,环境不动,现在是环境也在动,动的因素更多了。怎么样能够把环境当中动的因素也考虑进来。要把变形跟实时处理结合起来,我两边之间数据是有变化的,它时间比较短,我能不能把这两个点之间看成是变形,把这两个点连起来之后就能描述这个运动了。

我们通过三维的数据融合得更好,找到比较好的空间、数据的表达方式和分析方式。解决几个问题,数据是不断地增加的,数据的增加过程有它的难点,但更多的给我们带来的是好处。慢慢地数据越来越多,数据带来可靠性,能够帮助我们使最后的结果越来越好。特别讲时间和空间的相关性,应该是非常重要的主要因素。对不确定性因素,应该用比较好的统计方式处理。另外数据不能只在一个层面去处理,只是看点不够,只看一条线也不够,只看一个面也不够,要把不同层次的东西都考虑进来。这三方面只要在哪一块有突破的话,能给机器人视觉领域带来比较大的突破。我就讲这些,谢谢大家。

[返回]

 

【讨论与交流】

 

顾学真:谢谢查老师。他讲了传感器获取信息、三维的数据融合方面的问题,这是人工智能里很重要的一部分。人工智能在社会上炒得很热,但是确实还存在很多问题。对人来说,要看这个东西,从我脑子里的印象里这个场景,到要找的东西是在哪儿,对我们正常人是最容易的事。但是现在看来完全要靠机器实现这一过程,还是有一定的难度的。我们什么时候能攻克这些东西,人工智能就往前进了一步,机器的智能方面也往前进了一步。下面大家自由发言交流,大家可以谈自己的看法和建议,也可以请原魁老师和査老师对报告里的问题做进一步的说明。原魁老师和查老师也可以提一些问题拿出来让大家议论议论,你们的观点是什么,是不是大家对这样的想法有同感,或者有不同的想法,你们也可以提一些问题出来。

原魁:我们沙龙就是请大家来讨论,看看有什么共同感兴趣的话题,如果大家对我们做的工作感兴趣的话,我可以利用这个机会再稍微详细一点,因为刚才讲的很粗。

董士海:我觉得这是一个当前非常热点的问题。我对此确实不熟悉。我说一个事情,最近Google的(自动驾驶)车撞死人了,Uber撞死人了,这是法律问题。但是从科技的角度来说,怎么能够在一定的条件下,尽可能实时地尽快地的测出有人意外的蹿到马路上去了,原因是什么?在无人车视觉系统中,现在有没有解决类似突发事件的办法?

第二个问题,现在的机器视觉,深度检测对光线有一定的条件。我如果晚上开车,是不是条件又受到了一定的限制?在深度信息和光线的明暗信息有什么样的限制,能不能达到更高的要求?

另外还有一个,采用多模态的检测。我自己觉得,语音的识别和语音的生成,这个已经做得比较好,就是说,不光语音的翻译也好,语音的检测也好,做得相当的好。但是视觉这方面难度相当大。能不能把声音和图像这两者结合起来,不必在大量的数据处理以后才能检测这个问题。

原魁:我们做机器人的人,非常注意这个信息。Google 的车,现在还没有公布事故原因,基本上判定车没有责任,但是它没有及时检测到。无人车上面装了很多很多个传感器,实际上它检测的话应该能够检测到的,很可能是把某一些传感器关掉了,特别是侧面检测的传感器很可能是关掉了。现在无人车最重要的传感器是64线的激光雷达,好几个侧面激光雷达,应该覆盖到所有的地方,它那个很可能侧面的某一个关上了,没有检测到。所以它那个信息没有处理。

无人车上的判测装置有两大类,一类是这样的(用激光雷达),另外一类是希望通过视觉系统来实现的。视觉肯定有问题,天气不好的时候就不行,激光雷达大部分都行,但是激光雷达也有不适应的环境。

第三个问题,语音这个,语音是一维的信息,视觉至少是两维的,车在路上是六维的,这样一来处理的信息量远远大于语音。语音处理现在也是复杂背景的时候就不行了,所以语音技术用到无人车上大概不太好用。要说在十米之外检测到他本人大概可以,检测预测到他的行为方向和动作,这件事情还是很难的。他突然间撞过来,再刹车来不及了。这样的问题,不大容易解决,还是法律的问题要探讨,看这样的问题到底责任在谁。

查红彬:刚才讲的自动驾驶的事情,这个属于小概率事件。小概率事件通常来说是很难碰到的。但起码给我们搞人工智能的人一个提醒,是不是应该反省一下现在的方法是不是特别依赖于机器学习了。我们讲机器学习的时候,主要是依赖训练数据,经过大量的数据训练它,最后它能够应付这些情况。这个车可能跑了几十万公里,几百万公里的数据在里面,对这个车的性能做了很多修改和训练,但是可能就没有现在碰到的场景,谁突然出来撞你车前面去。他没有数据,就没有把这种问题考虑进去。现在我们单纯说依靠训练数据来做,现在人工智能最热的部分是不是也有它的问题在里面?现在还有所谓的迁移学习,不同的情况下会怎么样,这样的话会给我们搞人工智能的人这方面的解释和启发。

第二个,把小概率事件完全消除掉,对任何产品都不太可能,关键是你这个产品成熟之后,进入市场之后多年,才可能把小概率事件暴露出来。自动驾驶还没有到这个程度,还在试的阶段。

第二个讲到图像和语音和视觉怎么融合。现在很多人在讲,每年项目评审出来的也很多,要把什么什么融合起来。但是融合的效果并没有提高很多。问题在哪儿?很多大家并不是真心实意地想融合起来,而只是为了申请项目。视觉也好,听觉也好,还有很多问题没有解决,如果融合之后,有成果很难,发文章也很难,干什么事情也很难,人家也不愿意去做。其实人做动作时,大脑里面是有指令的,这个指令马上给了你的控制系统。你有指令下来以后,你当然要用其他的感应信息,这样的话就能帮助你做这件事情。自动驾驶也是这样做的,车子怎么动,全是有指令的,左转多少,右转多少,尽管有很多不确定因素,但是这个指令是可以感知到的。很多东西如果能够结合起来,确实能够解决很多问题,但大家还是没有感觉到我结合起来真的能够把它做好,或者真的拿出东西出来,这也是目前面临的问题。

张尤腊:我觉得视觉方面的一些研究工作,应该属于应用研究。应用的背景非常强烈,很明确,我就是针对这个来做的。如果这样的话,我觉得现在最大的问题还是传感器的问题,如果这个问题解决好了,其他问题好解决得多。要做分析识别,现在微型机很大一部分都能解决。

刚才讨论了很多,我对这个自动驾驶车的问题,在中国花这么大力量,我总不觉得是一个应该投的方向。自动车最大是问题在中国是行人横穿马路。你怎么去实行无人驾驶?根本做不到。我觉得医疗方面是中国是最需要解决的问题,13亿人,如果能够在医疗方面做的好一点的话,可以解决中国很大的压力。

比如说去医院看病,心脏觉得有点不对,就去挂号看医生。他要实时监测我心脏的情况,但是设备常常需要预约到十天半个月之后,到那时症状可能已经消失而监测不到了。是不是可以通过手机监测信息,通过手机传到医院,这样就能在很大程度上解决问题。还可以在网上医疗做一些前期的工作。现在手机上可以下载一些应用软件,就可以检测你的血压、心率,血糖的饱和度,某种心理上的状态,它都可以检测。这个当然不太准,但是还是有用的。所以我就特别希望是这样的,像自动化所,希望能够有更多的力量,在健康,保健医疗,在这个领域里头多做一点工作。我上次看你们的网,好像有一个部门做这个事,希望加强。在这个问题上,如果想抓中国实际的状态,这个应用我认为是至关重要的。

张恭清:问题还是回到传感器。如果要做到这一步的话,必须我们在家里就能够得到很多个人健康的信息。甚至于你早上在厕所里,它就能够把这些数据及时传到医院里去,这时候就是用云的,或者虚拟的医院,里面有很多机器人在这儿给大家做诊断。

桂文庄:手术机器人肯定需要视觉技术。

原魁:实际上手术机器人的视觉只是帮人看,操作还是人。现在还有放疗机器人,它能够把测的图像,把癌症的部位检测到之后,传给机器控制器,然后自动发射X线,去杀死癌细胞。把医诊和视觉技术结合比较好的。国内有这个领域,叫智慧医疗,但是这个问题太复杂,有这么多人,每个人情况都不太一样,你早上和晚上保证血糖不一样,各种情况都不一样。包括现在讲基因检测之类的,你感冒检测出来了,你吃药不吃药都要一个星期的。我以前做过智能型的康复辅助,这类东西和基因技术关系比较密切。

查红彬:这个事情国内做的人很多,中国做这个事情比外国更有利。外国有很多东西被法律捆住了,临床上很难动。中国相对来说松一点,中国可能在医疗应用方面可能比国外更容易。确实有很多人做,大家做来做去,最后问题症结是什么呢?这个东西应用性很强,不能只是纸上谈兵,必须到医院利用起来。现在最大的问题是利益关系,医院不愿意放弃既有利益。我要自动化了,数据都让你拿走了,很多人没饭吃了,医院不干。很多东西到最后阻力在医院,医院不想干这个事情。

张尤腊:你说的非常对,上次我去深圳参观一个公司,就是做网上医疗,大概有500多人。那里头的人不是专门搞IT的,一大半是医学方面的博士生毕业的在那儿。他们有一部分做咨询,给人感觉很好。比如说我看病之前先询问一个,专门有人像接线员一样,在网上值班,可以咨询他。很多类似的东西,他已经在网上做了一部分了。我问他,你这个系统在哪儿应用?发现都在三线城市,二线城市都上不去。为什么呢?我的利益怎么跟你捆绑在一块儿,这个问题马上就出来了。事实上可以做一部分的。

查红彬:就像北大讲医疗大数据,北大做的话很有优势,附属医院那么多。最后一看,统一不起来,还是没法做。

张恭清:您刚才讲的SLAM技术里面,核心的关键的部件是传感器,3D的数据采集。像2D的咱们都比较了解,比如说电视图像,它出来的格式都已经成为一种固定的,所以大家很快可以把后面的工作跟上去做。3D这方面是不是也已经有了,数据的格式,出来的格式。是不是有一些标准?

查红彬:三维传感器很多,数据本身有很多不同的格式,但是本身数据的性质没有像二维图像那么规整。三维图像不规整,所以很难用统一的方式描述它。为什么会有这样的原因呢?一般来说,并不是靠一般的光学来感知就能解决这个问题,必须靠别的手段。比如说激光打到物体表面,激光点可以找到物体信息,但是这个点并不规整,你得到的信息就不一样。二维图像处理方法比较好的,一般变换,小波变换,它的基础是排列整齐,把一般的变换变成快速变换。三维数据做不到。也许将来有一天可能解决,但目前做不到。

董士海:是不是空间数据,地形,这些数据已经有规范了。比如说Google的地图不仅可以看平面,还可以看立体,比如我用无人机,就可以把数据拍下来,生成三维的场景,我觉得像类似的某一个情景下,可以制定一些标准,包括从地图,地形,可以给它标准化。但是对某一个物体来说,五花八门,很难得到确切的数据结构来描述它。

原魁:那个是厂家提供数据格式,你说的是通用的,三维地形图是一致的,它提供出来商用的东西的时候,是可以规范化的。但是传感器厂商各自有各自的,原理一样的会比较接近。

胡包钢:原老师您更偏硬件,这次我想提的问题是关于芯片的。您怎么看国内在芯片?特别是跟我们所相关,芯片到底中国处于什么状态?这也是国内的弱项。查老师您举到CDPR,可能十年前更高端了,但是现在华人可以超过一半。研究有一种是应用驱动的,这里边实际上是认知科学的问题,虽然中国数量上来了,未来在基础理论上你怎么评价?我理解还是很重要的,理论很重要,应用驱动没问题,但是在理论上有弱项。您怎么看中国在理论方面也能走在前面?问题在什么地方?包括嵌入式系统,原老师做的很好,我们中国到底处于什么位置?您文章也很多,理论上有什么东西,请您讲一讲。

原魁:这个问题本身,芯片种类太多,咱们芯片得聚焦。如果是用到视觉上的话,实际上现在成熟的视觉芯片还没有。视觉做不好的原因是因为它的场景千变万化,如果做统一的处理,你像我们的手机,现在拍二维码,咱们都是二维码识别了。我当年研究二维码,提我的方案的时候,国内绝大多数人都不知道二维码是什么。我把国外的几种二维码特点研究了一下。它是因为背景相对简单,你拍的时候一定是能找到这个码本身,找到范围,再去做相应的处理。这种单一应用是可以用芯片的,它算法简单。咱们所想做的事情太多,最初我们学术委员会提建议,把一个算法变成能实现的算法。但很难,没有多少人能做这个事情。我们的博士生前三年是最基本培训的,后面一年多是做实际应用的,因为他要了解图像处理的基本特点,要了解编程特点,这些都学会了才能做一些工作。所里要同时做两个方向,算法和将其实用化,两个复杂度差得很多,用的芯片肯定不能是一类,架构也不一样,资源也不一样。但是作为芯片,有特殊应用背景的芯片,如果有特殊明确的应用,算法能够基本固定的,做成芯片是可以的。叫做深度学习的算法有很多种方法,实现起来功能各不一样。我们现在叫人工智能芯片的,多如牛毛,每个都不一样。经过一年左右的沉淀,国内对人工智能这一块没有原来那么热了,就像当初炒作3D打印一样的,人工智能也是一样,现在回头看,我们做大数据应用的是一类,但是到了机器人视觉技术,就只剩下特定场景下的信息处理问题。这两个做成芯片都有难度,除非把应用场景定下来。一些特殊的传感器是一定要有专用芯片的,哪怕范围受限,我这个处理这几种,那个处理那几种。所以用一种芯片处理一个事情,永远不是解决的方法。

胡包钢:现在用的芯片还是国外的?

原魁:比如激光雷达,我就知道国内不只一家在做,但是它不是用芯片,它是用一个系统。这个问题太大,芯片一直是咱们国家的短板和痛点,现在还没解决。

查红彬:现在在一些顶尖会议上,我们的论文并不少,甚至超过了欧美很多国家,但质量是一个大问题。说到质量问题,这个不仅仅是限制在计算机视觉领域里面。从一些最佳论文来看,他们都有一些特点,一是不仅有很好的新的想法,而且能够说服你,让你觉得有它的原理在里面。第二个,很有意思的是,这些文章一大部分是来自于相同的实验室或相同的导师。

我们从这两个东西来看,看国内的问题症结在哪儿。第一点就在于,我们通常所讲的“有用”,这个“用”怎么去解释?现在讲一定要应用起来,要出产品。其实这个并不只是用。发文章,有人说文章有用,有人说文章没用。其实这个用,有的时候失败也是有用,失败多了也是有用。我说见了很多好文章是一种积累过程。为什么是同一个导师同一个实验室那儿出来的做,不是一个学生积累的,是长期积累的,前面的学生什么也没做出来,失败了,但是给后面的学生积累了东西。这在国内是很难的。我们说有用的时候,不能只是说你要用起来,做成产品。无论你是做产品,你做文章,真的有用没用,研究的结果会怎么样,你的积累的结果会怎么样,这都和有用没用有关系的。现在国内还是需要有积累。但是这个积累,在目前国内的氛围当中很难做下去。为什么说实验室失败没法再往下做,就是环境不允许你这么做,你这么做的话,将来你就没饭吃了。所以还是从心态上面,从科研环境上和国外差距太大。

桂文庄:查老师讲的我认为是一个基本问题,你得把周围信息收集出来,能够形成一个图像出来,一个地图。这件事情,实际上我觉得视觉是最重要的基础工作。从原老师的传感数据形成图像,识别它,再去做决策。后头那一块,严格地说应该不属于狭义的机器人视觉了。视觉就是看见周围的东西,把它整合成清晰的图像,理解它是什么,这就应该是视觉。要判断这个人怎么走动,要识别这是哪个人,要做一些预测出来,还要做决策,这后面大部分都是现在的人工智能最关键的东西,也是最难的东西。所以我在想,咱们收回来,说到狭义这个事情,我想问问查老师,你刚才讲的非常好,我觉得和人的识别相比,这个人识别,比如说我两个眼睛看东西,看到是立体的,因为是有两个眼睛。你现在那个传感器要把深度测出来,和眼睛的机制是不一样的。人要形成图像,在人脑子里头,它有深度的感觉,但是不是精确的深度,我看查红彬离我两米多三米,这是凭经验。但是机器处理一定是非常精确的数字,这就有很大的区别了。人脑子里识别的东西和机器需要处理的东西,它是不一样的。这个不一样,对我们将来搞机器人视觉的发展有什么样的影响?因为咱们讲智能,讲人工智能,在很大程度上是希望能够模拟人怎么样去认识,人怎么样去处理。当然最后机器因为它的一些特性,它可能比人处理的更好,这有可能。但是这个机制不一样,这在你们现在的研究中,有没有什么样的意义?比如说人看到的这样一个场景,它里头到底是个什么东西?

查红彬:在人工智能里大家都与说要跟很多领域结合起来,比如说类脑计算,很多人工智能领域大家都这么说。我感觉人工智能这个领域里面,视觉部分应该相对来说跟脑之间的关系不是那么特别的紧。为什么呢?视觉是从图像数据开始出发,是从底向上的。但是脑更多地牵扯到,就像您刚才讲的,是高层处理的东西比较多。视觉更多的是数据处理,并没有说我的处理机制要像人那种。其实统计学习理论和大脑里边的原理,大家有的说是相似的,但是是不是,大家也不管,只要把人脸识别出来就行,至于人脑是不是这么做的,不去管它。现在的人脸识别和大脑识别完全是两码事。我给你一个数据,你机器人识别出几千个几万个数据。但是人怎么能识别?家里的亲人,稍微近一点的人能识别,更多的人就做不到。大家还是没有管太多之间的关联。但是大脑之间的机理是应该有很大帮助的。我们三维世界里面好多问题不好解决,您讲的两个问题非常重要,第一个,人立体视觉很管用,为什么机器就难了?人是两个眼睛,很容易,但是你这个对应点不好找,大家都在想办法把立体视觉的对应点找出来。人进入房间很快就能找到大致的空间感知,但是我们要解决这个问题,从高层往下的处理要利用起来。我对距离并不是那么严格的,我喝水的话,这个杯子离我多远,你说不出来。为什么你要看,因为你想喝水,你看杯子,手怎么动,这一系列都是从高层下来的。没有这个的话,你看眼睛和杯子的距离是没有用的。从这个意义上来讲,大脑有很多处理这样一些处理过程当中可能会提供有帮助的东西,但是在视觉系统里面还不是过于强调这个。

桂文庄:从视觉将来的发展来看是不是更多的考虑大脑来研究问题?

查红彬:应该是这样的。

桂文庄:我觉得人的大脑是了不起的,比如说我开车,反应非常快,下意识就反应出来了,处理的速度非常非常快,消耗的能量非常少。这在机器来说是没法做到的。像这些问题,一定和它的处理机制有关系。现在中国搞脑计划,一方面搞脑疾病,另外一个方面,自动化所就是脑计算机模拟大脑,这方面的工作有没有什么样子的想法和进展?

原魁:这个话题比较敏感。我们对大脑的理解大概只有5%,剩下都是不知道的。类脑就是仿脑,你只知道脑的5%,包括美国的计划,人家不搞类脑计划,而是搞脑科学本身的。脑子本身怎么办,现在说不清。我们做机器人的人要考虑实际的执行的,实际上执行的决策本身有一套潜在规则。我们人下意识做一些动作,实际上人脑子里也是有潜在规则的。我们做的有一类传感器,专门检测跟物体的相对距离的,不要特别精确,我接近的时候,不需要那么精确。只有在完成操作的那个时间我才需要精确。我接近的过程中基本都是粗的,不需要精确。传感器也是有多种,有的是不同的原理。有的打了很多个点,打成矩阵,防止你漏掉一些东西。像64线的,刚才说的要50多万,四线的激光传感器要20多万。我们用个摄像头,把激光源调试一下,成本就很低。这个工作是有人做的。你不这么做拿不到经费。国际上也是曾经热过,我知道欧洲的脑计划面临着困难,瑞士为主的那个是被强行停掉了,因为它做的时候,有点过分了,被欧洲的一些主流的搞科学的很多人一块来把他给弹劾掉了。所以欧洲的脑计划处于半停滞。美国人的脑计划基本上是疾病类的,不做计算类的。我们现在人工智能主要是百度在做,他比人家落后很多,百度自己没有核心技术,它现在立足点很不稳。

董士海:怎么把我们现在的技术再提高一步?我觉得要把人工智能的机器学习,大数据的统计,要把这个因素加进去。比如说,现在国外识别癌症的图像,大量的数据让它学习,最后比有经验的专家判断的准确率要提高。我们这儿的数据不愿意共享,所以这个发展不上去。而人工智能确实需要人在不断地学习过程当中积累的经验。比如像阿尔法狗下棋,不断给他各种数据,最后得到一个最好的结果。我们的研究要提高一步。我国外有一个学生,他是在搞一个一个行业的人工智能的技术应用,非常热门。就是某一个领域如果用了这个东西,它就可以上去了。我觉得我们国内,国家规划,政策,要考虑你怎么调动各方面的积极性,让人工智能上去。我看到一篇文章说,国外的数据标记行业非常发达,一大批的没有经过高等学校学习的人,都在搞数据标记。为什么呢?我拍一百万张照片,哭笑都要标记一下,嘴巴张大了,这是笑,眼睛下来了叫哭。一百万张照片下来以后,他说这个就是笑,这个就是哭,他就可以学了。但是得有一批人做标记的工作。这个是癌症,模模糊糊的是癌症,边缘清楚的是肿瘤,得有一套数据。国外有一大批人在做数据标记,我们国内现在是大量的农民工以后要转行搞数据标记。这个工作量非常大。现在搞字模,几万个字幕录入特征值,找了大量的人做制模的工作,没有制模的工作就没有排版。

胡包钢:特别响应两位老师讲的,怎么上个台阶。包括脑子这个事情,我去年也做了,也想跟查老师交流。我们不是都切片了,自动化都切片是不对的,应该看怎么从计算层面研究类脑。拉格朗日方程我们都知道,一个约束加上去。大脑用不用拉格朗日?有些做类脑的,实际上都是炒概念,我评价就是不是真正的在做。像你刚才讲的PPT里有一篇文章讲平面的约束,等式的约束。大脑是不是拉格朗日,你怎么证明是不是拉格朗日?我们去年就做了用拉格朗日,我们初步的研究认为它是全局的约束。虽然我们也说类脑、计算大脑和生物脑不见得非得一样,但是在计算层面上,在原理上做,很多文章,好多事情可以做。也不是说全切片去了,那我们自动化所干嘛去了?我现在提出一个说法,都得数学去描述,黑箱是怎么个机理,还得靠数学模型要去揭示它。

类脑科学要和生物脑并行着走,要更高地往上走。深度学习现在已经炒到人家说叫炼金术了,人家就是学术交锋。国内人工智能就是炒概念,开会你讲我也不能说你错,没有学生交锋。在国外人家就说你是炼金术,没有理论。中国人要考虑这个问题。光应用也没有问题,你有没有理论?能不能指导你往上走?知识和数据顶层和向下要结合的,理论是什么,怎么研究大脑原理性的东西,我觉得这蛮对的。中国必须得跳出来,从理论上也要总结点东西。没有理论指导的话,你走不远,你只能做应用,你永远跟在人后头,最重要的就是基础理论。国家讲的是对的,应用芯片都要去做,但是基础理论最重要。现在没有人安心去做,像我做也是退休去做,我不管你评估了。大脑说白了就是一个通讯,你做大脑,你用信息论了没有?你没用信息论,就别跟我谈脑科学。

查红彬:人的大脑处理信息超过一定信息以后,你必须用信息论来描述脑的这个过程。

胡包钢:如果没有信息论,别跟我谈脑科学,有了还不够。一定要重视基础理论。你说哪几个做脑科学的用信息论了?你说你做类脑,有什么信息论?大脑就是通讯。

查红彬:搞计算机的人讲大脑的时候很少把信息论用上,但是搞医学的还拿信息论来说事情,但是从书中可以看到信息论定义是错的。

原魁:你这个问题太大,基础理论包括了多少东西,到某一个课题某一个方向的时候,到底什么是基础。

胡包钢:中国人是可以创造原有的知识,怎么样往上走。不是光说大,你得有勇气在学术理论上往前走。

洪继光:最近华为手机里,说是有人工智能的处理,它的手机里都处理什么东西?

原魁:现在AI已经被炒烂了,过去叫做智能控制,智能传感的,都被他们归在AI里面了。过去搞智能控制的人不知不觉也变成人工智能的人了。华为用了什么没有对外公布,最主要是两种,一种是照相,手机现在很重要的作用是照相,比如自动对焦这种地方可能会用到算法,这个算法是很固定的。另外你上网,打电话肯定不会用人工智能的,上网的时候,它会有些推送,它根据你的上网习惯,根据你浏览的内容,它会有意识地去记录,按照你的习惯,向你推送你感兴趣的内容。这类工作的的确确是人工智能或者AI很典型的应用,这是把所谓的大数据用上了。它会把很多热点,会有一个提示,最近发现你什么习惯,有意识地给你推了什么东西。我估计华为所谓的AI是这两方面。但是它是变成了硬件的,在芯片里边有一部分,可能把有一些东西做到了,因为所有东西都要从里面过,通过它的规则,根据这个来做的。AI的定义太泛,稍微做一点和智能有关的就叫AI。

洪继光:计算所也搞了个AI芯片,细节你清楚吗?

原魁:细节我不清楚,他是把深度学习做到芯片里。所谓的深度学习有很多,实际上深度学习一点不新鲜了,过去只是说计算量太大,它就是层级多了,过去我们只能用三层,到现在为止,人工神经网络用到控制上的根本没有。应该也是把一部分算法放到他们的芯片里,到底放了多少,在多大程度上解决了哪类问题最有效,这个是不知道的。

查红彬:比如说像刚才董老师提到我要做人脸识别,这么来做就是不同的大量的网络要做,他们也希望做通用的,网络很大,做出来之后,能够在不同的应用中用起来。人的大脑一个非常重要的性质是大脑里边的每一个计算单元,能够改变自己的一些局部的结构。将来能不能想办法把它做成结构非常类似的东西,现在人为的能够改变处理结构,像人脑大面积地去改还是很难。像人脑大面积地去改,就是单纯的强运算的计算机,也不需要操作系统等等。他们应该是自己想做这种类型的,还没有做下去。

桂文庄:今天沙龙开得很好。问题是当前的热点问题,也比较前沿。我们一方面讨论了计算机视觉现在的状况,现在的基本问题和应用,同时也讨论了这个研究方向应该怎么发展。我个人觉得,其实机器人视觉是和应用联系得非常非常紧密的东西,它和纯粹搞数学、天文、物理不一样,它是一门应用科学。但是它里头也有着非常多基础性的问题。搞这种东西总得两个轮子前进,一个方面要应用驱动,随着应用需求,你会提出很多很多的问题要研究,因此它推动了这门学科的发展;另外一方面,也要从基础理论的体系上,从科学技术本身的发展规律上去发展。这两个轮子不可偏费,不可只顾一头。理论上的重要突破会对实践发生重要的作用。所以我觉得研究机器人视觉一定要两条腿走路,既要重视应用,也要把基础的东西继续发展扎实。刚才查老师讲的,实际上就是一个场景地图处理的问题,其实里头的问题还非常非常多,还有很多很多事情,怎么样更准确更快的把这个东西实现出来,这里头有非常多的问题,还没有很好的发展。原老师讲的应用更是五花八门,未来的应用现在想不到的太多了。

国家提出人工智能的发展是一个大的战略。虽然现在社会上有点炒作的问题,什么东西都弄成智能的了,包括配钥匙也是智能配钥匙了。但是人工智能确实是我们下一步长远发展的核心的技术。就像“互联网+”一样,人工智能的“+”一定会推动各个产业的发展。所以我觉得这个议题是非常有意义的。

咱们自动化所分会去年开的“类脑计算”学术沙龙也非常好,虽然类脑的事情大家还有不同意见,但是那也是一个非常前沿的,非常值得重视的事情。脑科学的东西,未知的东西更多。但是科学就是要发现前沿,发现未知的东西。像这样的方向,科学院应该很好地去做,应该去做那些前沿的、具有科学价值的东西,不然老是跟着人家跑,老是人家有什么新的概念咱们就跟着去干。深度学习也不是咱们提出来的。到了哪一天中国的科学家能够提出自己的思想,自己的理论体系,自己的新的颠覆性的创新,这个时候我们才真正的强起来。人工智能,无论从理论还是从应用上,都是一个非常大的领域,要好好发展。

顾学真:今天的沙龙很好,原老师和查老师做了很好的报告,大家也充分地进行了交流和讨论。大家对视觉下一步怎么来做提出了很多想法,胡包钢还讲到我们自动化所要怎样进一步做人工智能。我现在不知道咱们所现在对信息论比较感兴趣的,或者想去做的人数多不多,或者有没有这个课题。咱们自动化所建所的时候,信息论也是作为很重要的一门课程。咱们研究所要进一步要发展,基础理论研究方面要提高。一个是信息论,还有一个,系统理论。这两个抓起来,这自动化所是立于不败之地的很重要的东西。只有把这两个方面搞扎实了,后面应用的东西才有底气,有中国特色的。

感谢两位老师为了这个事做了精心准备,也感谢邓力同志对会议的形式也做了充分的准备,还有院老科协的领导来参与,来支持我们。另外,还要感谢董老师和张老师来参加我们的沙龙,他们提出了很好的建议。我们这个活动得到了院老科协的指导,所的领导的支持,我想我们今后的活动肯定能办得更好,谢谢大家,沙龙活动到此结束。

[返回]

 
查看评论