• 汇集公众科学智慧交流科学思想见解
  • 点燃科学智慧火花构建互动交流平台
科学智慧火花
科学前沿学术沙龙
查看评论  0                

关于大数据安全问题的研究

主办单位: 中国科学院老科协
承办单位:数学与系统科学研究院分会
举办时间:2017-11-08       【字号: 访问量:

目录

简介
主持人致辞
主旨报告
交流与讨论
主要专家简介:
  1. 余德浩:(主持人)数学与系统科学研究院研究员,中科院老科协数学与系统科学研究院分会理事长,计算数学
  2. 吕金虎:(主旨报告)数学与系统科学研究院研究员,主要从事复杂网络、控制与识别理论与方法和网络大数据等研究。
  3. 金雅芬:(主旨报告)数学与系统科学研究院正研级高工,中科院老科协数学与系统科学研究院分会秘书长,科学院管理信息化专家组的成员。主要从事数据库技术、信息管理、大数据、信息化规划等方面的研究。
  4. (以下按姓氏笔画排列)
  5. 王丛布:数学与系统科学研究院离退办职员
  6. 王敬泽:数学与系统科学研究院纪委书记
  7. 申玫玫:数学与系统科学研究院离退办主任
  8. 史玉凤:数学与系统科学研究院研究员,计算数学
  9. 白  英:高工,计算机机群管理
  10. 皮新兰:数学与系统科学研究院图书馆职员
  11. 刘尚平:数学与系统科学研究院研究员,数学分析
  12. 刘建中:数学与系统科学研究院工会副主席
  13. 孙  耿:数学与系统科学研究院研究员,计算数学
  14. 杨自强:数学与系统科学研究院研究员,计算数学
  15. 杨真荣:数学与系统科学研究院研究员,计算数学
  16. 吴声昌:数学与系统科学研究院研究员,应用数学
  17. 张建中:计算机网络信息中心研究员,概率统计、数据库
  18. 张锁春:数学与系统科学研究院研究员,应用数学
  19. 陆维明:数学与系统科学研究院研究员,计算机科学
  20. 陈光亚:数学与系统科学研究院研究员,运筹学
  21. 陈贵平:数学与系统科学研究院,助理
  22. 范建军:国家空间科学中心高工,计算机、通讯
  23. 金  铎:中科院老科协副秘书长,原基础科学局局长,研究员
  24. 郑潮州:数学与系统科学研究院高工,中科院老科协数学与系统科学研究院分会副理事长,控制论,计算机
  25. 经士仁:数学与系统科学研究院研究员,系统科学、运筹学
  26. 桂文庄:中科院老科协副秘书长,原高技术局局长,研究员
  27. 铁广强:数学与系统科学研究院博士研究生,数论、密码学
  28. 徐国良:数学与系统科学研究院研究员,计算数学
  29. 高茂生:数学与系统科学研究院高工,中科院老科协数学与系统科学研究院分会副理事长,计算机、网络通讯
  30. 麻莉雯:中国科学院老科学技术工作者协会办公室主任
  31. 梁复刚:数学与系统科学研究院研究员,计算数学
  32. 舒光复:数学与系统科学研究院研究员,运筹学
  33. 蔡茂诚:数学与系统科学研究院研究员,运筹学
展开

 

【简介】

 

我国互联网规模已经处于国际第一,信息化建设正处于高速发展阶段,从购物、社交、金融、商业、交通运输、生产管理,到工业4.0,一切都离不开网络。基于导航卫星的位置服务,无论是在军事还是民用上都有广泛的用途。随着我国北斗导航卫星系统的不断发展完善,正在越来越多地得到应用,成为我国的重要信息基础设施。网络的应用产生海量数据,位置服务也产生大量数据,不仅需要高效处理与分析这些数据的算法和能力,数据安全更是成为当前社会的重大问题。本次沙龙重点围绕网络大数据安全问题进行讨论,提出了若干迫切需要解决的问题。为了实现建设数据强国的目标,应当尽快开展有关大数据安全的技术、管理与法律的研究。

[返回]

 

【主持人致辞】

 

余德浩:今天沙龙的题目是"关于大数据安全问题的研究",我们邀请到吕金虎研究员和金雅芬研究员来做主题报告。吕金虎研究员是一位杰出的青年学者,他主要从事复杂网络、控制与识别的理论与方法和网络大数据的研究,是国家重点研发计划首席科学家、国家自然科学基金创新研究群体负责人,曾获何梁何利科学与技术进步奖、两项国家自然科学二等奖。他今天的报告题目是"网络空间安全与位置大数据"。金雅芬研究员从上世纪八十年代初开始从事数据库理论和应用研究,参与了为国产小型机设计的第一个数据库管理系统的研发工作。从年开始,她从事互联网应用与安全管理问题的研究,一直是中国科学院管理信息化专家组的成员,对院所开展网络应用与网络信息安全的管理等方面的问题进行过多年的研究。她今天的报告题目是"关于大数据安全问题的研究"。

现在请吕金虎研究员作报告。

[返回]

 

【主旨报告】

 

一、吕金虎:网络空间安全与位置大数据

谢谢各位老先生,在座的许多都是我的老师。在这里作报告,我感到诚惶诚恐。下面分享我对网络空间安全问题的一些看法。

1、互联网的发展历程

大家可能知道互联网的重要性,过去20年显得越来越重要,网络空间成为继陆、海、空和太空之后的人类第五疆域。现在所有的东西都从单个跳到网络框架下,互联网被认为是人类过去50年来最重要的发明。

互联网的发展是由需求驱动的。当初第一代互联网是军事需求,美国人围绕军事需要发展的互联网,后来发展到万维网、电子商务,现在我们国家提的"互联网+"。整个世界就是这样,经济是搭建在互联网上的经济,和实体经济深度融合,工业互联网、能源互联网、车联网,等等。这时会给互联网带来一些挑战,包括安全、可控可管、能耗、可扩展性等非常重要的一系列问题。

图1 互联网的发展过程与历史

互联网从"消费型"领域扩大到"生产型"领域。以前的互联网我们只是上上网、做做舆论,现在的互联网包括购物、所有的生产线。我国古代有四大发明,现在大家知道的新的四大发明,高铁、支付宝、共享单车、网购,都是以互联网为依托的产业。包括大家知道的工业4.0,中国制造2025,都是依附在网络上面。未来20年,中国工业互联网至少带来18万亿左右GDP增量,互联网与实体经济融合是经济发展的新引擎。

图2 中国互联网经济占GDP比重

中国互联网经济占GDP比重(iGDP)不断上升,2013年iGDP升至4.4%,美国为4.3%。尽管我们过去受制于人,但是我们现在发展不一样,2013年到2025年间,互联网在中国GDP增长中贡献可望达到7%到22%。

2、"互联网+"带来的挑战

"互联网+"就是互联网与各行各业的深度融合。互联网与实体经济深度融合。中国制造2025,弱点是"互联网+"怎么"+"起来。精准医疗等有待进一步发展,主要挑战是安全可靠实时性,服务等级区分,大数据的处理能力,这是一系列的挑战。

图3 与实体经济融合对互联网提出了更高的要求,带来了更多的挑战

"互联网+"将推动移动互联网、云计算、大数据、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场。

"互联网+"也给中国带来了新的机遇。比如说汽车,我们在现代汽车技术上想超越美国或者欧洲几乎不太可能,因为人家沉淀了几十年发展的经验。比如说汽车里面的发动机,包括电子系统、驱动系统这些东西,不是靠三两天,投入大量人力就能赶上来的。但是新能源汽车是弯道超车的有效途径,新能源汽车的体系和传统体系是完全不一样的,不需要那么复杂的驱动。互联网也是一样的,我们掌握了未来互联网核心技术,就能在世界经济科技竞争中赢得主动权,赢得与大国地位相称的未来网络空间主权。

习主席说了"我国要建成战略清晰、技术先进、产业领先、攻防兼备的网络强国。" 现有互联网核心技术长期被国外把持,但是互联网理论和技术处于变革期,我国互联网规模已经处于国际第一,中国信息化建设正处于高速发展阶段,未来网络技术是我们网络强国建设的重要机遇!

3、国家网络空间安全环境的现状和存在的威胁与挑战

随着互联网的广泛深入应用,危害网络安全的强度和泛度也在不断增加。国家网络空间安全现状中的问题不容忽视。

图4 国家网络空间安全环境

互联网逐步演变为各国军事上相互攻击的工具,美国成立了网络司令部,利用"震网"病毒攻击了伊朗核设施,导致伊朗浓缩铀工厂内约1000多台离心机报废。美国国安局监听了35个国家和地区的领导人,监听德国总理通讯。如果你用iPhone、国外产的手机,所有的数据都可以自动备份到云端,云端就能把你手机所有数据备份一份在美国,通过数据分析来知道你的活动轨迹、兴趣爱好、在什么岗位、家在哪、小孩在哪上学,都给你弄清楚,非常可怕。现在为什么政府办公规定不让使用Windows10?原因就是Windows10只要一上网就会把所有数据都自动备份到美国去了。如果国家的经济命脉都到你那里了,要想把这个国家经济搞垮,打击就会是非常精准的。这些都是非常重要的问题。使用人家的设备,你对它的东西都不可能所有都十分了解,存在很大风险。所以我们国家军口用的东西必须是原原本本是国产的,如果是不可控的,就会留下很多隐患在里面。在军队、军网以外的,(外国厂商)让你去开发软件、平台,然后为它所用,整个是一个很大的系统。这个系统是半公开的,可对全球国家进行监控。大家知道通讯只要经过一下,就给你把数据搜出来了。人家有能力分析数据。为什么他能知道很多信息,而我们不知道?大家知道前段时间比较清楚的,巴黎的反恐,巴黎发生恐怖袭击之下,美国人就告诉他是哪几个恐怖分子。网络安全问题对我国经济和国家安全造成重大威胁。

图5 当前网络安全技术存在的问题

网络空间安全有很多问题,主要的稍微归纳一下:一个是密码技术。第二是防火墙,反病毒、入侵检测、安全评估,包括后门问题。去年美国大选里面出了问题,就是别人用一个病毒入侵了民主党的选举系统,就把民主党的所有的敏感信息挖掘出来影响大选。

经过20年的发展,人们都离不开网络以后,网络安全的威胁更多是政治利益推动,国家行为,包括恐怖组织。例如ISIS就是通过互联网招兵买马,鼓励大家参与极端组织报复社会,军事组织的对抗,意识形态的对抗等。网络安全对国家安全影响的泛度和强度不断增加。

世界上人造的最大网络就是互联网。现在所有人都离不开互联网,所有的经济也离不开互联网。以前我们排斥互联网,包括我们国家的银行系统,对网络转账非常排斥。但是阿里巴巴搞了这么方便的支付宝来占领中国市场,现在倒逼银行改革,现在转账不用到银行去,轻轻松松就可以免费转。这方面的技术发展得非常之快,所以对网络的深度利用成为国家重大战略。

网络空间安全的问题涉及到数据的发布、存储和使用,3个过程当中都有危险。我们经常用手机,你要记住尽量少用免费WiFi,否则人家会轻轻松松进到你的手机里去。大家要记住没有免费的午餐。

图6 网络空间数据安全问题

网络空间安全对维护国家主权和保障经济安全具有重大战略意义,对众多产业具有巨大影响。目前国际上尚缺乏一套完善的网络空间规则,谁掌握了制定"游戏规则"的权利,谁就掌握了网络空间话语权和制高点。当前迫切需要发展网络大数据的数据与隐私保护基础理论。经国务院学位委员会批准,我国今年已经把"网络空间安全"设立为一级学科。国家还设立了国家网络空间安全重点专项计划,开展网络大数据的数据与隐私保护基础理论研究。同时,从安全产业发展方面,加强安全产业的政策引导,包括加强相关政策的落实、引导安全创新、加强金融扶持以及优化人才培养;优化产业生态环境,包括优化安全产业融资环境、营造公平竞争市场环境、充分发挥安全产业平台和行业力量;找准技术方向和关键领域,聚焦于加强基础安全技术能力攻关、加强面向云计算、大数据、智能制造等安全研发;打造龙头企业集群、打造自主"专精特新"的技术产品布局。

最后我谈谈位置服务与位置大数据。

(1)位置服务

位置服务跟每个人都密切相关。我们在这个世界上经常要回答"你在哪"、"你想去哪"、"怎么去"这些最基本的问题,这就需要位置服务。现在的"位置服务"实际上就是"定位、导航、授时"服务,它是通过卫星导航系统实现的。位置服务产生了大量数据,就是位置大数据。位置服务集社交网络、云计算和移动互联应用于一体,造就泛在的位置服务大系统、大产业,改变了人的生活、生活和生存方式。

当前世界上有四大导航系统,美国的GPS,欧洲的伽利略(GALILEO)系统,俄罗斯的格洛纳斯(GLONASS)系统,我国的北斗系统。以前大家对中国北斗不自信,觉得没不好用,但是经过这些年技术发展,我们北斗非常好用了,现在我国规定所有军事领域,所有国家的重要政府部门、关系到国家命脉的部门,都必须要用北斗系统。这关系到我们国家的安全和整个国计民生的问题。

现在我们的北斗系统是二代系统,主要服务于我国及周边地区。到2020年,我们将要建成的三代北斗系统是全球卫星导航系统,能够覆盖亚太地区甚至更大的区域,预期精度可达米级、亚米级,是一个融全球标准服务和区域多模增强服务于一体的卫星导航系统。我国的北斗系统有一个特别的功能,即在亚太区域内短消息通信功能,短消息可与互联网互通,可用于救助和应急搜索等许多事情。

位置服务的对象很广,我们的目标是建成满足实时、连续、广域服务的空天地一体化时空基准基础设施。天地一体化网络通过卫星建立互联网,和地面互联网互联,所有的都互联互通。将来可以在天上打电话,可以知道在天上什么位置。精密定位很重要的应用就是高铁,高铁跑得很快,轨道都有专门检测的,如果超过多少高铁可能就会翻,如果定位精度到了毫米级就能检测出来哪里出了问题。汽车互联网市场规模是4000个亿。国家投了几百个亿在做这个事情,我相信不久将来我们能做到的。

(2)位置大数据

位置大数据,包括卫星测绘数据、空间媒体的数据、用户轨迹。美国两年前用手机信号分析禽流感传播的时间和途径,因为你用手机就知道你经常到哪去,从哪到哪,人口流动规则能分析出来。比如说你经常上网查感冒药,可以分析禽流感传播规律,这是在以前是不可想象的,但是现在现实变成可能。

位置大数据有不同需求,航海就需要的比较低,10米就够了,但是如果你做测绘、火山预测、精密工程形变,要求就各不相同。三峡大坝,过去传统做法是靠人去巡视,2个小时去巡视一下。后来委托武汉大学开发了一套软件,在坝面装了一个定位系统,装了一个监控,每个砖在每时每刻的变化都显示出来了。

随着互联网、物联网、人工智能、大数据存储和分析技术的发展,建立完整的、高精度的、室内外一体的位置大数据传感网络,综合利用自然语言处理、图像处理、信息检索等方法,提取互联网多媒体中的位置信息,建立其与互联网媒体的内在关联,在经济建设、国防安全方面,都有很多重要的应用。

人类活动的信息80%是与空间信息有关的,位置服务需求进入了环境认知、个性需求、社群行为监测分析、国情全面、实时、协同性和公众式监测的新时代,现在我们的时代个性需求,获取你的信息还知道你有什么兴趣、爱好。大家知道数据还没有立法,包括出租车公司数据获取,可以分析到很多东西,可以对你的隐私构成很大挑战。大家知道微信是不加密的,如果信息传输出去很容易就被获取到,没有保护措施。我们国家前段时间出现泄密,可能看过新闻的,我在开会时候拍一下,拍一个截面发给同事,就下载下来,这个过程当中就泄密了,这个非常可怕的。

时空位置大数据为智慧城市、智能交通、智能物流、精准农业的实现提供了实时、精准、智慧的保障.位置服务大数据还涉及人的心理、认知与行为科学,也涉及其它人文科学和社会科学。当然,位置数据的安全问题,也是互联网空间安全的重要问题。

谢谢大家!

[返回]

 

二、金雅芬:关于大数据安全问题的研究

刚才吕教授做了一个内容丰富非常好的报告,我听了最大的感觉就是网络安全与位置大数据非常重要,因为它与军事和国防有密切的关系。我今天要讲的内容是关于开展大数据应用中出现的安全问题。我的报告分六个部分。

1、大数据的起源与应用的发展

我们先来看大数据的起源。我是搞数据库的,1979年大学毕业论文就是关于如何设计一个数据库管理系统。现在搞大数据的人讲,我们的大数据跟以前不一样,过去是小数据,现在是大数据。我个人认为小数据也是大数据的一个子集,过去是以处理文本数据和结构化的数据为主,而现在更多的是处理半结构化和非结构化的数据,数量更大,产生的速度更快,数据类型更多。仅从数量上来说大与小意义不大。

1.1 大数据的起源

什么时候开始有大数据这个名词的?有人说是1997年第一次出现了大数据这个名词。

1997年,在第八届美国IEEE关于可视化的会议论文集中,Michael Coxhe David Ellsworth发表的"Application Controlled demand paging for out of core visualization"论文提到:"我们将这个问题称为大数据"。这是在美国计算机学会的数字图书馆中第一篇使用"大数据"这个术语的文章。

2004年,Google在"操作系统设计与实现会议"上发表了关于Google文件系统与MapReduce的论文,被视为大数据处理技术发展的里程碑。

2006年,Apache软件基金会正式启动开放源码项目"Hadoop"以支持MapReduce和Hadoop分布式文件系统的独立发展,促进了大数据处理技术的快速发展。

2010年,IBM沃森超级计算机每秒可扫描并分析4TB数据量。在美国著名竞赛电视节目中击败两名人类选手夺冠,这标志着大数据处理能力的成功。

1.2 大数据发展的重要事件

2008年9月《自然》杂志率先出版了"大数据"专刊;

2009年10月《第四范式:数据密集型科学发现》出版;

2011年2月《科学》杂志推出"数据处理"专刊;

2012年3月美国白宫起动"大数据研究与发展计划";

2012年5月联合国发布大数据政务白皮书《大数据促发展:挑战与机遇》;

2012年6月高德纳公司提出大数据4V(Volume, Variety, Value, Velocity)特征;

2014年5月美国白宫发表《大数据:把握机遇,保存价值》和《大数据与隐私的技术观点》报告;

2014年中国成立了大数据联盟、还举办了N个大数据会议、成立N个大数据中心和学院;

2015年9月我国发布《促进大数据发展行动纲要》。

大数据一开始提出的时候并没有引起人的关注。大约在2010年,人们发现这个东西不仅有价值,而且很重要。由于它的重要,美国发起了一个大数据研究和发展计划。从2010年到2012年,大数据就变成了国家高度重视的一件事,成为国家的主导的活动。很多研究人员开始转入到这个方向。我们和美国比只晚起步了2到3年。

1.3 大数据的发展趋势

下面的这张图是高德纳公司发布的新技术发展趋势图,可以看出,在2013年,大数据成为热点到达了高峰,所以把人们把2013年称之为大数据元年。但有的文章把2015年作为大数据元年,大家观察的角度不同。但是这个趋势图的观点是被广泛接受的。2013年大数据出现的频率很高、成为很热的关注点。2014年就开始往下走,不是说不重要了,而是说这个问题到达了最高峰,已经被人们广泛的认知,后面的事情就是要去开展深入的研究和实际应用了。

计算机科学先驱、图灵奖获得者微软公司的科学家吉姆·格雷认为,受信息技术的影响,几乎有关科学的所有事物都在变化,实证、理论和计算科学都受到数据泛滥的影响,因而出现了"数据密集型"科学模式,其目标是使世界上所有的科学文献联机,并实现互操作。微软公司于2009年10月发布了《第四模式:数据密集型科学发现》论文集,首次全面地展现了快速兴起的数据密集型科学研究。我们过去搞数据库也没有提到数据密集型科技。现在叫数据科学,这是包括计算机科学、统计学和通讯技术等多个学科结合形成的一门交叉学科。由于它的强大、应用非常广,就要变成一个单独学科分支。和控制论、自动化一样,最早也是数学的一个分支,后来发展壮大了,就单独分离出来了。现在已经有一部分大学成立了数据学院,而不是统计学院,因为它是一个涉及多个学科领域的交叉学科,而不只是涉及数据分析一个方面。大数据的确是非常重要。

我的看法是,实际情况是大数据的理论研究和大数据安全问题研究是还比较缓慢的,大大滞后于应用,所以应用中出现了很多的问题,有关的技术、管理、法律的研究工作进展非常缓慢。

1.4 大数据在政府层面得到高度重视

大数据在政府层面得到了高度重视。美国2012年投入2亿美元研究大数据,欧盟差不多跟美国同时,2010年提出开放数据战略。中国在2015年9月,国务院发布了一个促进大数据发展的行动纲要,提出加快建设数据强国的口号。我们的缺点是缺少数据资源的积累,这是很大的弊端。我们搞数据库这么多年,80年代我们就搞,我们积累了多少数据库?美国数据库系统是建设了很多年的,但是人家一直注意数据积累。中国到底建设了多少个数据库系统?这些数据库又存储了多少数据?数据应用情况怎么样?这些现在都是说不太清楚的。两年前还在进行调查和逐级上报数据进行统计,也没有看到发布调查的结果。这是我国信息化建设存在的一个很大的问题,是要着力去解决的。现在国家提出大数据发展战略,建设数据强国,要全面推动我国大数据发展和应用,这是非常好的。这个目标若能够真正实现,我国的信息化就有可能大幅度的提升。

2、大数据的定义、内涵与特征

2.1 大数据的定义

定义1 IDC(Internet Data Center):大数据指的是数据量大于100TB,数据量年增率大于60%,采集的是高速数据流,且包含结构化与非结构化的数据。

定义2 MBA智库:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

定义3 麦肯锡:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集(并不是要超过特定TB值才能算是大数据)。

2.2 大数据的作用

第一,大数据已经成为经济转型发展的驱动力。第二,大数据是重塑国家竞争力的一个新机遇,如果大数据搞好的话,我们的信息化排名可以从以前70、80名前进到20名左右。第三,大数据是提升政府治理能力的新途径,用数据说话、用数据决策、用数据管理、用数据创新,提高管理的效率和为人民提供更好便利。

2.3 大数据的主要来源与产生方式

当前,大数据的主要来源是:社交网络(博客、微博、微信),移动网络和各种智能终端,宽带和IP网络,物联网、各种传感器、RFID(射频电子标签),视频设备,等等。例如城市的摄像头产生的动态视频,一个中等城市宁波市摄像头的数量就达数百万,北京、上海就更多了。还有智能手机产生的语音文件、图像文件、视频文件,使得数据量爆发性增长。各种传感器数据,例如温度、湿度、颗粒物浓度,还有卫星遥感数据,位置数据等等。

大数据的保存是一个很大的问题。例如城市摄像头产生的视频数据,保存的时间一般是三个月、有的半年,最多是一年。如果要查看去年发生的交通事故和案件信息视频资料时,数据已经被清掉了。如果是存储长期保存着,不知道什么时候就有用了。等你有能力加工分析的能力时,你就可以拿出来分析。而且你根本不知道什么时候会发生什么案件,是不可预知的,你不知道哪个时间段的视频记录以后会有用。

2.4 大数据的特性

大数据的特点就是海量、多样性、高速、易变性。

数据来源的多样性:计算机、网站、社交网络、信息系统、物联网传感器;

数据终端的多样性:台式机、笔记本、智能手机、视频设备、传感器;

数据结构的多样性: 结构化、半结构与非结构化;

数据类型的多样性: 文本、数字图片、视频、流数据、图数据。

大数据的价值:不真实没有价值,不分析也没有价值。

3、网络信息时代大数据面临的安全挑战

3.1 2016年国内外十大数据泄露事件

随着网络大数据应用的深入发展,数据安全成为十分重大的问题。商业网站的海量用户数据是企业的核心资产,成为了黑客甚至国家级攻击的重要对象。重点企业数据安全管理面临更高的要求,必须建立严格的安全能力体系,需要确保对用户数据进行加密处理,对数据的访问权限进行精准控制,并为网络破坏事件、应急响应建立弹性设计方案,与监管部门建立应急沟通机制。

下表是2016年世界上发生的十大数据泄漏事件:

几个典型案例的情况:

(1)美国国安局网站遭黑客组织"影子中间人"入侵

2016年8月13日美国国家安全局网络"武器库"遭遇黑客组织侵入。黑客组织"影子中间人"宣称将攻入美国国家安全局网络"武器库""方程式组织",并泄露其中部分黑客工具和数据。根据斯诺登提供的文件显示,这些泄露的工具的确是美国国家安全局软件。美国国家安全局的网站也因此瘫痪了近一昼夜。事后几日,斯诺登在其社交网站上表示,此次事件是由于国安局三年前留下的网络漏洞所致,但一直以来国安局方面从未对此进行修复。

(2)世界最大的反恐资料库WorldCheck资料曾外泄

2016年6月,世界最大的反恐资料库WorldCheck资料曾外泄,220万个可疑恐怖分子和与犯罪组织有关的人员的个人资料在网上出现,不但如此,这些数据还分别以 3.5比特币(2345美元)以及10比特币(6706美元)的售价在暗网公开售卖。

(3)美国职业社交网站LinkedIn数据泄露1.67亿个用户的信息。

2016年5月19日,美国职业社交网站LinkedIn宣布一名叫"peace"的黑客组织在黑市上以5比特币的售价公开销售1.67亿个用户登录信息。这些数据来自2012年LinkedIn发生的一次大范围的数据泄露事件,其中有1.17亿包括电子邮件和密码。当时公司方面曾花费100万美元展开调查,但未真正意识到问题的严重性,才在几年之后造成十分恶劣影响。事后LinkedIn已经给用户发送了电子邮件要求更改密码,并对从2012年起就从未修改密码的用户要求强制修改密码。

(4)雅虎遭黑客攻击10亿用户账户信息泄露

2016年9月21日,全球互联网巨头雅虎宣布有至少5亿用户账户信息在2014年遭人窃取,盗取内容包括用户姓名、邮件地址、电话号码、生日、密码等,甚至还包括加密或未加密的安全问题及答案。2016年12月14日,雅虎再次发布声明,宣布在2013年8月,未经授权的第三方盗取了超过10亿用户的账户信息。2013年和2014年这两起黑客袭击事件有着相似之处,即黑客攻破了雅虎用户账户保密算法,窃得用户密码。

3.2 我国近年来发生的其他几个重大案件

2014年到2016年是大数据的快速发展期,也出现了一些安全方面的问题。

(1)12306网站数据泄露。

2014年12月25日大量12306用户数据在网络上疯狂传播。12306网站之所以被"撞库"得手,根本原因是其账号安全体系存在缺陷。12306手机APP的登录接口存在漏洞,黑客可以轻易绕过账号安全防护措施,无限次尝试自动登录。此前网上流传的13万余条12306用户密码都是由黑客"撞库"获取,如此巨大的登录请求数量,12306都没有及时发现并屏蔽。很多用户在不同网站使用的是相同的账号密码,因此黑客可以通过获取用户在A网站的账户从而尝试登录B网站,这就可以理解为"撞库"攻击。

(2)浙江特大侵犯公民信息案,7亿条个人信息遭泄露。

据法制日报报道,浙江省松阳县人民法院一审判决一起特大侵犯公民个人信息案,该案涉及7亿条公民隐私信息被泄露,8000余万条公民信息被贩卖。后经查明,涉案的王某辉2016年2月入侵某部委医疗服务信息系统,私自将该系统内的部分公民个人信息导出并出售。涉案的库某于2016年9月入侵某省扶贫网站,窃取了该系统数名高级管理员的账号和密码,对系统内大量公民的个人信息数据进行下载和贩卖。

(3)上海疾控中心出"内鬼"买卖数十万新生儿信息。

自2014年初至2016年7月,上海市疾病预防控制中心工作人员韩某利用其工作便利,窃取中心每月更新的全市新生婴儿信息(每月约1万余条),并出售给黄浦区疾病预防控制中心工作人员张某某。直至案发,韩某、张某某、范某某非法获取新生婴儿信息共计30万余条。

2015年初至2016年7月期间,范某某出售上海新生婴儿信息共计25万余条。2015年6月、7月,吴某某从大犀鸟公司秘密窃取7万余条上海新生婴儿信息。2015年5月至2016年7月期间,龚某某通过微信、QQ等联系方式,向吴某某出售新生婴儿信息8000余条,向其他人出售新生儿信息共计7000余条。2017年2月8日,上海市浦东新区法院以侵犯公民个人信息罪,分别判处韩某等8人有期徒刑七个月至两年三个月不等。

(4)京东内鬼涉案,50亿条公民信息泄露。

2016年12月,有多家媒体报道京东数据外泄这个事件。在黑市传出了一个12G的数据包,其中包括用户名、密码、邮箱、QQ号、电话号码、身份证等多个维度,数据多达数千万条。据称,这12G的数据是来自京东。

3.3 与大数据有关的案件频发

2016年8月19日召开的打击跨国电信网络诈骗案件通报会上公安部刑侦局负责人介绍,与大数据有关的案件频发,个人信息307亿余条,其中内鬼作案次数是黑客作案的近4倍。

公安部会同最高人民检察院、最高人民法院制定发布了《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》,健全完善网安与各警种案件协作配合机制,依托网络犯罪举报平台充分发动群众举报犯罪线索,以串线索、打团伙、断链条为重点,不断加大打击整治力度。

4 我国大数据应用中典型案例与安全事件的分析

4.1 徐玉玉案件,信息泄露导致的悲剧

徐玉玉案发生在2016年8月,她被诈骗电话骗走了9900元上大学的费用。当发现自己被骗后,与父亲一起去派出所报警,回家途中身体出现不适入医院抢救,8月21日抢救无效死亡。公安机关出具的死亡原因分析报告认为,徐玉玉应系被诈骗后出现忧伤、焦虑、情绪压抑等不良精神和心理因素的情况下发生心源性休克,心肺复苏后继发多器官功能衰竭而死亡。

徐玉玉用18岁的生命唤醒了人们的安全意识和道德良知。过去像这样的小额案件一般不立案(金额一定要大于某个金额才能立案)。跨境案件因追查困难也不追查。从徐玉玉案件这个案件开始,有关部门处理个人信息泄露问题的态度有了一个重要转折。这是徐玉玉用18岁的生命换来的变化。

4.2 大数据加大隐私泄露的风险

大数据成为黑客网络攻击的重点目标。自2016年4月公安部部署开展打击整治网络侵犯公民个人信息犯罪专项行动以来,截至9月21日,共查破刑事案件1200多起,抓获犯罪嫌疑人3300多人,其中银行、教育、电信、快递、证券、电商网站等行业的内部人员270多人,网络黑客90多人,缴获信息290多亿条。但是这个数据是部分数据,不可能统计全,破了案的是1200多起,还有没破的呢?公民个人信息泄露,已成为电信诈骗犯罪高发的助燃剂。

住宿记录、名下资产、乘坐航班,甚至网吧上网记录都能被轻易查到。"信息裸奔"令人不寒而栗,行走在大数据的社会,个人信息安全值得我们每个人关注。我们国家开展大数据应用存在很严重的问题,我就发现很多公司企业在超范围的使用客户的信息。比如说装修,我给装修公司的信息,装修公司就卖给销售家具的,家具在卖给谁等等。所以就成了一个有上下游供应的东西,很多东西没有法律道德意识,不是在自己业务范围内使用用户数据,把数据泄露给别人。

下面我们来看徐玉玉案件的基本情况和暴露出的一些问题:

2017年7月19日,山东省临沂市中级人民法院对这一案件中的被告人陈文辉等人诈骗、侵犯公民个人信息案一审公开宣判,以诈骗罪判处主犯陈文辉无期徒刑,剥夺政治权利终身,并处没收个人全部财产,以侵犯公民个人信息罪判处其有期徒刑五年,并处罚金人民币三万元,决定执行无期徒刑,剥夺政治权利终身,并处没收个人全部财产。陈文辉及其他罪犯的犯罪事实及判决结果如下表所示:

在这个事件中发现的问题是:

(1)黑客为犯罪分子提供盗取的个人信息,是罪犯最大的帮凶。

杜天禹18岁,四川宜宾人,他通过QQ先后10多次向陈文辉出售山东考生信息,非法获利1万4千多元。2016年4月,杜天禹利用安全漏洞侵入了"山东省2016高考网上报名信息系统"网站,下载了60多万条山东省高考考生信息,高考结束后在网上非法出售,总计获取赃款5万多元。就这样个人信息从黑客手中就到了骗子手里。

(2)网上找诈骗剧本 很容易得手。

诈骗团伙主要组织者陈文辉,15岁时退学,便离开老家安溪外出打工。2015年年初,陈文辉在网上找到了以助学金为名对学生进行诈骗的剧本,所以他想诈骗在网上就能找到剧本,欺骗性更大,在人们警惕性不高的情况下很容易得手。

(3)虚拟运营商不严格执行实名制的规定,罪犯购买虚拟号段。

实施电信诈骗,有两样作案工具必不可少,一个是电话卡,另一个是银行卡,而这两种卡按规定是要实名才能办理的。但是由于虚拟运营商单纯地追求利润,并不严格地执行实名制的规定,罪犯了解到购买171和170的电话卡不需要出示身份证,只要付钱就能办理,因此陈文辉选择了171开头的虚拟号段。这说明在虚拟运营商这个环节就出现了漏洞。非实名电话卡掩藏了骗子的真实身份,使坏人有空子可钻。

(4)非实名的银行卡和电话卡一样,在网上也可以买到

当骗子一旦诈骗得手,就需要银行卡去提现。而这个环节也和电话卡购买的的情况差不太多,就是非实名的银行卡和电话卡一样,在网上也可以买到。在QQ群里就可以购买到非实名银行卡。这么方便,诈骗犯几乎是一路畅通,毫不费力就能达到诈骗的目的。

(5)罪犯之间交换信息与完成交易的地点在哪里?

QQ群成为罪犯之间联系与进行交易的一个主要场所。几个罪犯都多次提到,他们是在QQ群里进行联系和买卖数据的,完成个人信息大数据的交易的地点和场所就在QQ群。

(6)"信息黑市"个人全套信息售卖三元。

只要有人付钱,什么信息都能买到。还有人出售2015-2016年打包数据。一个网名叫七友的人发布信息称,银行数据,个人数据,100块打包一万条。一个叫"诚信数据"的人主动向记者兜售车主信息,豪车车主标价400元一万条信息,普通车车主300元一万条。"诚信数据"为了证明自己的"诚信",主动给记者发过来多条车主信息验货,包括车主的姓名、车牌号、手机号、车架号、发动机号。记者拨打这些车主的手机发现这些信息全部是真实的。此人声称自己还出售个人全套信息,从身份证复印件、家庭成员、户口本复印件、到网络账户名都在其中,全套信息的价格是每套3元。浏览这些QQ群可以发现,公民个人的金融信息是信息贩子的热卖品。一个网名叫"风驰"的人,直接叫卖银行储户信息,其中包括公民在银行的户名、卡号、身份证、密码、手机号,还特意注明是今年9月份的最新数据,并且知道账号里的余额。最新调查数据表明,从2010至2016年公民个人信息泄露达到1.6亿条,其实这个数字也不准确,这是已被破案的结果,还有那些没有破案的事件,因此这个数字只是一个下限,实际数字会更大。

(7)有数百个QQ群从事数据买卖,有"一手数据"。

QQ群是否真的隐藏着贩卖个人信息的"黑市"呢?记者在QQ群搜索栏里输入了"数据买卖"和"一手数据"进行搜索,结果出现了数百个QQ群。就是说有数百个从事"数据买卖"的QQ群,说明了问题的严重性。这些群都标注着"数据买卖、数据购买"、"洗料、拦截料、数据交易"。记者申请加入了几个群, 很快就获准通过。在这些QQ群里公民的个人信息被称为"数据"和"料",各种私密的信息,公然在群内发布,明码标价,叫买叫卖。一个网名"大宝健"的人发布信息称,银行、信用卡、老年保健、网购、电购数据应有尽有。

记者可以追踪到的信息,平台安全管理人员难道就不知道?罪犯之间的联系与交易信息难道不知道?只能说是管理者也是在睁一只眼闭一只眼。

(8)网络社区的管理是否也严格执行了实名制注册?

由于在网络应用出现了一些安全方面的问题,前几年有关部门就提出和大力倡导网络社区的管理要实行实名制,由于各种原因,在一些社区这个制度并没有被严格的执行。一些社区始终存在非实名注册的问题,一直没有彻底解决。

从上述分析中,我们看到了至少有七个环节出现了管理的漏洞,这样罪犯想实施诈骗,有很多空子可以钻,基本上没有什么难度,很容易得手。这也是为什么网络诈骗案件增加很多的原因。因为犯罪分子并不需要掌握什么高技术手段也能得逞。这些案件说明,个人信息泄露引发的骚扰密度已经达到相当严重的程度,公民个人信息遭侵害程度触目惊心。而与这些相对应的,是管理的薄弱,民众防范意识不强,保护意识薄弱,维权动力不足。从对徐玉玉案件的分析,我们可以看到在多个环节都出现了问题,由于多个环节的不尽职、不尽责,致使个人信息泄露,个人信息的非法获取与买卖才造成了人的生命和财产受到危害。人民日报就此发表评论:相关部门是否已丧失最基本的监管职责与职业道德?

4.3 我国大数据应用存在的一些问题

(1)很多公司企业在超范围的使用客户的信息。

搜索引擎、安全管理软件、操作系统、浏览器、游戏软件、购物、社交等软件都是采集并使用用户信息,成为个人信息泄漏的源头。微软利用Windows10系统自动搜集用户信息的功能,搜集了过多的用户数据,这一问题已经引起了国际上的关注。欧洲人很警惕,如果你微软不改的话就不让用你的东西。欧盟通过了新版《数据保护法》,强调本地存储和禁止跨国分享。

(2)涉案团伙规模化,个人信息贩卖已形成了地下产业链。

经过4个月走访摸排和缜密侦查,蚌埠警方查明了一个入侵互联网公司服务器窃取出售公民个人信息的犯罪团伙,涉及安徽、北京、辽宁、河南等全国14个省、市,涉案人员近百人。这个犯罪团伙已经形成了互联网黑灰产业链条,可以说是盗抢销一条龙。"在这个组织中,有人专门负责窃取公民个人信息,有人通过技术手段把这些公民个人信息进行整理建库,还有一部分人会把这些整理建库完成的数据直接拿出来使用,有出售的,有交换的,有数据变现的……"。

(3)电信诈骗形成了利益链条。

有人大代表对电信诈骗案件的利益分配问题进行了数据统计分析,得到了下述结果。这也可以部分地解释了数据泄露问题存在的原因:这是巨大利益(222亿)下的选择。这也说明了这个问题必须在各个环节进行全面监管才能得到有效遏制。

(4)内鬼作祟是信息泄漏的重要渠道。

从发现的问题看,有的企业内部的员工受金钱的诱惑,走上了从事贩卖客户信息的犯罪道路。卖一条信息20元、30元到40元,把信息出卖给商家,甚至诈骗团伙。下面是几个案例:

犯罪嫌疑人王某说:中间商通过微信添加我为好友,他知道我是在顺丰快递上班,问我用手机号能不能查到地址,就是快递地址,我说寄过快递的是可以查的,然后他给我手机号给他查。一条是30块钱,他用微信红包发给我。

河南中国平安银行的员工甄某,同样是在利益的驱使下,利用职务便利,从银行内部复制了大量的客户征信信息进行售卖,涉及到的客户个人信息包括:姓名、工作记录、保险记录以及信用贷款等详细信息。

顺丰快递公司江苏分部的王某,从事快递工作已有5年多时间。从2016年5月开始,他利用职务上的便利,从公司内部系统大量复制客户个人信息进行售卖,这些个人信息涉及到客户的姓名、电话以及家庭或单位的详细地址。

京东和腾讯的安全团队联手协助公安部近日破获了一起特大窃取贩卖公民个人信息案。根据公安部透露的信息,该案共抓获涉案嫌疑人96名,其中涉及交通、物流、医疗、社交、银行等个人信息50亿条。有人是多次流窜作案,偷了一家再到下一家。

近年来,互联网公民个人信息泄漏事件频频发生。保障公民信息安全,首先立法要跟上。当前互联网发展很快,对经济社会的正面推动作用非常显著,但同时也带来了一些个人信息安全问题,归根到底要依法治网。大数据的安全问题涉及政府、相关企业、网络运营商、服务提供者,以及数据产生者、使用者等方方面面,必须对各自的安全责任有明晰的政策界定。

5 大数据安全管理的薄弱环

大数据安全管理包括技术、管理、法律三个方面。目前的情况是,技术、管理与法律都滞后于应用。应该先从管理入手,再解决技术与法律的问题,实行分级保护等级保护,加强专业的网络安全与数据安全管理人员的培养。

5.1 大数据安全的技术管理

大数据安全主要表现在以下四个方面:

(1)网络安全:大数据与网络密不可分,针对大数据的网络犯罪行为日益猖獗,目前我国针对大数据的网络安全防护不够,无论是软件还是硬件大多使用国外的产品或技术,容易造成信息泄露。

(2)系统安全:在大数据时代,云平台是大数据汇集和存储的主要载体,云平台数据安全是保证数据安全的重要环节;去旅游,住宿饭店,上社交网络、购物等都可能泄露个人信息。

(3)终端安全:数据的搜集、存储,访问,传输必不可少地需要借助PC、移动等终端设备,攻击终端设备可能获得操作大数据的权限。

(4)数据安全:大数据时代,看似无用的数据,经过大数据分析技术极有可能转化为由高价值的信息资产。这种信息一旦泄露,将严重威胁个人隐私安全,甚至对国家经济走势,政治稳定产生影响。

因为数据是资产,是宝贵的资源,加强数据安全管理,一是要明确数据安全治理目标,解决"云、管、端"三类数据的违规监控和泄漏防护问题,对涉及敏感内容的数据存储、传输、使用过程进行全方位监控、审计、实时防护,防止敏感数据泄露、丢失,确保数据的价值实现、运营合规和风险可控。

二是要建立数据安全治理的保障机制,包括确立数据安全治理的战略,健全数据安全治理的组织机制,明确数据安全管理的角色和责任,建立满足业务战略的数据架构和架构管理策略;识别政策、法律、法规要求,跟踪相关标准规范的进展并采取措施予以积极落实。

三是要采取相关技术措施,加强对敏感数据的管控。首先要开展数据分级分类,对敏感数据进行识别定义,为采用技术手段实现对敏感数据的安全管控提供基础;在数据分级分类基础上,建设数据安全管控系统,对传统环境和云计算环境下的数据进行深度内容识别,并通过展示界面,实时、动态展示敏感信息分布态势、传输态势、使用态势及整体安全风险态势;还要对涉及敏感内容的数据存储、传输、使用过程实现全方位监控、审计和实时防护。

5.2 与大数据安全相关的管理问题

5.2.1 用户安全意识薄弱,缺乏保护隐私的观念

调查结果显示,虽然当前个人信息泄漏问题突出,其背后黑色产业链的曝光也引发了社会关注,但是公众对很多场景的信息修漏问题的感知度依然不足,安全意识薄弱,因此加强对这些信息的保护是相关部门的当务之急。

个人的数据是怎么泄露的呢?随着人们对网络应用的广泛依赖,只要用户上网就可能会泄露个人信息。例如:上网购物,提供了电话、姓名和单位或者家庭地址;使用搜索引擎泄露了目的地和乘什么交通工具;手机的朋友圈,提供了与家人和朋友的联系;买机票和火车票,提供了电话和送票的地址;网络应用:博客、微博、微信;参加会议和培训提供了个人的信息;看病挂号:健康信息、推销药品;银行、保险、理财;买房、装修、家具;买车、保养;旅游信息;玩游戏,等等,每件事都可能成为信息泄露的来源。

但是在日常生活中,许多用户的安全意识淡漠,例如:很多用户使用的是弱密码,例如,123456,111111等;多个应用系统使用同样的密码,如邮件、购物、银行等;有的人还将密码写在机器上。

这里介绍一个名词叫"撞库"。

什么叫"撞库"?就是利用被攻破了的系统的用户数据,当作钥匙去开另一个系统的门。这样的撞库成功率是很高的。用户的密码越简单,就越容易破解。多个系统用同一个密码,而撞库的成功率就越高。因此每个用户都有责任保护系统的安全,不要是用弱密码。所以用户一定不要用简单的密码,不要多个系统用同样的密码。如果将密码写在机器上就等于没有密码。

信息泄露,损失的不只是金钱。你的个人身份、账户、位置、轨迹、社会关系、人际交往等等敏感信息都可以通过大数据分析出来。如果有人想找到你,只需要两个条件:你上过网,留下过痕迹;你的亲朋好友或仅仅是认识你的人上过网,留下过你的痕迹。这两个条件满足其一,人肉专家就可以很轻松的找到你。有时看起来没损失钱,但是损失个人信息的麻烦是更大的。特别是一些重要的人群,像吕教授这样的重点人物,都可能是重点跟踪的对象,因为你研究的课题是非常重要的。

据2017年1月公布的《中国互联网络发展状况统计报告》显示,截至2016年12月,我国网民规模已达7.31亿;《中国网民权益保护调查报告2016》显示,54%的网民认为个人信息泄露严重,84%的网民亲身感受到个人信息泄露带来的诸多不良影响。由此可见,信息安全形势严峻。

公民个人信息和隐私安全问题。大数据的汇集不可避免地加大了公民个人信息和隐私数据信息泄露的风险,在大数据时代,想完全屏蔽外部数据商挖掘个人信息非常困难。

5.2.2 数据与信息系统管理员安全管理存在的问题

(1)很多系统的管理人员,不能及时地更新升级打补丁;

(2)不知道存在什么漏洞,被动管理;

(3)系统被黑和数据被窃取了都不知道,发现问题很晚,过了若干个月才知道。

(4)系统使用缺省的账户和密码,不修改账户名和密码;

(5)不保存、不查看网站系统的访问日志数据;

(6)安全问题上报之后无人继续跟踪处理,不去寻找问题的来源,不会采用有效的追溯的方法。

5.2.3 大数据安全协同管理

当前,一些互联网相关的企业联合起来,实行大数据的协同管理。这是一项防范信息泄漏的行之有效的措施。

"阳光诚信联盟"

京东案中盗窃个人信息的郑某鹏曾在多家知名互联网公司的安全部门工作,并利用职务之便,窃取用户个人信息,进行职务犯罪。为防治企业内部的这种职务犯罪,近日京东、腾讯、百度、沃尔玛中国、宝洁、联想、美的、小米、美团点评、唯品会、李宁、永辉超市、佳沃、鑫荣懋等知名企业与中国人民大学刑事法律科学研究中心共同发起了"阳光诚信联盟"。该联盟旨在通过互联网手段共同构筑反腐败、反欺诈、反假冒伪劣、打击信息安全犯罪的安全长城,共同提升联盟成员内控部门的履职能力和员工的职业道德建设,共同打造诚信经营、放心消费的商业环境。

"阳光诚信联盟"约定以"诚信经营"为使命,以开放的心态吸纳各行业成员共同推广廉洁自律、奉公守法的经营理念。联盟将建立信息共享机制,设立专属网站,实现联盟成员之间在反腐败等方面的信息互通,并向公众公开联盟工作成果。行业失信员工信息将互通(黑名单)可以避免连续流窜作案。京东将建立失信员工的查询通道,其他联盟成员在招录员工时可重点关注,并在法律法规允许的范围内对涉案人员可采取拒不招录。联盟将以坚定的决心、坚决的举措打击腐败行为,这既是对失信员工的约束和惩戒,也是让员工在职场发展中获得阳光透明、公平竞争的机会。联盟切实发挥共同监督、携手拒腐的作用,共同打造一个良好的商业环境,推动整个社会的诚信建设。

一些快递公司选择使用隐私面单

最近,很多快递公司选择使用隐私面单,住址和电话号码隐藏几位,这样就拿不到全部信息,只能拿到一部分。比如顺丰的"丰密面单"、京东的"微笑面单"、圆通的"隐形面单",菜鸟网络也联合EMS、百世快递、中通、申通等主要快递公司共同推动使用"隐私面单"。 隐藏了快递单上的部分个人信息,从而达到加密效果,防止其他人从单子上窃取消费者的个人隐私。当然到库里一查,肯定还会有全的信息,所以说这是一个局部解决问题的方法,但是总比没有的好。

5.3 与大数据安全相关的法律和规定

工业与信息化部的《电信和互联网用户个人信息保护规定》,针对电信业务经营者、互联网信息服务提供者规定了较为全面而系统的个人信息收集和使用规范、安全保障措施以及相应的法律责任,是一部重要的个人信息保护的专门规范。这个文件为个人电子信息确立了相对全面的保护,也为其他领域的法律法规提供了可供参照的样板,被认为是目前最为重要的个人信息保护规范之一。

全国人大常委会于2012年12月28日通过的《关于加强网络信息保护的决定》,针对"个人电子信息"的保护作出了较为系统的规定,明确"个人电子信息"就是"能够识别公民个人身份和涉及公民个人隐私的电子信息",并对收集、使用、保存个人电子信息作出了系统性规范,还规定了违反义务的主体需要承担相应的民事、行政和刑事责任。

2016年5月,两高联合发布《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》,明确侵犯公民个人信息罪的定罪量刑标准。

2016年6月,《网络安全法》正式生效,首次从法律层面规定个人信息保护的基本原则。其中第七十六条规定:"个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证号码、个人生物识别信息、住址、电话号码等。"这是首次在法律层面上确立一般意义上"个人信息"的概念,为个人信息保护的体系化制度建设提供了基础。

2016年7月,国家发改委等八部委印发《关于促进分享经济发展的指导性意见》,明确强调依法严厉打击泄露和滥用用户个人信息的不法行为。例如刑法第253条规定非法出售或提供个人信息的主体限于"国家机关或者金融、电信、交通、教育、医疗等单位的工作人员",而实际情况是此类人员被定罪并不多见。有法院将出售小区业主个人信息房地产公司的工作人员也列为犯罪主体。单纯的侵犯个人信息罪的定罪量刑也较为轻微,大多为一年以下有期徒刑或拘役并处罚金,通常适用缓期执行。

2017年3月15日通过的《民法总则》第111条规定:"自然人的个人信息受法律保护。任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全,不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。"这是继刑事、行政立法之后,立法机关将个人信息的保护纳入民事基本法总则中的开创性之举。

目前我国针对个人信息保护尚未形成统一的综合法律规范,而是用一些具体地规定。有的是法律,有的是行政法规、部门规章、地方性法规和规章,以及各类规范性文件等,这样多层次和多领域的规范实际上形成了一个内容分散、体系庞杂的个人信息保护模式。要治理网络环境,就要加大惩治,还应该从法制层面掐断信息泄露的源头。

6 我国推进大数据应用急需研究和解决的问题

6.1 解决大数据安全的突出问题

解决大数据安全最突出的问题,我个人认为目前最要紧的是首先解决个人信息泄露的问题。由于有很大比例是由于内鬼盗窃和泄露个人信息,所以第二个要解决的是发现和处理内鬼窃取信息的问题。之后要解决的是黑客攻击的问题。然后是建立全社会的协同大数据安全管理体系的问题。既要抓内鬼,也要追查黑客,把这些人的活动范围和行踪等进入黑名单,让他们无法继续从事类似的犯罪活动,限制他们的活动范围。要建立全社会的协同大数据安全管理体系,我们过去不协同,你搞你的,我搞我的,相互没有联系,也不配合,但是罪犯之间都有配合,有上下游形成灰色产业链。

大数据安全管理,需要多个环节的配合处理和配套的管理制度与法律来保证,过去分散各自管理的问题是无法解决大数据安全问题的。人们认识到"数据像石油一样是核心的战略资源",作为核心战略资源的数据显然是不能够随便存放的。这里有两个重要的问题:一是安全管理责任分担的问题。信息安全风险存在于数据的全生命周期之中,从数据采集、存储、处理到应用,技术思路、产品开发、用户使用、服务管理,各个环节均要分担相应的安全责任。还有为了数据安全要严格的划分不同的人可以访问的数据范围,在管理上也要落实责任到人。哪个环节是什么责任,哪个业务是什么责任都必须要规定的很明确。像银行要把住资金流通的这个关键环节,这是最后一个关卡,守住这一关就很重要。二是数据加密保存的问题。数据要加密存储,数据库不能再裸奔。有的案件就是因为破解了加密算法而盗取了用户信息,所以加密的算法要足够的安全。

6.2 需要深入的研究与大数据安全相关的法律

在法律层面上,我们目前迫切需要研究制定与大数据安全相关的法律。现有法律比较宏观,针对性不强,不能解决实际问题。我们需要更加系统地研究和完善的个人信息保护的法律,改变过去多头和分散治理和立法的局面。现在虽然有网络法,个人信息保护的法律条款等,但这些与大数据相关的法律,还不能很好地避免和解决实际问题,目前看实际效果还不明显。因此不管是从管理入手也好,还是抓立法,都需要进行很深入的研究。

数据立法要研究和解决以下问题:(1)数据的所有权问题;(2)个人隐私的保护问题;(3)数据共享的问题,谁来决定数据可以让谁共享,如何确定可共享范围等;(4)数据价值的分析与分级管理与保护的问题;(5)数据质量的管理(包括数据的真实性、准确性、完整性和可追溯性,防止数据被篡改);(6)数据归档与保存时间的问题等。有很多数据是需要长期保存的,但是实际应用中,由于空间有限就只能做短期保存。我认为很多数据都应该长期保存,如果短期保存不利于破案。

以上是我在实际工作中发现和接触到一些问题,我在研究我国的信息化发展的过程中进行了长期的跟踪,发现了技术、管理方面存在的一些问题,觉得有必要对这些问题开展进一步的研究。大数据安全管理问题不解决,也不利于大数据应用的发展。要变亡羊补牢为未雨绸缪,要有充分的准备应对各种可能出现的问题。

一个特别的话题——数据立法

说到数据立法,这里我还要讲一段历史小故事。2017年11月12日是华罗庚先生诞辰107周年纪念日。华老在80年代写过一篇文章,当时他关心的是数据质量问题。他是说如果数据是假的,怎么能做统筹,怎么正确地作出决策的问题。数据不真实,制定的计划与作出的决策就可能是错的,所以他在30多年前就在考虑数据立法的问题,提出要通过数据立法来保证数据的质量。这个思想是非常有前瞻性的,体现了一个科学大家的远见与洞察力。

华罗庚说:"回顾过去十多年的实践和体会,我觉得在管理上用得着的方法可以概括为三十六个字:

大统筹,广优选,联运输,精统计,

抓质量,理数据,建系统,策发展,

利工具,巧计算,重实践,明真理。

我们从前进行的工作,可以说是根据这三十六个字所做的最基本的尝试。"

说到大统筹,这个思想是第一重要的,具有现实意义。现在我们推进大数据、物联网、云计算的应用与发展都要有统筹规划与顶层设计,不能单点推进,互不关联。他还提到了几点,如质量、数据和建系统等这些事情在信息化的时代都是很重要的工作任务,是我们目前正在抓的和将要做的事情。我觉得大科学家很伟大,他早就洞察到了未来要面临的困难和要解决的问题。这些是在今天的沙龙上,我想把华老的这些思想提出来与大家分享的。

谢谢大家!

[返回]

 

【交流与讨论】

 

余德浩:我们听了两个非常精彩的报告,下面大家进行讨论。在座许多都是这一行的专家,请大家发表意见。

史玉凤:汶川大地震的时候我们有一个飞机撞山了,这个跟大数据有没有关系?

吕金虎:撞山跟飞机本身有关系,但是找它的时候我们卫星不行,我们国家当时的卫星分辨率不够,天气不好的时候照不到地面的情况,采集不了信息。后来是武汉大学李德仁院士采集数据处理之后,找出了飞机出事的位置。最近我国发布了能够看到美国机场跑道的卫星图片,说明对地的分辨率到米了,告诉美国人我们国家也有高分率的卫星数据了。

史玉凤:我们没有用美国的GPS?

吕金虎:那个时候不会对你开放的,你技术不行。现在对你开放是因为技术行了,这是一个竞争的关系,你有能力了就给你开放,没有能力就不开放。

陈光亚:问吕教授的一个问题。以前接触大数据比较少,你报告里面提到算法的问题,是传统算法还是现在的智能算法?

吕金虎:用的是优化算法。比如说有100个站点,组网型不变,获取数据有一个要求,数据500毫秒同时到达的叫同步数据。如果到不了怎么办?传统做法就用上一个时间的数据替代。但是如果是高速运动体,比如说导弹飞行,误差就会比较大。现在要解决的问题是改变站点来适应。但是网型重新组一下,变网就会很慢。怎么样快速组网,达到数据同步的要求呢?我们的做法是,自适应地选择站点中大约5%的关键站点,实现迅速的覆盖,这个问题本质上就克服了。

陈光亚:现在很多算法,原来的那些算法,智能算法等等,现在用的更多是哪一类算法?

吕金虎:用的比较多的是人工智能算法、神经网络。多层神经网络,以前是两三层,阿尔法狗是上千层,通过加层提供学习能力。现在把算法和芯片结合在一起,开发了基于神经网络的芯片,AI的芯片。把算法做成芯片,速度一下提高很多倍。但是现在是专用芯片,因为开发一个芯片成本比较高,普适性是一个挑战。

专家1:问金老师的一个问题,你刚才讲了很多问题的发生,内鬼作案比黑客是4倍,我听了以后感到非常的触目惊心,我觉得这个问题涉及到国家的立法和管理,是一个很严重的问题。我们科研人员能做什么?

金雅芬:我个人认为一个可行的途径就是我们做深入的调查研究,写调查报告。我们曾经搞过一个项目,给温家宝总理写过报告,路院长批了,送到国务院。后来温家宝总理也批了,让工信部、科技部和科学院一起研究解决。但是最后还是没有能够拿出真正有实效的措施。我们数学院,搞系统科学和数学,可以研究保密算法,也可以从系统上研究解决这个问题的方案。但是一个人能力有限做不了太大的事,要组织起来做。

专家2:现在乱象如此严重,应该把科技人员的力量和政府结合起来。我强烈呼吁要尽快健全法制,重罚违法犯罪。有些国外的法律非常给力的,出了问题就是罚的你不能生存。这些方面的问题政府要重视起来。

今天报告对我非常有启发,怎么把我们的科研成果真正帮助政府做一些实事,借助"十九大"的东风,真正落实下去,真正使我们的科研成果对社会治理起到一些作用。刚才我听了两位专家的讲解,深深感到忧虑和问题的迫切性。

专家3:我们存在的问题真的很严重,过去是看了一些资料,但是今天听了两位讲解以后,深深感到触动。但是怎么解决这些问题呢?

金雅芬:我认为还是要从人的道德底线入手抓,什么事情可以做,什么事情不可以做。从我刚才举的例子,如果公安机关就到QQ群里去查,就可以抓很多罪犯。我个人觉得公安机关能力不够,懂的网络信息技术的人比较少。我们可以让网络安全管理办公室的人召开一个交流座谈会,把我们担心的问题提给他们,看看他们有什么作为。

专家4:我们还可以深入考虑一下这些东西,怎么落实到我们行动当中去,怎么给政府部门提供一些帮助。

张建中:听了报告很受启发。但是我觉得随着计算机和网络的发展,个人信息的泄漏是防不胜防,因为途径太多了。通过数据库、大数据,从这给你摘到一点,从那个地方摘到一点,经过整理之后,就可以把你祖宗三代都查出来。说实话,在网上也有人打过我的主意,好在我没有上当受骗。所以我们要从技术上,从管理上加强数据的管理和保密。但是我觉得最关键的是你自己要好好的防范。为什么?因为你想一想,现在有了大数据、有了网络,泄露途径可是千条、万条。我想无论我们管理上怎么,内鬼避免不了,另一方面通过大数据可以把你查的非常清楚。所以说最后一关还在个人。

桂文庄:今天两位老师对网络空间的发展情况和数据安全问题做了非常精彩的报告。这个议题是一个非常热的、大家非常关注的议题。现在网络发展已经完全进入新时代,像吕教授刚才讲到的,网络从过去一个小小的,从军事应用开始发展到商业应用,现在已经更广阔地应用渗透到社会经济的各方面。第二个方面是关于位置大数据,卫星导航定位。我们科学院也参与了北斗系统的工作,吕教授在里面做了很好的工作。现在第三代北斗上去,精度可以到4米,经过地面增加系统之后,定位可以定位到厘米级,非常了不起。

卫星导航系统是国民经济和军事的基础设施,对国家影响是非常大的,我们非干不可。就像当年我们有了"两弹一星",可以在国际上拍拍胸脯,中国人可以做到了。现在这个东西相当于那个时候的"两弹一星"。现在北斗系统在国民经济中的应用也发展起来。为什么北斗系统还不普遍呢,很大的程度是因为GPS先入为主了。但是现在我们很多地方都用上了北斗系统。我参观过交通部的控制中心,全国运营的大客车都装有北斗系统,这个汽车跑到什么地方在控制中心看的一清二楚。海上的渔船北斗系统用的是最好的,应为北斗系统有报文功能,能知道你在什么地方。其他几个系统都只是单向接收,而我们是双向的。不仅我知道我在什么地方,而且也能报上去,别人知道我在什么地方,这对于海上救援非常非常重要,所以海上的渔船都使用北斗系统。这种服务也产生了大数据,问题也是非常复杂的。你想想如果全国所有汽车都载上了位置系统,甚至战场上的每个单兵都用上北斗系统,数据量就非常非常大。今天讲的这两件事情非常前沿,也非常热门。

另外一个金老师讲的数据安全的问题。数据安全问题没法避免,网络越来越发达,咱们干什么事情都要上网。你说上网去购物不把地址、信息报给他行吗?银行信息更全。这些要想不泄露我觉得没有可能的,我们再立法、再严也不可能不泄露,只是泄露了就抓起来。今天金老师讲到安全的十大事件,里面大部分是外国的。所以网络信息安全问题对全世界都是一个重大问题,不光是我们国家。讲到立法的问题,都说立法为什么滞后,虽然有《网络安全法》但是不解渴,因为这里面确实有很多要研究的问题。金老师提到的这些问题,最后一段讲到从法律上要从数据所有权、隐私保护、数据共享、分级管理、数据质量、数据归档等等,都要做出深入研究才能定得非常细,这些事情不弄清楚,立法也是不好办的。

和数据安全相关的数据共享的问题,也是很复杂的。我们多年来希望解决科研数据共享的政策问题,科学院、科技部都作了很多研究,可这么多年还是没能解决好。这个事情太复杂了,真正要形成规定、细节问题一定要搞清楚。数据共享很好,但是数据保护问题,数据所有权的问题,交易关系的问题,要搞一个都合适的东西,既保护所有者权宜,又数据共享,促进了应用,很不容易。我们现在数据发展很快,应用发展很快,规章跟不上、制度跟不上、法律跟不上,这就是现实,而且是不可避免的。只有一个办法,我们的专家们和政府管理人员,大家共同努力去研究,将它逐步补充完善。

所以我想"十九大"说在新时代,我们的主要矛盾变成人们对美好生活的追求与发展不平衡、不充分的矛盾,就是这个问题,我们看这些制度还不完善,这造成了应用和安全之间很大的不平衡。我们需要充分的去研究这些问题,我觉得今天提出这个问题很好。我们要有信心,应该给国家和院里提出建议,研究数据安全的政策问题。

金铎:今天沙龙的报告非常精彩,我学了很多东西。刚才金雅芬、吕老师提出来的问题,我觉得一方面这些困难是有,但是我讲几句有希望的话。我们的建议报告能递给李总理最好,能递给高层领导是非常好的,可能对全局关心、关注这个问题有影响。同时如果能够在社会上产生一些作用,也是很好的一件事。

我今天听了以后,觉得跟现在自己关注的问题挂钩挂得很紧。我十多年一直参与国家大科学装置、大科学工程建设的规划,我们国家叫做国家的重大科技基础设施,比如说像上海光源、北京正负电子对撞机、天眼就是非常突出的代表。我今天听了以后有两个突出体会,一个是强烈感到互联网正在逐步渗透到我们相当多的科研领域和科研方向,也可能对我们相当多的科研方向产生一种科研业态的一种变化。现在正好院里要为下一个五年国家遴选的大科学工程项目进行研讨,我也要参加这个研讨,这些想法我肯定要带到研讨会上去。我会强烈建议,像这种大科学的讨论会是不应该跟数学院无关,除了物理学、化学的专家外,很多基础科学、数据科学、计算科学方面的工作都会有重大贡献。

第二个是大数据的安全问题,特别共享和安全保护的问题,这正是我们大科学设施建设里面中央领导一直提的事。大科学设施要求你建了的东西是国家的,不是一个单位自己私有的,或者是一个小课题,一个团队自己拥有的,所以一定要对全社会共享。但是所有的设施都面临一个问题,共享了以后我的数据一下子对所有人都开放,这也是刚才金老师提到的问题,桂局长特别强调的问题。大数据发展、管理和怎么样解决共享和保密的问题之间的矛盾问题,大家来研究,我们多个无穷小的作用,加在一起,可能对国家有一定的帮助。所以这个方面我还是觉得可以有点乐观的想法。

余德浩:今天我们就一个非常重要的,涉及领域非常广泛的,大家也非常关注的一个题目举办了这个沙龙,听了两位报告人非常生动、精彩的报告,也展开了非常热烈的讨论。我们今天沙龙非常成功。也期待各位积极参加我们明年的沙龙。

[返回]

 
查看评论