人类正加速迈向人工智能的关键“奇点”,大数据、大模型、大算力相互交织,构筑着迈向数字文明的“方舟”。在澎湃激荡的数字化征程中,不可避免地会遇到数字时代的新风险和新挑战。
9月1日,正值我国《数据安全法》施行两周年,由上海市通信管理局、上海市杨浦区人民政府主办的2023“浦江护航”上海电信和互联网数据安全论坛暨AIGC数据安全治理论坛在沪举办。
在本次论坛中,与会政府部门和企业相关人士指出,生成式人工智能等新技术新业务的发展,为数据安全保护和监管工作带来了新的风险和挑战。对此,不同主体亟须采取措施开展数据安全治理和算法治理,建立健全数据安全管理制度和技术保护措施,积极推动形成多主体参与、产业、法律、技术等多种手段相结合的数据安全综合管理格局。
此外,在论坛中,上海市互联网协会数据安全工作委员会联合业界电信、移动、联通、东方有线、美团、得物、拼多多、B站、小红书等20家企业代表,签署了《2023上海电信和互联网行业数据安全倡议》。
电信和互联网领域相关企业是数据安全的第一责任主体
2021年9月1日,我国《数据安全法》正式实施。《数据安全法》确立了数据分类分级管理、数据安全审查、数据安全风险评估、监测预警和应急处置等基本制度,通过建立健全各项制度措施,提升国家数据安全保障能力,切实维护国家主权、安全和发展利益。
据工信部网络安全管理局副局长杜广达在论坛中介绍,目前,在国家数据安全工作协调机制的统筹下,各地区初步构建了数据安全工作的新格局。不过,杜广达也坦言,“数据安全工作仍处于起步阶段。”
工信部网络安全管理局副局长杜广达
“其中,电信和互联网企业承载了大量用户个人信息和业务数据,占全国行业机构产生数据的总量超过四分之一,具有极高的价值,已成为网络攻击的主要目标。勒索病毒、数据泄露等安全事件时有发生,整体形势依然严峻。”杜广达说。
不仅如此,生成式人工智能等新技术新业务的发展,更为数据安全保护和监管工作带来了新挑战。电信和互联网领域相关企业既是数据安全的第一责任主体,也是防范化解数据安全风险的第一道屏障。
那么,未来加强电信和互联网领域的数据安全工作应如何加强?杜广达认为,首先企业深入开展实践,夯实数据安全防护基础。电信和互联网企业要严格执行数据安全政策法规要求,深入开展重要数据识别备案、风险评估和全生命周期防护管理实践,形成行之有效的解决方案。
其次,企业要加强前瞻应对,主动防范新型安全风险。企业要及时跟踪生成式人工智能、深度合成、算法推荐等新技术新业务发展趋势,深入分析应用场景,研判新技术、新应用在数据采集、存储、传输、使用等环节存在的风险隐患,准备把握数据安全风险发生的规律、动向和趋势。
再次,促进数据安全产业发展,有效赋能数据安全保护。各地方政府要结合地方产业基础和优势,围绕关键技术产品和重点领域应用,打造高端化、特色化数据安全产业集群,加快数据安全技术和人工智能、大数据等技术的融合创新,赋能提升数据安全态势感知、风险研判等能力水平。
值得一提的是,就在近期,工信部组织启动了2023年“数安护航”专项行动,正在面向重点电商平台、数据中心和云基础设施运营企业,集中开展风险排查和防范处置,及时化解电信和互联网领域数据安全的风险隐患。
拥抱大模型,安全是底座
在此次论坛的圆桌环节中,来自的上海交通大学人工智能研究院副院长王延峰、深信服科技股份有限公司副总裁马蕴超、观安信息创始人张照龙等专家分享了对大模型浪潮中数据安全的看法。
在观安信息创始人张照龙看来,大模型浪潮中的风险首当其冲的就是数据安全。
“大模型里面隐含了非常多敏感数据,所以数据泄密问题非常关键。”张照龙举例称,近期,韩国三星一个技术人员把自己的源代码上传到ChatGPT,希望ChatGPT能够给他一个技术,但是该技术人员上传了企业的生产核心的代码。
不仅如此,风险也来自模型本身。“我们做大模型是一个知识型大模型,过程中有可能调用一些其他学习化的模型算法,直接引用这些函数和模型算法。这些模型和算法本身是否存在安全隐患,最终导致我们认知错误或者导致数据结果是偏移的,这也是很大的隐患,包括内置一些安全隐患的漏洞等。”张照龙说。
不仅如此,因为知识型算法是生成的,因此很大的一个安全隐患是数据推理。
而深信服科技股份有限公司副总裁马蕴超则从数据、算法、伦理三个方向指出了大模型浪潮中数据安全面临的挑战。
在其看来,大模型首先是基于大量级的数据,数据从哪里来?“此前open AI等应用程序等都面临着大量知识产权的诉讼,就是因为在数据合规性上出了一些问题。另外是数据在存储和传播中的加密和安全,如果泄露了,对于个人和企业的伤害都比较大。”马蕴超说。
算法也是一样,训练过程中总是容易出现幻觉。AIGC基于深度神经网络,它的算法本身就有一定的黑盒,算法的决策过程不可控,有可能会出现歧视、偏见、误解。“举例比如贷款的模型,基于以前的数据,最终出现的结论有可能会对种族、区域、性别造成一些歧视性的决策。”马蕴超说。
第三是伦理风险,“可能它一键生成,用语音、视频比以前更加逼真。现在一些电信诈骗也引入了大模型。”马蕴超说。
最后,上海交通大学人工智能研究院副院长王延峰则大道至简地总结,挑战来自两方面,输入安全的挑战和输出安全的挑战。输入核心是语料数据,输入的数据语料不安全,很难保证输出的数据安全。
另外在输出的安全性上,很多技术层面、架构层面问题有待解决,目前其在做的人机对齐,价值观对齐等研究,都是在做这方面的探索。
“无论是从输入安全的问题,还是输出安全的问题,最后一点是,希望民众要有对新技术的足够的耐心和宽容度,让其往前再发展一段时间。”王延峰说。