9月11日上午,在2024年国家网络安全宣传周“粤港澳大湾区安全技术创新”座谈会上,中国工程院院士、中国互联网协会专家咨询委员会主任邬贺铨以“AI时代的数据安全”为题作主题报告,从数字水印、数据采集、数据保护、数据加密等几个维度展开分析。
他提出,人工智能本身有自身的不安全性和“幻觉”,且更可能被滥用,因此要用各种办法提高AI的可行性。在推动数据跨境流动过程中,他建议设立“数据保护区”,其中南沙适合作为承接境外数据的清洗标注池。
粤港澳大湾区安全技术创新座谈会现场
反复使用AI生成的数据相当于“近亲繁殖”,要重视数据原生性
在数据采集方面,邬贺铨指出,目前中国基本语料数据仍不够,其中制造业数据很丰富,但仍然有局限。现在很多人工智能的训练,原始数据不够时,会应用AI数据。他以自动驾驶举例称,自动驾驶需上百亿公里的路测数据,相当于百辆汽车连续跑100年。这种方法成本太高,因此业内一般会使用人工智能的方法,在基底训练数据上基于大模型自动进行长尾场景的自我训练,弥补数据的不足。
这个过程中也存在隐患——“数据生成率过高就有问题了,完全靠AI生成的数据,会逐渐变形、出错。反复用AI生成的数据,相当于‘近亲繁殖’,最后就失去了它的效果,所以我们要重视数据的原生性。”
在人工智能时代,面对AI换脸等带来的风险,数字水印也重新被提起。邬贺铨表示,当图像加上数字水印后,一般人看不出来,但是可以用特定的办法提取水印。数字水印一方面可以实现版权保护,另一方面可以识别AI换脸、换身等,实现深度防伪。
中国工程院院士、中国互联网协会专家咨询委员会主任邬贺铨
设立“数据保护区”护航数据跨境流动,南沙大有可为
在2024年国家网络安全宣传周期间,“数据跨境流动”成为行业嘉宾的一个关注焦点。邬贺铨在发言中特别提到应设立“数据保护区”。此外,在推动数据跨境流动的过程中,针对个人敏感信息要进行申报,并且采取脱敏技术。
为何要建立“数据保护区”?他解释道,按照数据跨境流动的规律,即便在境内加工境外数据,也不允许插入境内的个人信息和重要数据;另一方面,境外数据放到这里来加工,境外也担心其数据在加工过程中被泄露。
“‘数据保护区’和境内公众是物理隔离的,仍有境内、境外物理关防,像一般的货物保税区一样。虽然这个数据保护区相当于境外数据的一个飞地,但是仍然受到省级网信部门的监管。”邬贺铨说。他认为,当前设立“数据保护区”的条件已经较为成熟。中国通信基础设施先进,宽带渗透率高,IT人才猛攻,“南沙就很适合作为承接境外数据的清洗标注基地。”
此外,数据加密是保安全的重要手段。在这方面,邬贺铨建议利用区块链的技术,利用各种硬件登记以及有效的寿命时长管理技术来实现对版本的管理。“每个企业都很重视安全,但是单靠每个企业自扫门前雪是不够的,需要依靠社会的力量、政府部门实现网络安全威胁情报的共享。”
文/广州日报新花城记者:张姝泓
图/广州日报新花城记者:莫伟浓、杨耀烨、吴子良