AIGC时代,踏入内容风控新战场

  不管在真实世界还是虚拟世界,技术永远是中性的,它伴随着人类的需要产生,也恪守着服务人类的本分。然而技术一旦与利益挂钩,有人必然会为了盆满钵满而博弈。面对未来超万亿级市场规模的AIGC,人类会利用这项技术造就多大的福音,还是会成为罪恶的新型工具?

  “在AIGC的风控战场,有一群人在用AI对抗AI ”

  01 你好,AIGC

  2022年,如果要论有什么翻天覆地的改变,诞生出哪些新的风口,AIGC一定当仁不让。AI产业到底经历了什么样的关键突破,几乎各行各业都在主动或被动地喊出,你好,AIGC!以微软、谷歌、百度为代表的科技巨头们纷纷入局。

  

  AIGC(AI-Generated Content),即人工智能生成内容,其被认为是继PGC、UGC之后的一种新型内容创作方式。从模态类型进行细分,可分为音频生成、文本生成、图像生成、视频生成等,同时也可将不同模态之间的转化划分到多模态或跨模态生成。

  与传统内容生产方式相比,AIGC所产出的内容具有更高的创造力和速度。未来,随着AIGC行业爆发式的繁荣增长,社会传播主体将从“人”向“人机共生”转变,它不仅改变了信息传播和人类交流的方式,也重塑了人、技术和社会之间的互动关系。

  根据商业咨询机构Acumen Research And Consulting预测,2030年AIGC市场规模将达到1100亿美元。在可预见的未来,AIGC将被广泛应用于各行业的内容生产实践中,成为互联网内容行业的新一轮增长点。

  作为AIGC的典型应用,不得不提的就是3月15日 OpenAI 发布了 ChatGPT 4.0版本。它的发布将AIGC又推向了一波高潮。其实,ChatGPT4.0 早在去年8月份就已经训练好,中间长达7个月的时间 OpenAI 一直在做有害内容过滤的工作。对大模型而言,非常重要的一点就是输出“安全内容“。由此可见,AIGC内容离不开数字风控。

  02 AIGC,红蓝药丸

  从AI写作、AI绘画到虚拟数字人,AIGC火热兴起的背后是用户对内容创作需求的提升。海量AIGC内容不仅带来资讯、知识与娱乐等海量应用场景,也让整个社会面临着AIGC带来的诸如虚假信息、意识形态偏见、甚至是违法犯罪等的风险与挑战。

  

  AIGC带来的安全争议不可回避,内容安全挑战重重。早在2016年3月,微软聊天机器人Tay上线不到一天就被关闭,其主要原因是当Tay开始和人类聊天后,不到24小时,她就被“教坏”了,成为一个集反犹太人、性别歧视、种族歧视于一身的“不良少女”。

  AIGC从产业爆发到合法合规发展,应该尽可能关注可能带来的法律风险,如数据合规、网络安全、个人信息和包括肖像权、名誉权以及除著作权以外的其他知识产权等。对企业而言,因内容违规被监管部门处罚或者下架,得不偿失。

  虽然近几个月AIGC的发展之势相当迅猛,但早在此之前,国内监管部门早已针对AIGC出台了相关行政法规。今年1月起正式实施的《互联网信息服务深度合成管理规定》,通过细分多元主体责任,该法规对在中国境内应用深度合成技术提供互联网信息服务进行了明确规制,深化了AIGC服务提供方,在服务、用户、内容、数据、技术等方面的管理责任。与UGC一样,AIGC同样面临着内容审核、身份认证等相关考验。

  03 魔高一尺,道高一丈

  AIGC最核心的能力,就是内容生成。但这种生成式AI要得到大规模应用,是绕不开内容安全的。

  近日,美国斯坦福大学研究团队提出了一种名为 DetectGPT的新方法,旨在成为首批打击高等教育中 LLM 生成文本的工具之一。这是一种使用模型的对数概率函数的局部曲率检测预训练大型语言模型样本的方法,该团队开发了一种新的指标用于判断文本是否是机器生成的,并且不需要训练人工智能或收集大型数据集来比较文本。

  在国内,网易易盾也拥有这样一支团队。他们自始至终把安全与AI的结合作为一个核心课题,且率先在国内AIGC风控领域研究出安全对抗方案。在不久的将来,AI安全服务也将成为网易易盾这类AI能力供应商的一个标准服务。

  网易易盾在AIGC领域的安全风控方案基本覆盖了整个AIGC从数据训练、内容生成及合规风险等整个周期,主要体现在4个应用场景:

  1.输入安全

  从AIGC应用角度来说,生成的数据内容可以由产品或平台服务商提供,也可以由用户或者相互结合一起提供。例如,利用近期火爆的“生成式文本生成图片”技术,可以直接通过AI生成一些NSFW内容。它所产生的大部分内容是用户有意生成的,也有部分是因为训练数据的原因,无意间生成了不良内容。

  根据《互联网信息服务深度合成管理规定》,要求深度合成服务提供者和技术支持者应当加强训练数据管理,采取必要措施保障训练数据安全;训练数据安全是一个不可忽视的问题,因为一些恶意用户可以通过向机器学习模型输入特定的违规内容来“教坏”AI,以此为平台和用户造成困扰和风险。

  因此,网易易盾基于多年积累的数字内容风控和深度伪造鉴别的能力,从多个环节和角度进行管理和约束,通过攻击的方法来模拟更多攻击的方法,扩充更多攻击数据,训练计算机检测AI合成内容,以此达到从数据源头解决输入安全的问题。例如,对于“生成式文本生成图片”,首先需要对文本内容进行一次内容过滤,从数据使用源头控制,然后对最终生成的图片进行二次内容过滤。

  

  2.生成内容安全

  AI所生成的内容可能是具有危险性的,除了从训练角度对AIGC原始数据进行预防外,还应对生成的内容进行一系列合理的技术检测,确保其创作内容不被用于有害或非法目的。例如,从社交圈内的“换脸”热潮到以假乱真的 Deepfake 诈骗案,易盾通过AI技术手段打造了动态防御机制和深度检测方案,有效识别出数据真伪,主要从以下维度进行AI对抗:

  (1)深度学习算法:使用深度学习算法对合成类算法进行分析和建模,从而能够更好地识别和检测合成图像、视频、语音等。这样可以通过监督和无监督学习的方式,训练模型,进行动态的检测和防御。

  (2)数据库技术:建立一个合成类算法的数据库,包括多种不同类型的数据,如合成图像、视频和语音等。这样可以通过对这些数据的特征分析,训练模型,帮助识别和检测合成类数据。同时可以将这些数据库的检测结果共享给其他安全软件和应用程序。

  (3)多模态检测技术:同时检测多个模态的数据,如图像、视频、语音和文本等。这样可以提高检测的准确性和全面性,减少漏报和误报的风险。

  

  3.算法安全

  从监管者角度,所有算法服务包括AIGC服务,都需要遵守基本的法律法规规范要求。《互联网信息服务深度合成管理规定》要求深度合成服务提供者和技术支持者应当加强技术管理,定期审核、评估、验证生成合成类算法机制机理。对于生成编辑人脸、人声等生物识别信息的,或生成或者编辑可能涉及国家安全、国家形象、国家利益和社会公共利益的特殊物体、场景等非生物识别信息的需进行安全评估。

  AIGC的新场景不断出现。例如,一开始AI模型面对的是真实拍摄场景,后来转变为电影场景、卡通场景、游戏场景、手绘场景,未来随着AI制作技术的升级,新场景会层出不穷。易盾通过AI样本模拟,AI深度算法合成、AI算法训练等手段,不断加强模型遇到新场景时的适应性。同时训练AI对内容更多基于易盾标签体系的描述,摆脱单一方式进行识别。

  4.信息安全合规

  AIGC基本业务模式是通过人工智能算法生成内容,其法律责任的核心是维护和保障信息安全与合法合规。AIGC的文字创作能力非常强劲,以AI虚拟聊天社交场景为例,黑产可利用AI技术通过藏头诗、生僻词、文字变种等多种形式一直在对有害内容进行变形,尝试绕过审核系统的识别,一旦成功了,就会使用程序的方式在短时间内容把大量的内容刷出去,造成恶劣的影响,同时让平台面临着巨大的合规风险。

  易盾通过自研的聚类技术能够及时发现AIGC的这种异常,利用文本检测、图片检测技术,社媒可高效过滤色情、广告、敏感、暴恐等违规内容及各种文字变种,支持广告法、商标法等垂直领域,从而控制风险的传播与扩散。

  目前,AIGC数字内容风控场景下的需求多变,同时存在着强对抗。对一般企业而言,普遍存在着AI的生产资源投入大、制作周期长、服务化成本高等关键且紧急的问题。对于此,网易易盾也正在将图文、音文跨膜态预训练模型开放于选品、推荐、内容识别等下游应用,将易盾AI领域的成果在更多业务场景得以复用。

  易盾认为,在未来AI应该民主化,资源封闭不应该成为未来AI技术整体发展、产业内应用发展的制约条件,未来各方面资源、能力会更加开放,形成共赢。作为国内数字内容风控领军者,易盾将致力于推动AIGC的内容风控发展,为建立安全可控的AIGC生态提供技术与服务。

  举报/反馈