海外new things｜解决大语言模型数据泄露问题，「DynamoFL」获15

时间：2023-08-26

　　作者：子渝

　　编辑：王与桐

　　据 TechCrunch 报道，一家开发防止大型语言模型泄露敏感数据的软件的初创公司「DynamoFL」宣布获得 1510 万美元A轮融资，Canapi Ventures和Nexus Venture Partners 领投。联合创始人兼首席执行官Vaikkunth Mugunthan表示，此轮融资将用于扩大DynamoFL的产品供应和其隐私安全研究人员团队，提供更完善的针对大语言模型数据泄露问题的解决方案。

　　DynamoFL是一个为企业提供大语言模型（LLM），并在敏感数据上微调，以防止数据泄露问题的软件公司。公司目前拥有一支约17人的团队，预计到今年年底将拥有35名员工。其在2021年由麻省理工学院电气工程和计算机科学系的毕业生 Mugunthan 和 Christian Liu 创立。Mugunthan表示，他们创办公司的共同愿景是解决AI模型中的“关键数据”安全漏洞。

　　如今，随着科技的发展，当今时代掀起了生成式AI的浪潮，但数据泄露问题也随之而来——语言模型对用户问题的回答通常包含来自其训练数据集的信息；如果训练数据集包含信用卡号等敏感记录，这些记录可能会进入模型的答案，带来隐私泄露的风险。这引发了社会对隐私计算与数据安全的广泛讨论。

　　企业在采用LLM实现目的时肯定会面临有关合规方面的挑战。公司担心他们的机密数据最终会落入根据用户数据训练模型的开发人员手中，并且业界已出现了相关案件。最近几个月，包括苹果、沃尔玛和Verizon在内的大公司已经禁止员工使用OpenAI的ChatGPT等工具。

　　在最近的一份报告中，Gartner确定了组织需要评估“负责任的”LLM面临的六种法律风险和合规风险，包括LLM不准确回答问题的可能性、数据隐私和机密性以及模型偏见（例如，当模型刻板地将性别与职业联系起来时）。报告指出，评估标准可能因州和国家的不同，使问题复杂化——例如，加利福尼亚州要求组织必须披露客户何时与机器人通信。

　　对此，Mugunthan说：“生成式AI带来了新的风险，LLM能够'记住’敏感的训练数据，并将这些数据泄露给恶意行为者。显然，企业在应对这些风险时的装备不足，因为高效解决这些LLM漏洞需要招募高度专业化的隐私机器学习研究人员团队，以创建一个简化的基础设施，针对新出现的数据安全漏洞，持续测试LLM。”

　　由此，DynamoFL针对市场上棘手的需求，应运而生。Mugunthan说：“总而言之，DynamoFL的产品提供允许企业在不影响性能的情况下开发私有且合规的LLM的解决方案。”DynamoFL可以部署在客户的虚拟私有云或本地，以多种方式解决大模型的数据安全问题，包括使用LLM渗透测试工具检测和记录LLM数据安全风险，例如LLM是否已记住或可能泄露敏感数据。

　　此外，DynamoFL还提供了一个LLM开发平台，该平台结合了能够降低模型数据泄漏风险和减少安全漏洞的技术。使用该平台，开发人员可以将各种优化功能集成到模型中，还可以使它们能够在移动设备和边缘服务器等硬件受限的环境中运行。

　　但是，这些功能并不属于DynamoFL的差异化优势，市场上许多初创公司都提供了优化AI模型的工具，以便在各种硬件上更有效地运行，如OctoML，Seldon和Deci等初创公司。其他的，如LlamaIndex和Concontext AI，则专注于隐私和合规性，提供隐私保护方法来训练LLM的第一方数据。

　　实际上，Mugunthan认为，DynamoFL的差异化优势在于其解决方案的“彻底性”，包括与法律专家合作，起草如何使用 DynamoFL 开发符合美国、欧洲和亚洲隐私法的 LLM。这种方法吸引了多家财富500强客户，尤其是在金融、电子、保险和汽车行业。

　　Mugunthan说：“尽管现在有产品查询并编辑个人信息后再发送到LLM服务，但这些产品依然不符合金融服务和保险等行业的严格监管要求，在这些行业中，编辑的个人身份信息通常通过复杂的恶意攻击重新识别。”而DynamoFL利用其团队在AI隐私漏洞方面的专业知识，能够为寻求满足LLM数据安全监管要求的企业构建了最全面的解决方案。

　　但是，DynamoFL并没有解决当今LLM的另一个更棘手的问题：知识产权和版权风险。商业LLM接受过大量互联网数据的培训，有时，他们会反刍这些数据，使任何使用它们的公司面临侵犯版权的风险。

　　但Mugunthan暗示，在DynamoFL最近的资金推动下，将推出一套扩展的工具和解决方案。他说：“满足监管机构的需求是IT部门最高管理层的关键责任，特别是在金融服务和保险等行业。如果敏感信息泄露，不遵守法规可能会对客户的信任造成无法弥补的损害，并受到严厉的罚款、导致企业运营的重大中断。DynamoFL 的隐私评估套件提供开箱即用的数据提取漏洞测试，以及满足安全性和合规性要求所需的自动化文档。”

　　如今，业界和学界已有不少针对大模型所面临的数据安全问题的声音，希望能够有越来越优化的技术解决这些棘手的重大问题，让生成式AI的路越走越宽、越走越远。

　　举报/反馈