9月17日下午两点,西南石油大学计算机与软件学院“梦溪湖论坛”系列讲座秋季学期第二讲在明理楼B306教室如期举行。本次讲座由薛婧婷老师的学生李文毅主讲,围绕 “非平衡数据集下基于隐私求交与编码的高效协同数据清洗”这一前沿研究主题展开,为在场师生带来了一场兼具理论深度与实践价值的学术分享。
讲座伊始,李文毅以协同数据清洗的现实痛点为切入点,指出在公钥密码学场景中,互不信任的协议参与方常存在“数据一致但标签不一致”的脏数据,这类数据会严重影响数据挖掘效果与价值转换。为解决这一问题,他提出需通过安全高效的协同定位方式清洗脏数据,而隐私求交(PSI)技术则为该目标提供了关键支撑。
随后,李文毅详细介绍了隐私求交技术的核心原理与应用场景。他以COVID-19暴露通知系统为例,阐释了隐私求交技术如何保障安全——用户仅能获取接触者与阳性病例的交集结果,公共卫生管理机构无法获取用户隐私信息,同时提及该技术还可应用于隐私联系人发现、广告转化率统计、个性化推荐等领域。在此基础上,他进一步讲解了实现高效协同数据清洗所需的多项关键技术:包括用于判断数据与标签匹配关系的NETvI编码;提升数据存储效率的布谷鸟哈希;保障数据安全的DH-OPRF与全同态加密(FHE);以及优化性能的虚拟布隆过滤器(VBF)与不经意键值存储(OKVS)等,并通过公式推导与实例演示,使在场师生清晰理解了各技术的作用机制与协同逻辑。
在方案设计环节,李文毅重点拆解了“准备阶段-线上阶段”的两阶段协同数据清洗流程。准备阶段由发送方独立执行。此阶段通过VBF编码与DH-OPRF盲化数据,并利用哈希映射实现数据分片,最后通过KVL链接技术整合分片,为后续交互奠定基础。线上阶段则需接收方与发送方协同完成。该阶段涵盖了VBF编码盲化、布谷鸟哈希映射、FHE加密处理、交集计算与脏数据定位等一系列步骤,最终精准定位出“数据一致但标签不一致”的脏数据。他强调,该方案通过优化数据处理流程与加密方式,有效平衡了安全性、效率与准确性,尤其在大规模数据集场景下表现突出。
讲座尾声的提问环节中,在场同学围绕方案的通信与计算复杂度、小规模数据集下的性能优化、技术在实际场景中的落地难点等问题积极提问。李文毅逐一耐心解答,结合具体研究数据与案例,与同学们展开深入交流,进一步拓展了大家的学术视野。