近日,我院计算机科学与技术专业本科生董子涵以第一作者完成的 Full Research Paper “Structure-Guided Semi-Supervised Clustering via Evolving Star Network” 被国际数据挖掘领域顶级学术会议 ACM SIGKDD Conference on Knowledge Discovery and Data Mining(KDD) 录用。该论文由我院谢文波副教授指导完成。KDD 是数据挖掘与知识发现领域最具影响力的国际学术会议之一,为中国计算机学会推荐的 A 类国际学术会议。
论文面向大规模数据分析中的半监督聚类问题开展研究。针对现有方法在大规模场景下计算和存储开销较高、人工查询缺乏结构引导、标注成本利用效率不足等问题,论文提出了一种结构引导的半监督聚类方法 EvoStar。如图1所示,该方法将数据组织为动态演化的星型网络结构,通过近邻连接和自适应密度峰值选择构建稀疏的层次化聚类骨架,并根据节点在网络中的结构作用优先选择关键样本进行人工查询;当反馈发现结构错误时,再通过轻量级的“剪枝—嫁接”操作对局部结构进行调整,从而逐步优化聚类结果。实验表明,EvoStar 在多个真实数据集上取得了良好的聚类效果,尤其在有限查询预算和大规模数据场景下表现出较好的准确性、效率和鲁棒性,为大规模交互式聚类提供了一种兼具可扩展性和可解释性的解决思路。

图1 EvoStar 方法整体框架图。
董子涵是我院“本科生暑期科研启航计划”第一批学生。通过科研启航计划,他在谢文波老师的指导下围绕数据挖掘、机器学习与聚类分析等方向开展系统研究,并完成了该项工作。依托该论文研究过程中积累的科研经历与能力,董子涵在研究生考试面试环节中取得优异表现,已被中国科学技术大学录取继续深造。
近年来,我院高度重视本科生科研创新能力培养,依托科研启航计划、拔尖创新班等平台,持续开展导师制科研训练,引导学生尽早接触学术前沿、参与真实科研项目。此次我院本科生以第一作者身份完成的论文被国际数据挖掘顶级会议 KDD 录用,充分体现了学院在拔尖创新人才培养和高水平本科生科研训练方面取得的积极成效。