我院谢文波副教授在模式识别领域国际顶级期刊《Pattern Recognition》(SCI 一区)上发表学术论文“Data Skeleton Learning: Scalable active clustering with sparse graph structures”。该论文针对现有成对约束主动聚类算法计算复杂度高、可扩展性弱、难以适配大规模数据处理的核心行业痛点,提出了基于数据骨架学习的可扩展主动聚类框架DSL。其核心创新在于:面向大规模数据聚类的稀疏性先验,设计了数据骨架图与最小约束图双稀疏图结构,分别实现数据内在关联刻画与聚类结果高效迭代更新;提出基于最短路径的约束推导机制,仅依托人工标注的原始约束即可完成约束关系精准推导,大幅降低人工标注成本;设计自顶向下的骨架迭代精炼策略,通过对高可疑度边开展定向人机交互,实现嵌套聚类结构的精准构建。论文通过理论分析,严格证明了该方法实现精准聚类的人工约束上界,同时将算法时间复杂度降至线性对数级别O(nlogn)、空间复杂度优化至线性级别O(n),复杂度性能显著优于主流主动聚类算法,为算法的大规模数据适配能力提供了完备的理论支撑。基于18个跨规模、跨领域真实数据集的实验结果表明,DSL算法在绝大多数场景下,仅需更少的人工标注约束即可取得更优的聚类精度。该工作突破了传统主动聚类算法的可扩展性瓶颈,优化了人机协同的主动聚类工作流,为数据挖掘、知识标注、AI大模型预训练等大规模数据处理场景提供了兼顾精度与效率的新技术路径。论文链接(代码与数据公开):https://www.sciencedirect.com/science/article/abs/pii/S0031320325016814

图1 DSL方法整体框架流程图