高小山团队及合作团队在大语言模型(LLM)推理能力刻画与安全的数学理论研究上取得重要进展。四篇论文被在人工智能顶会PeurIPS 2025接受。
CoT-LLM推理与插值能力刻画[1]。近期工作证明,思维链(CoT)可以提高LLM对若干数学问题的推理能力。该文通过对CoT-LLM插值能力刻画,研究CoT是否在所有推理任务上都能提高LLM的推理能力。具体,给出了LLM插值有限数据集所需参数个数的上下界;在忽略一些小量后,上下界都为O(N),N为数据集个数。该结果表明,对于某些推理任务,CoT-LLM和no-CoT-LLM具有相同的插值或推理能力,即CoT并不能提高LLM对于这些问题的推理能力。该文还首次研究了CoT-LLM在无限数据集上的插值能力,证明了CoT-LLM不能插值某些无限语言。
针对投毒数据的可证明水印[2]。数据投毒不仅用于使学习算法失效、也常于保护私有数据免遭未授权使用,因此需要对投毒数据的所有权加以确认、防止滥用。本文引入两种投毒数据可证明且实用的水印方法:投毒后水印与投毒时水印。并证明对于投毒后水印、当水印长度为O(d^0.5/e_w)时,或对于投毒时水印、当水印长度在O(1/e_w^2)与O(d^0.5/w_p)之间时(d是数据维数、e_w是水印半径、e_p是投毒半径),带有水印的投毒数据集能够同时可证明地确保水印可检测性与投毒有效性。这说明了在数据投毒攻击场景下水印技术的实用性。
论文[3]提出用于黑盒文本到图像(T2I)系统的红队测试框架,解决现有方法依赖白盒信息或已知防御机制的局限,主要包括LLM 迭代修改提示词、规则化偏好建模、直接偏好优化(DPO)微调 LLM三个步骤。实验表明攻击成功率显著高于基线,且保持语义相似度与提示隐蔽性,验证了其在真实场景中的优越性与实用性。
已有商用黑箱数据保护系统通过在数据上增加不可学样本(UE),为数据提供保护。论文[4]揭示了这些系统的脆弱性,说明若存在少量干净的分布内数据,则可以构建基于扩散模型的扩散桥,移除系统所添加的保护噪音。进一步指出了提高数据保护可能的方向。
2025年10月14日
接受论文:
[1] Lijia Yu,Xiao-Shan Gao,Lijun Zhang. Analyzing the Power of Chain of Thought through Memorization Capabilities. PeurIPS 2025.
[2] Yifan Zhu,Lijia Yu,Xiao-Shan Gao. Provable Watermarking for Data Poisoning Attacks. PeurIPS 2025.
[3] Yichuan Cao,Yibo Miao,Yinpeng Dong,Xiao-Shan Gao. Red-Teaming Text-to-Image Systems by Rule-based Preference Modeling. PeurIPS 2025.
[4] Yihan Wang,Yiwei Lu,Xiao-Shan Gao,Gautam Kamath,Yaoliang Yu. BridgePure: Revealing the Fragility of Black-box Data Protection. PeurIPS 2025.