概念瓶颈模型(Concept Bottleneck Models,CBM)是一种旨在充分利用先验知识或概念,并提升深度学习模型可解释性的模型架构。它通过在模型的中间层引入“概念瓶颈”,将输入数据映射到人类可理解的高级概念空间,然后基于这些概念进行最终的决策或预测并进行人机交互作用。
但是,在实际情况下,信息概念的不足会阻碍该模型的解释性和随后的干预措施。张世华等就该问题证明不足的概念信息可能会导致概念的固有表示难题和概念瓶颈模型的标签扭曲。为了应对这一挑战,提出了解耦概念瓶颈模型(DCBM)。该模型包括两个阶段:1)用于预测和解释的DCBM,将异质信息解耦为显式和隐式的概念,同时保持高标签和概念准确性;2)对于人机交互作用,它可以通过相互信息估计自动纠正标签和错误概念。交互作用系统的构建可以作为轻量化的最优化问题进行配合。广泛的实验显示了该方法可以有效减轻概念/标签扭曲,尤其是当概念不足时。特别是,提出了概念贡献评分来量化DCBM的解释性。数值结果表明,DCBM的Jensen-Shannon散度约束可以确保概念贡献评分的实现。此外,DCBM引入了两种有效的人机交互作用,以通过与人类专家的互动来进一步提升概念/标签的准确性。
总之,解耦概念瓶颈模型通过引入隐式的概念层,将复杂的概念瓶颈模型的潜在不充分表示能力,转化为更易于理解和干预的形式,为提升模型的可干预性和鲁棒性提供了新思路。
R Zhang, X Du, J Yan, S Zhang. The decoupling concept bottleneck model. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) (2025), 47(2), 1250-1265. https://ieeexplore.ieee.org/document/10740789