研究进展

当前位置:首页 / 研究进展

廖宏翔/季晓慧:基于多模态知识蒸馏的矿物识别【NARR,2025】

2026-01-06     发布:[人工智能学院]谢卓均    点击:0

近年来,矿物图像识别技术已得到广泛研究,但多数研究主要基于视觉特征设计模型,导致其架构与图像细节紧密耦合,在处理具有更大类内视觉多样性的矿物分类任务时,其泛化能力仍需进一步提高。为解决类间差异微小而类内差异较大的问题,已引入硬度特征,但诸如条痕和光泽等更多特征尚未被充分利用。

针对上述问题,我校硕士研究生廖宏翔,在导师季晓慧副教授指导下,提出融合多模态特征的矿物识别方法(图1),以增强准确性,并针对当完整模态数据获取受限、仅能获得矿物图像时的情况,提出基于广义蒸馏策略将多模态模型知识迁移至单模态模型的方法(图2)。研究取得的主要成果如下:

1)融合多模态特征进行矿物图像识别:除矿物图像外,引入硬度、光泽度及条痕颜色作为辅助数据用于矿物识别,以提高识别准确性(图1(a))。硬度、光泽度及条痕颜色首先进行离散编码,之后通过非线性嵌入层(图1(b))与图像特征融合,共同进行多模态矿物识别。

2)蒸馏多模态矿物识别模型获得高精度矿物图像识别:单模态模型通过向多模态模型学习其无法通过标准单模态训练获取的额外信息,捕捉更复杂的矿物间关系,使得仅使用图像数据即可获得更高的识别性能(图2)。

1 (a) 基于多模态模型的矿物识别 (b) 非线性嵌入层

2 基于广义知识蒸馏的矿物图像识别

通过包含36种矿物类型的数据集验证了成果的有效性:全模态模型的Top-1准确率较单模态模型提升了近10%,蒸馏后模型较单模态模型的Top-1准确率提升了4%

本研究成果发表在SCI检索期刊《Natural Resources Research》上(JCR 1区期刊,IF = 4.8)。

 

引用格式:Liao, H., Ji, X., Yang, M. et al. Mineral Identification Based on Multimodal and Knowledge Distillation. Natural Resources Research (2025).

全文链接:https://doi.org/10.1007/s11053-025-10602-x.