CLaMP 3是由清华大学人工智能学院朱文武教授团队推出的一个多模态、多语言的音乐信息检索框架。它基于对比学习技术,将乐谱(如ABC符号)、音频(如MERT特征)和表演信号(如MIDI文本格式)与多种语言的文本描述对齐到一个共享的表示空间中。CLaMP 3 支持27种语言,并能泛化到100种语言,适用于跨模态检索任务,如文本到音乐、图像到音乐检索,零样本音乐分类和音乐语义相似性评估。
CLaMP 3功能特点:
1、跨模态音乐检索:
– 文本到音乐检索:根据文本描述(支持100种语言)检索与之语义匹配的音乐。
– 图像到音乐检索:通过图像生成的描述(如BLIP模型生成的caption)检索与之匹配的音乐。
– 跨模态音乐检索:在不同音乐表示形式(如乐谱、MIDI、音频)之间进行检索。
2、零样本音乐分类:
– 基于语义相似性将音乐分类到特定类别(如风格、情绪等),无需标注数据。
3、音乐推荐:
– 基于语义相似性进行音乐推荐,支持同一模态内的推荐(如音频到音频)。
4、多模态数据对齐:
– 将不同模态的音乐数据(如乐谱、MIDI、音频)和多语言文本统一到一个共享的语义空间。
5、多语言支持:
– 基于XLM-R实现多语言文本嵌入,支持27种语言的训练,并泛化到100种语言。
6、大规模数据集训练:
– 在大规模数据集(如M4-RAG)上进行训练,包含231万对高质量的音乐-文本对,覆盖27种语言和194个国家。
CLaMP 3相关网址:
1、CLaMP3项目官网:https://sanderwood.github.io/clamp3/
2、GitHub仓库:https://github.com/sanderwood/clamp3
3、HuggingFace模型库:https://huggingface.co/sander-wood/clamp3
4、arXiv技术论文:https://arxiv.org/pdf/2502.10362