M2UGen – 利用大型语言模型的强大功能进行多模态音乐理解和生成 - AIBetas

M2UGen – 利用大型语言模型的强大功能进行多模态音乐理解和生成

M2UGen – 利用大型语言模型的强大功能进行多模态音乐理解和生成

03844

1年前更新

M2UGen简介

M2UGen是一款多模态音乐生成框架，能够同时包括音乐理解和多模态音乐生成任务，旨在协助用户进行与音乐相关的艺术创作，支持从文字、图像、视频生成音乐，并具备强大的编辑功能。

2024年1月4日，腾讯与新加坡国立大学发布能够理解图片和视频内容生成相应音乐的AI模型M2UGen。

据介绍，M2UGen使用 MU-LLaMA 模型和 MosaicML 的 MPT-7B-Chat 模型来生成面向音乐的数据集。
还利用BLIP图像字幕模型和VideoMAE字幕模型来为各自的模态添加字幕。

音乐文件 MU-LLaMA 模型音乐字幕
图像文件 BLIP 图像字幕模型图像字幕
视频文件 VideoMAE 字幕模型视频字幕

M2UGen官网

https://crypto-code.github.io/M2UGen-Demo/

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

AI音乐
# AI音乐创作

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容