M2UGen简介
M2UGen是一款多模态音乐生成框架,能够同时包括音乐理解和多模态音乐生成任务, 旨在协助用户进行与音乐相关的艺术创作,支持从文字、图像、视频生成音乐,并具备强大的编辑功能。
2024年1月4日,腾讯与新加坡国立大学发布能够理解图片和视频内容生成相应音乐的AI模型M2UGen。
据介绍,M2UGen使用 MU-LLaMA 模型和 MosaicML 的 MPT-7B-Chat 模型来生成面向音乐的数据集。
还利用BLIP图像字幕模型和VideoMAE字幕模型来为各自的模态添加字幕。
- 音乐文件 MU-LLaMA 模型音乐字幕
- 图像文件 BLIP 图像字幕模型图像字幕
- 视频文件 VideoMAE 字幕模型 视频字幕
M2UGen官网
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容