M2UGen – 利用大型语言模型的强大功能进行多模态音乐理解和生成

M2UGen – 利用大型语言模型的强大功能进行多模态音乐理解和生成

M2UGen简介

M2UGen是一款多模态音乐生成框架,能够同时包括音乐理解和多模态音乐生成任务, 旨在协助用户进行与音乐相关的艺术创作,支持从文字、图像、视频生成音乐,并具备强大的编辑功能。

2024年1月4日,腾讯与新加坡国立大学发布能够理解图片和视频内容生成相应音乐的AI模型M2UGen。

据介绍,M2UGen使用 MU-LLaMA 模型和 MosaicML 的 MPT-7B-Chat 模型来生成面向音乐的数据集。
还利用BLIP图像字幕模型和VideoMAE字幕模型来为各自的模态添加字幕。

  • 音乐文件 MU-LLaMA 模型音乐字幕
  • 图像文件 BLIP 图像字幕模型图像字幕
  • 视频文件 VideoMAE 字幕模型 视频字幕

M2UGen官网

https://crypto-code.github.io/M2UGen-Demo/

© 版权声明
THE END
喜欢就支持一下吧
点赞4 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情

    暂无评论内容