华中科技大学开源多模态大模型“Monkey”

Monkey大模型简介

Monkey是华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布的一款开源大模型,Monkey 引入了一种高效的训练方法,可以有效地将输入分辨率提高到 896 x 1344 ,同时不需要从开始进行预训练。

开源多模态大模型“Monkey”

为了弥合简单的文本描述和高输入分辨率之间的差距,Monkey 还提出了一种多级描述生成方法,该方法自动提供丰富的信息,可以指导模型学习场景和对象之间的关联。通过这两种设计的协同作用,Monkey 在多个基准测试中取得了优异的结果。与各种多模态大模型(包括 GPT4V)相比,Monkey 通过关注文本信息并捕获图像中的精细细节,在图像字幕方面表现出了良好的性能;高输入分辨率还可以使模型在具有密集文本的文档图像中展现出出色的性能。

根据官方公布的图片显示,对于一些随机图片Monkey可以取得比GPT4V更准确的结果。

开源多模态大模型“Monkey”

Monkey大模型能力

图片[3] - 华中科技大学开源多模态大模型“Monkey” - AIBetas

Monkey大模型发展历程

  • 2023.11.25 🚀🚀🚀 Monkey 对话演示发布。
  • 2023.11.06 🚀🚀🚀 Monkey 论文发布。

Monkey大模型演示

地址:http://27.18.241.29:7681/

Monkey大模型开源地址

Github地址:https://github.com/Yuliang-Liu/Monkey/tree/main

© 版权声明
THE END
喜欢就支持一下吧
点赞2 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情

    暂无评论内容