AI早报：智谱AI推出GLM-4大模型全家桶，GLMs上线；阿里巴巴诉山寨通义千问APP发布方一审胜诉

阿里巴巴诉山寨通义千问APP发布方一审胜诉，获赔经济损失及公开道歉

1月16日消息，国内大模型打假维权出现首例胜诉判决。阿里云、阿里巴巴诉山寨通义千问APP发布方一审胜诉，飞游科技公司因侵犯注册商标及虚假宣传，被责令赔偿相关经济损失及维权费用，并于官网连续十五日发布道歉声明。判决书显示，在阿里云“通义千问官方APP”处于测试阶段尚未正式发布时，飞游科技公司趁机在运营的软件园中提供了“通义千问”“通义听悟”仿冒软件，描述为阿里官方版，并设置了通义千问下载专区。

智谱AI推出GLM-4大模型全家桶，GLMs上线

1月16日，智谱AI技术开放日上，国内当前估值最高的AI大模型独角兽智谱AI发布了新一代基座大模型GLM-4，性能比上一代提升接近60%，整体评测结果逼近GPT-4，支持更长的上下文、更强的多模态、更快速的推理、更多的并发，大大降低推理成本，同时GLM-4也增强了其智能体（Agent）的能力。

微软面向消费者推出订阅服务Copilot Pro

微软宣布其AI聊天机器人Copilot推出面向消费者的订阅服务Copilot Pro，月费20美元（约合人民币142元）。Copilot Pro支持跨设备使用，提供高峰时段GPT-4 Turbo优先使用权，图像生成质量更高且次数每天提升100次，同时Microsoft 365个人版/家庭版用户能在Word、Excel、PowerPoint等软件中使用Copilot。此外，微软推出Copilot GPT，用于健身、旅行、烹饪等特定用途，并且即将推出Copilot GPT生成器，用户可以用一组简单的提示创建定制Copilot。企业版的Copilot for Microsoft 365取消最低席位限制，企业可以每人每月30美元的价格购买任意席位。

腾讯人像生成器PhotoMaker开源

来自南开大学、腾讯、东京大学等机构的研究团队开源了人像生成器PhotoMaker，相关论文于12月7日发表在arXiv。据介绍，PhotoMaker是一种高效的个性化文本到图像生成方法，它将任意数量的输入ID图像编码为堆栈ID嵌入，以保存ID信息。通过将艺术绘画、雕塑或人物的老照片作为输入，PhotoMaker可以将艺术品/老照片中的人物带入现实、在保留ID属性的同时进行风格化、改变年龄或性别、混合不同人像的特征并以一定的比例输出新特征的人像等。

GitHub地址：https://www.github.com/TencentARC/PhotoMaker

论文地址：https://www.arxiv.org/abs/2312.04461

元象开源上下文窗口长度256K大模型

1月16日消息，元象发布全球首个上下文窗口长度256K的开源大模型XVERSE-Long-256K，支持输入25万汉字。该模型全开源，无条件免费商用，且附带训练教程。据介绍，XVERSE-Long-256K支持超长文本输入，可用于大规模数据分析、多文档阅读理解、跨领域知识融合；在角色扮演或聊天应用中，缓解模型“忘记”之前对话的记忆力问题，或胡说八道的“幻觉”问题等；更好支持智能体（AI Agent）基于历史信息进行规划和决策；帮助AI原生应用保持连贯、个性化的用户体验。

有道自研RAG引擎QAnything开放下载

网易有道宣布自研的知识库问答引擎QAnything正式开源。QAnything的主要原理是基于检索增强的生成（RAG），支持云端大模型服务调用、纯本地部署，用户可免费在开源社区Github内进行下载。系统支持Word、PPT、Excel、PDF、图片等多种文档格式，直接导入即可问答。

下载地址：https://www.github.com/netease-youdao/Qanything

Bing AI 生图工具 Image Creator 移除 Bing 前缀

微软在去年 3 月推出了 Bing Image Creator 服务，该功能基于 OpenAI 旗下 DALL-E 模型，据称可以根据用户的上下文内容、艺术风格，生成各种符合用户需要的独特照片。微软将这款服务改名为“Designer 中的 Image Creator”或简单的“Image Creator”，这是微软继 Bing Chat 后第二次放弃了 Bing（必应）品牌前缀。

字节复旦团队提出meta prompts 扩散模型图像理解力刷新SOTA

字节跳动和复旦大学技术团队在最新研究中提出了一个简单有效的方案实现扩散模型处理视觉感知任务，团队提出了一种利用扩散模型处理视觉感知任务的方案，通过引入可学习的元提示到预训练的扩散模型中，以提取适合特定感知任务的特征。视觉感知任务的多样性超出了文本驱动方法的范畴，因此技术团队提出了一种内部的可学习元提示，称为meta prompts，这些meta prompts被集成到扩散模型中，以适应感知任务。Meta prompts可以根据目标任务和数据集进行端到端的训练，从而为去噪UNet建立特别定制的适应条件。这些meta prompts包含丰富的、适应于特定任务的语义信息，有效展示了对类别的识别能力、对深度的感知能力以及关键点的感知。

MiniMax 国内首个 MoE 大语言模型上线拥有处理复杂任务能力

MiniMax宣布国内首个MoE大语言模型abab6上线，经过了半个月的内测和部分客户反馈，该模型在MoE结构下，拥有处理复杂任务的能力，并在单位时间内提升了训练效率。相较于之前版本abab5.5，在处理更复杂和对模型输出有更精细要求的场景中做出了改进。MiniMax表示abab5.5与先进模型GPT-4相比仍有差距，主要表现在处理更复杂场景时可能违反用户要求的输出格式或发生错误，为解决此问题，MiniMax自6月份开始研发MoE模型abab6，参数规模更大，有望在复杂任务下取得更好效果。

Adobe Premiere Pro 推出AI智能音频编辑功能

1 月 16 日，Adobe 宣布为视频剪辑软件 Premiere Pro 引入了全新的 AI 驱动音频编辑功能，旨在解放剪辑师的双手，减少繁琐的操作，让他们得以专注于创造性的工作。这些新功能将在今天开启的 Premiere Pro 公开测试版中亮相。

智源推3D模型GeoDream

智源研究院联合清华和北邮团队推出text-to-3D生成模型GeoDream，能够将输入的文字描述转化为高质量和多视角一致性的3D资产。GeoDream通过解耦的方式利用2D和3D先验解决了3D结构不一致性的问题。

项目地址：https://github.com/baaivision/GeoDream

华为开源GenImage数据集轻松识别Midjourney等AI生成图片

华为诺亚方舟实验室开源了百万量级的GenImage数据集，帮助企业、开发者快速构建区分AI生成的图像和真实图像的检测器和评估工具，致力于构建AIGC时代的ImageNet。

项目地址：https://github.com/GenImage-Dataset/GenImage

开源项目Open Interpreter:让AI在操作系统中自我复制

通过开源项目OpenInterpreter，AI实现了在操作系统级别启动自身副本的雏形。Open Interpreter项目起初是一个ChatGPT代码解释器的升级版，消除了对话限制，可以连接网络，自定义预安装Python包等。团队引入了多模态版本的大模型，展示了AI在发送邮件、操作专业编曲软件等任务中的表现。

AIBetas整理的AI排行榜第一版已经正式上线，了解最新的AI产品及排行榜！

AI排行榜：ai.aibetas.com.cn

文章版权归作者所有，未经允许请勿转载。

THE END