百川大模型

百川大模型概览

发布时间	2023年6月11日
更新时间	2023年8月7日
最新版本	baichuan-53B
参数量级	53B
所属公司	百川智能
开源协议	开源-13B：https://github.com/baichuan-inc/

百川智能简介

百川智能是一家研发并提供通用人工智能服务的公司，由搜狗公司创始人王小川与前搜狗公司COO茹立云在2023年4月10日共同创建，旨在打造中国版的OpenAI基础大模型及颠覆性上层应用。并获得5000万美元启动资金，团队拥有包括前搜狗、百度、华为、微软、字节、腾讯等知名科技公司以及其他创业公司核心成员在内的数十位AI人才。

百川大模型发展历程

2023年6月11日，推出了70亿参数量的中英文预训练大模型 ——baichuan-7B。Baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持中英双语，上下文窗口长度为 4096。在标准的中文和英文 benchmark（C-Eval/MMLU）上均取得同尺寸最好的效果。

2023年7月11日，百川智能正式发布参数量130亿的通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本。Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型。具有以下特点：

更大尺寸、更多数据：Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿，并且在高质量的语料上训练了 1.4 万亿 tokens，超过 LLaMA-13B 40%，是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语，使用 ALiBi 位置编码，上下文窗口长度为 4096。
同时开源预训练和对齐模型：预训练模型是适用开发者的『基座』，而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型（Baichuan-13B-Chat），具有很强的对话能力，开箱即用，几行代码即可简单的部署。
更高效的推理：为了支持更广大用户的使用，我们本次同时开源了 int8 和 int4 的量化版本，相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛，可以部署在如 Nvidia 3090 这样的消费级显卡上。
开源免费可商用：Baichuan-13B 不仅对学术研究完全开放，开发者也仅需邮件申请并获得官方商用许可后，即可以免费商用。

2023年8月7日，百川正式发布首个闭源大模型 – Baichuan-53B，参数量级为530亿，据介绍，53B大模型在从写作，文本创作等方面的能力更加强大，同时，百川智能CEO王小川表示，本次发布的新模型计划主要面向B端用户。