GPT模型简介
OpenAI的GPT模型是一系列基于Transformer的生成式预训练语言模型,目的是通过大规模的无监督学习得到通用的语言理解和生成能力。目前,OpenAI已经发布了GPT-1、GPT-2、GPT-3和GPT-4。
GPT模型发展
GPT-1
GPT(全称:Generative pre-trained transformers)是基于转换器的生成式预训练模型的简称,OpenAI关于语言模型的生成预训练原始论文由Alec Radford 及其同事撰写,并于2018年6月11日以预印本形式发布在 OpenAI 的网站上。展示了语言生成模型如何通过对具有连续长短文本的多样化文本语料进行预训练,进而获取世界的知识和处理远程的依赖关系。
GPT-2
Release Date | 2019年2月14日 |
开源协议 | MIT许可证 |
源代码库 | https://github.com/openai/gpt-2 |
类型 | Transformer模型 |
2019年2月,OpenAI创建的开源人工智能Generative Pre-trained Transformer 2(简称GPT-2)正式发布,GPT-2可以实现翻译文本,回答问题,总结段落并生成文本输出的功能。GPT-2是一个通用学习器,没有经过专门的训练来执行任何特定的任务。GPT-2是作为 OpenAI 2018版本的GPT模型“直接扩展”而创建的,其参数数量和训练数据集的大小均增加了十倍。
GPT-2缺点:从生成的效果来看,生成的长段落会变得重复而无意义。
GPT-3
发布时间 | 2020年6月11日 |
开源协议 | 闭源 |
数据截至 | 2021年9月 |
上下文窗口 | 2049 tokens |
GPT-3是一个自回归语言模型,目的是为了使用深度学习生成人类可以理解的自然语言,模型设计基于谷歌开发的 Transformer 语言模型。2020年5月,OpenAI发布GPT-3的论文。2020年6月11日,正式发布,微软在2020年9月22日宣布取得了GPT-3的独家授权。
OpenAI Codex
发布时间 | 2021年8月10日 |
开源协议 | 闭源 |
2021年8月10日,OpenAI Codex正式发布。Codex基于GPT-3,经过微调以用于编程,接受了来自 5400 万个GitHub仓库的 159 GB Python代码的训练。能够解析自然语言并生成相应的代码,该模型驱动了Github Copilot。
GPT-3.5
发布时间 | 2022年3月15日 |
开源协议 | 闭源 |
数据截至 | 2021年9月 |
上下文窗口 | 4096 tokens |
2022年3月15日,GPT-3.5版本正式发布。GPT-3.5是一组在GPT-3基础上改进的模型,能够理解并生成自然语言或代码。它是OpenAI的自回归语言模型(LLM),利用深度学习生成类似人类的文本。它是GPT系列中的第三代语言预测模型GPT-3的优化版。拥有1750亿个参数,是迄今为止构建的最广泛和强大的语言模型之一。利用深度学习的能力,GPT-3.5能够持续提供准确和相关的结果,从而提升了语言模型的标准,目前ChatGPT免费用户使用的版本为GPT-3.5版本。
GPT-4
发布时间 | 2023年3月14日 |
开源协议 | 闭源 |
数据截至 | 2022年8月 |
上下文窗口 | 8192 tokens 31768 tokens |
2023年3月14日,OpenAI发布了新一代的自回归语言模型GPT-4,是一种多模态大型语言模型从个方面来说都优于GPT-3和GPT-3.5。通过聊天机器人产品ChatGPT Plus(ChatGPT的高级版本)以及通过等候名单提供对基于GPT-4的OpenAI API的访问来以有限的形式公开提供。目前提供两个版本的GPT-4,上下文窗口分别支持8,192和32,768个tokens。
暂无评论内容