大语言模型LLM有哪些
大家都知道chatGPT很牛,最近又发布了chatGPT4,下个月说不定就要发布chatGPT 5.0了,经过重重困难,现在能用上chatGPT 3.5 turbo版本,虽然有时候gpt一本正经的胡说八道,但是大部分时间还是帮我解决了不少问题。
自从 Google 在 2017 年的Attention is All You Need论文中引入了转换器的概念(您可能听说过的所有 GPT 模型中的“T” )以来,语言建模领域取得了惊人的进步,将自然语言处理领域风靡一时,并成为自那时以来 NLP 几乎所有进步的基础。在撰写本文时,谷歌的一篇论文被引用了 68,147 次,显示了该领域所做的工作量!当前的 LLM 领域正在快速且不断地发展,多个参与者竞相发布他们模型的更大、更好、更快的版本。投资者正向 NLP 公司投入数十亿美元,其中仅 OpenAI 就筹集了 11B 美元。不过现在,我们将主要关注指令跟随 LLM(或基础模型),这是一种通用的 LLM 类,可以按照您的指示进行操作。这些与特定于任务的 LLM 不同,后者仅针对摘要或翻译等一项任务进行了微调(要了解有关特定于任务的模型的更多信息,请阅读我们关于LLM 的用例和实际应用的文章)。以下是过去几年宣布和发布的一些顶级 LLM 的列表,以及我们针对不同用例和约束的推荐选择。
GPT-4
OpenAI,未知大小,非开源,仅 API 访问 我们选择完全托管的、基于 API 的 LLM(付费) GPT (Generative Pre-trained Transformer) 4 于 2023 年 3 月 14 日发布,是 Open AI 的最新模型。虽然它不是严格意义上的纯语言模型,因为它可以将图像和文本作为输入,但它在包括多项专业医学和法律考试在内的各种任务上表现出了令人印象深刻的表现。 与之前的迭代相比,GPT-4 还扩展了最大输入长度,将其增加到最多 32,768 个标记(约 50 页文本!)。不幸的是,关于用于训练该模型的模型架构或数据集的信息很少。 由于 OpenAI 在功能和质量方面的突破以及良好的业绩记录,如果您不想托管自己的模型并希望依赖 API,GPT-4 赢得了我们的选择,可供 LLM 使用。在撰写本文时,需要订阅 ChatGPT Plus 才能访问。
聊天GPT
OpenAI,200 亿个参数,非开源,仅 API 访问 我们选择完全托管的、基于 API 的 LLM(免费套餐) ChatGPT 是纯文本模型,由 Open AI 于 2022 年 11 月发布。它可以执行许多 GPT-4 可以执行的基于文本的功能,尽管 GPT-4 通常表现出更好的性能。ChatGPT 是InstructGPT的兄弟模型。InstructGPT 本身经过专门训练,可以接收提示并提供遵循特定说明的详细响应,而 ChatGPT 旨在进行自然语言对话。OpenAI 经常推送更新和新功能,例如最近发布的ChatGPT 插件,这些插件解锁了更多的 LLM 用例。ChatGPT 的基本(非高峰)访问不需要订阅,使其适合个人项目或实验——如果您即使在高峰时段也需要一般访问,a需要订阅ChatGPT Plus 。
GPT-3
开放 AI,1750 亿个参数,不开源,仅 API 访问 GPT-3 于 2020 年 6 月宣布,在大量文本数据上进行预训练,然后在特定任务上进行微调。给定一个文本或句子,GPT-3 返回自然语言的文本补全。GPT-3 在 NLP 任务(例如翻译、问答和文本补全)上展示了令人印象深刻的少样本和零样本性能。
BLOOM
BigScience,1760 亿个参数,可下载模型,可用的托管 API BLOOM(BigScience Large Open-Science Open-Access Multilingual Language Model)于 2022 年 11 月发布,是一种多语言 LLM,由来自 70 多个国家和 250 多个机构的 1,000 多名研究人员合作创建。它以 46 种自然语言和 13 种编程语言生成文本,虽然该项目共享其他大型语言模型(如 GPT-3)的范围,但它专门旨在开发一个更加透明和可解释的模型。BLOOM 可以充当指令遵循模型来执行不一定属于其训练的一般文本任务。
Lamda
Google,1730 亿个参数,非开源,无 API 或下载 LaMDA(对话应用程序的语言模型)于 2021 年 5 月发布,是一种旨在与用户进行更自然、更吸引人的对话的模型。LaMDA 与其他语言模型的不同之处在于,它接受过对话训练,并且该模型能够辨别各种微妙之处,这些细微之处将开放式讨论与其他类型的语言区分开来。LaMDA 的潜在用例多种多样,从客户服务和聊天机器人到个人助理等等。LaMDA 本身是建立在一个名为 Meena 的早期 Google Chatbot之上的。由 LaMDA 提供支持的对 话服务称为BARD,将“很快”通过 API 提供。
MT-NLG
Nvidia / Microsoft,5300 亿个参数,按应用程序访问 API MT-NLG(Megatron-Turing 自然语言生成)于 2021 年 10 月宣布,使用 基于 transformer 的Megatron架构为一系列任务生成连贯且上下文相关的文本,包括完成预测、阅读理解、常识推理、自然语言推理,词义消歧。
LLaMA
Meta AI,多种尺寸,可通过应用程序下载 Meta AI 于 2023 年 2 月宣布推出 LLaMA 模型,提供从 70 亿到 650 亿个参数的多种参数大小。Meta 声称 LLaMA 可以帮助使该领域的访问民主化,该领域一直受到训练大型模型所需的计算能力的阻碍。该模型与其他 LLM 一样,通过将一系列单词作为输入并预测下一个单词以递归生成文本来工作。只有研究人员、政府附属机构和学术界人士才能访问该模型,并且只有在向 Meta 提交申请后才能访问。
Alpaca
斯坦福大学,70 亿个参数,可下载 我们选择用于非商业目的的自托管模型 我们为非商业目的选择的模型进行微调 羊驼于 2023 年 3 月发布。它根据我们上面描述的 Meta 的 LLaMA 7B 模型进行了微调,并接受了 52k 指令跟随演示的训练。该模型的目标之一是通过提供可与 OpenAI 的 GPT-3.5 (text-davinci-003) 模型相媲美的开源模型来帮助学术界参与这些模型。为此,Alpaca 一直保持小型和廉价(微调 Alpaca 在 8x A100s 上花费 3 小时,成本不到 100 美元)进行复制,并且所有训练数据和技术也已发布。 如果您只想将 Alpaca 用于研究/个人项目,那么它会赢得我们的选择,因为许可证明确禁止商业用途。然而,结合LoRA 等技术,该模型可以在消费级 GPU 上进行微调,甚至可以在树莓派上(缓慢地)运行。
Flan-UL2
谷歌,200 亿个参数,可从 HuggingFace 下载 我们选择用于商业用途的自托管模型 我们为商业目的选择的模型进行微调 Flan-UL2 是一种编码器解码器模型,其核心是使用Flan训练的T5 模型的增强版。它显示的性能超过了 Flan-T5 的“先前”版本。Flan-UL2 拥有 Apache-2.0 许可证,是我们选择的自托管或微调模型,因为它的使用和培训细节已经发布。 如果 Flan-UL2 的 200 亿个参数有点太多,请考虑Flan-T5的先前迭代,它有五种不同的大小,可能更适合您的需求。
Gato
DeepMind,12亿个参数,无法使用 Gato 于 2022 年 5 月发布,是 DeepMind 的多模态模型,与 GPT-4 一样,它是一个单一的通才模型,不仅可以处理文本,还可以处理其他模态(图像、Atari 游戏等),并执行图像字幕甚至控制等多项任务机械臂!虽然该模型本身尚未发布,但有一个旨在模仿其功能的开源项目。 路径语言模型 (PaLM) Google,5400 亿个参数,可通过 API 获取 PaLM 于 2022 年 4 月宣布,它基于 Google 的Pathways AI 架构,旨在构建能够处理许多不同任务并快速学习新任务的模型。PaLM 是一个使用路径系统训练的 5400 亿参数模型,可以执行数百种语言相关任务,并且(在发布时)在其中许多任务上实现了最先进的性能。PaLM 的显着特征之一是为需要多个复杂逻辑步骤的场景生成解释,例如解释笑话。
月宣布,Claude
人择,未知大小,应用程序后的 API 访问 Anthropic 于 2023 年 3 月宣布,Claude 被描述为“下一代人工智能助手”。与我们列表中的其他模型一样,Claude 可以执行各种 NLP 任务,例如摘要、编码、写作和问答。它有两种模式:Claude,这是完整的高性能模型,以及 Claude Instant,这是一种以牺牲质量为代价的更快的模型。遗憾的是,关于 Claude 的训练过程或模型架构的详细信息不多。
ChatGLM
清华大学,60亿参数,可下载 ChatGLM 由清华大学知识工程组 (KEG) 和数据挖掘于 2023 年 3 月发布,是一种双语(中文和英文)语言模型,可在 HuggingFace 下载。尽管模型很大,但通过量化,它可以在消费级 GPU 上运行。ChatGLM 声称与 ChatGPT 类似,但针对中文进行了优化,是少数具有允许商业使用的 Apache-2.0 许可证的 LLM 之一。 *注意: 我们未在此处添加但也在过去几年中发布的其他一些 LLM:Gopher、GLaM、Chinchilla