通向AGI之路：大型语言模型（LLM）技术精要-白红宇

通向AGI之路：大型语言模型（LLM）技术精要

阅读量：797 次

发布时间：2023-04-04

本文共 1251 字，大约阅读时间需要 4 分钟。

潮流之巅：NLP研究范式的转换

在过去的十年中，NLP领域经历了两次重要的研究范式转换。第一阶段是从深度学习到两阶段预训练模型的转变，第二阶段是从预训练模型走向通用人工智能（AGI）的发展。

范式转换1.0：从深度学习到两阶段预训练模型

在BERT和GPT模型出现之前，NLP领域主要依托深度学习模型，技术框架以Sequence to Sequence（或称encoder-decoder）加Attention为核心。这些模型的主要目标是通过增加模型层深或参数容量来提升效果，但效果提升有限，主要原因在于训练数据量有限和特征抽取能力不足。

BERT和GPT的出现标志着NLP领域的技术飞跃，带来了以下影响：

中间任务的消亡：许多中间任务不再必要，因LLM可以直接处理最终任务。

技术路线的统一：NLP研究方向收敛到两阶段模式，即预训练+应用微调或零示例提示。

范式转换2.0：从预训练模型走向通用人工智能

GPT 3.0的出现引领了这一阶段，标志着LLM从生成模式向通用推理能力的转变。ChatGPT作为典型代表，实现了更接近理想LLM的接口，适配人类的任务表达方式。

学习者：从无尽数据到海量知识

LLM从海量数据中学习的知识主要包括语言类知识和世界知识，存储在Transformer的多层结构中。模型参数是知识的主要存储介质，预训练阶段的优化目标是交叉熵损失。

知识涂改液：如何修正LLM里存取知识

修正错误知识的方法包括：

从训练数据源头修正。

通过微调修正模型参数。

直接修改模型参数。

规模效应：当LLM越来越大时会发生什么

预训练阶段，模型规模对效果提升有重要作用。Scaling laws表明，增加训练数据量和模型参数同步提升效果。当前研究建议优先增加数据量，减少模型参数。

人机接口：从In Context Learning到Instruct理解

In Context Learning通过示例学习任务，而Instruct则通过任务描述命令LLM。两者结合可以实现更自然的人机交互。

智慧之光：如何增强LLM的推理能力

LLM推理能力的提升主要通过Prompt技术和代码预训练实现。基于Prompt的方法包括零步提示、基于示例的思维链（CoT）等。代码预训练能显著增强推理能力。

未来之路：LLM研究趋势及值得研究的重点方向

探索LLM模型的规模天花板。

增强复杂推理能力。

3.纳入更多领域研究。

4.更易用的交互接口。

5.建设高难度评测数据集。

6.高质量数据工程。

7.超大LLM模型的稀疏化。

8.复刻ChatGPT时要注意的技术选型。

ChatGPT：为什么是OpenAI

OpenAI的技术理念超前，始终将LLM视为通向AGI的关键。ChatGPT的成功源于技术选型和对AGI理念的坚定信念。

本文由“健康号”用户上传、授权发布，以上内容（含文字、图片、视频）不代表健康界立场。“健康号”系信息发布平台，仅提供信息存储服务，如有转载、侵权等任何问题，请联系健康界（）处理。

你可能感兴趣的文章