精选资源：大语言模型（LLMs）与 Agent 应用

2024年3月1日 · 阅读需 9 分钟

Web 前端工程师 (Web Front-end Engineer)

最后更新于 2025-04-14 03:48:00

精选资源

这是一个系列，收集不同领域相关的精选（高价值）内容，包括深入分析文章、视频、工具等。

探索一项新兴技术出现的背景、动机，尤其是其背后的设计哲学，更甚的是在不断的版本演进过程中遇到了什么问题，产生了什么思考，以及是如何决策并得到最优解。

自从 2022 年底 OpenAI 发布 ChatGPT 以来，过去的一年（2023）AI 领域再度爆发热潮，这一次大语言模型（Large Language Model, LLMs） 技术成为大家关注的核心。了解相关技术，探索其背后的技术原理和工程化技巧，为构建 AI 应用做好准备。

首先，什么是大语言模型（LLMs）？

LLM

维基百科：

Large language model

偏技术性的解释：

更详细的解释：

Large language models, explained with a minimum of math and jargon

提示词工程

快速上手使用类 ChatGPT 应用需要了解提示词工程（Prompt Engineering） 这一概念，通过不断的调整提示词来获得更好更接近预期的结果。

Prompt Engineering

维基百科：

Prompt engineering

学习提示词工程：

社区优秀的提示词模板案例：

PromptHero

大模型与机器学习

大语言模型背后是机器学习（Machine Learning） 领域的技术，为了更好的理解其技术原理，需要补充一些前置概念知识。

SOTA

如何评估一个模型的好坏，State-of-the-Art(SOTA) 模型？

SOTA

What is SOTA in Artificial Intelligence?

Scaling Law

Scaling Law 是基于模型训练方面的实践经验的总结，代表损失（模型性能）与模型参数数量、数据集大小和用于训练的计算量呈幂律（power-law）关系，为大模型的设计和训练提供了理论指导。

Scaling Law

维基百科：

Neural scaling law

业界论文：

Scaling Laws for Neural Language Models

Embeddings

机器通过嵌入（Embeddings） 技术来理解高维数据，例如文本、图像、音频、视频等等。

Embeddings

维基百科：

Word embedding

偏技术性的解释：

试一试：

Getting Started With Embeddings

Transformer

目前，大语言模型基本上都属于 Transformer 模型，而 Transformer 是一种基于注意力机制的神经网络（neural network）架构，它在自然语言处理（NLP）任务中表现出色。

Transformer

维基百科：

Transformer (deep learning architecture)

更好理解一点的解释：

偏技术性的解释：

业界论文：

Attention Is All You Need

Fine-tune

大语言模型通常都是基于大量的数据集进行训练的预训练模型（Pre-trained models），出于保证合规的目的，为了过滤掉一些有害信息，通常都会对模型做进一步微调（fine-tune），以让其生成更符合预期的结果。同时，微调是基于通用模型训练专有模型的重要方式。

微调的技术有很多，列举一些比较常见的。

SFT

通常，语言模型的初始训练是无监督的，但微调是有监督的。有监督微调（Supervised fine-tuning）意味着使用标记数据更新预先训练的语言模型来完成特定任务，所使用的数据已提前检查过。

SFT

偏技术性的：

PEFT: Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware

一种特殊的微调技术，指令调优（Instruction Tuning）：

What is instruction tuning?

业界论文：

RLHF

通过训练奖励模型（reward model），以强化学习（Reinforcement Learning） 的方式对语言模型做进一步的微调是 ChatGPT 获得成功的重要因素。

RLHF

维基百科：

Reinforcement learning from human feedback

偏技术性的解释：

Illustrating Reinforcement Learning from Human Feedback (RLHF)

MoEs

大部分大语言模型都属于密集模型（dense models），参数量级越大计算（推理）成本越高，速度越慢，消耗的硬件内存也更大，为了应对这类问题，出现了一种新的模型架构，即混合专家（Mixture of Experts, MoEs）架构。

MoEs

维基百科：

Mixture of experts

偏技术性的解释：

业界论文：

Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models

最后，基于以上这些概念，可以了解下 ChatGPT 的工作原理。

How ChatGPT actually works

应用技术

RAG

检索增强生成（Retrieval-Augmented Generation, RAG） 是一种利用从外部来源获取的事实来提高生成式 AI 模型的准确性和可靠性的技术。简单的来说，现有的大语言模型基于静态数据进行预训练，在一些对数据实时性有要求的特定场景中无法获取最新数据信息，通过 RAG 技术则可以弥补这个缺陷，通过引入外部实时数据库的方式来增强大语言模型对实时数据的响应能力。

RAG

What Is Retrieval-Augmented Generation, aka RAG?

偏技术性的解释：

Retrieval augmented generation: Keeping LLMs relevant and current

业界论文：

Tools & Plugins

大模型预训练的成本很高，通常不会进行多次，这也出现一个问题，即模型本身能力受预训练数据的限制，为了弥补这一缺陷，尝试让模型学会调用外部工具来解决问题，即为模型开发插件。

Tools & Plugins

Teaching Language Models to use Tools

Agent

人工智能代理（AI Agent） 是一种构建 AI 应用的架构，相比于仅利用 RAG 技术能更好的解决更具体的问题，也是目前 AI 应用发展的重要趋势。

Agent

维基百科：

Intelligent agent

一些更详细的解释：

偏技术性的：

业界论文：

The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey

Model Context Protocol

Model Context Protocol（MCP）是被 Anthropic 提出的一种 AI 应用与外部数据源交互的开源标准协议，目的更好地构建以大模型为中心的，结合多种外部数据源与工具能力的 AI 应用，目前已经成为开源社区项目。

MCP

Model Context Protocol Introduction

Agent2Agent Protocol

Agent2Agent Protocol（A2A）是由 Google 联合社区发布 Agent 应用协作的标准通信协议，目的是与 MCP 互为补充，为多智能体协作提供社区标准。

A2A

Agent2Agent Protocol

开发框架

一步一步开始构建 AI 应用可能是有趣的，但也是枯燥无聊的，且需要耗费大量时间，已经有大量的相关框架工具为我们抽象了低级别的复杂细节。

开发框架

聊天应用：

RAG 应用：

低代码应用：

FlowiseAI

Agent 应用：

社区平台

要了解大语言模型技术发展的趋势，或者寻找相关技术资源，应该对常见的一些社区平台要有所了解。

社区平台

提示词工程​

大模型与机器学习​

SOTA​

Scaling Law​

Embeddings​

Transformer​

Fine-tune​

SFT​

RLHF​

MoEs​

应用技术​

RAG​

Tools & Plugins​

Agent​

Model Context Protocol​

Agent2Agent Protocol​

开发框架​

社区平台​

其它​

提示词工程

大模型与机器学习

SOTA

Scaling Law

Embeddings

Transformer

Fine-tune

SFT

RLHF

MoEs

应用技术

RAG

Tools & Plugins

Agent

Model Context Protocol

Agent2Agent Protocol

开发框架

社区平台

其它