一文明白AI、AIGC、LLM、GPT、Agent、workFlow、MCP、RAG概念与关系_mcp 和 workflow
目录
1. 大模型基本概念
1.1 AI(Artificial Intelligence,人工智能)
1.2 AIGC(AI-Generated Content,人工智能生成内容)
1.3 LLM(Large Language Model,大语言模型)
1.4 GPT(Generative Pre-trained Transformer,生成式预训练模型)
1.5 Agent(智能代理)
1.6 WorkFlow(工作流)
1.7 MCP(Model Context Protocol,模型上下文协议)
1.8 RAG(Retrieval-Augmented Generation,检索增强生成)
2 关系
2.1 AI/LLM/GPT关系:
2.2 Agent/workFlow/MCP/RAG关系:
引言:AI、大语言模型(LLM)、Agent、MCP、RAG等各种概念层出不穷,若不深入了解,记忆混淆,本文会详细讲解这些概念和它们之间的关系
1. 大模型基本概念
1.1 AI(Artificial Intelligence,人工智能)
人工智能(Artificial Intelligence,AI)是一门研究如何使计算机具备智能的科学与工程领域。它涵盖了许多不同的技术和方法,旨在使计算机能够模拟和执行人类智能活动,如学习、推理、理解语言等。
1.2 AIGC(AI-Generated Content,人工智能生成内容)
它指的是利用人工智能技术(尤其是大模型,如GPT、Stable Diffusion等)自动生成文本、图片、音频、视频等多种内容。
1.3 LLM(Large Language Model,大语言模型)
LLM代表“大型语言模型”(Large Language Model),是一个广义的术语,它指的是能够理解和生成自然语言的模型。LLM模型利用深度学习技术,通过对大规模文本数据进行预训练和微调,获得语言理解和生成的能力。专注于处理和理解自然语言文本。
顶级LLM 提供商(包括OpenAI、Anthropic、Google DeepMind、Meta、DeepSeek、xAI 和 Mistral)各自擅长不同的优势,如多模态、推理、开放性或企业就绪性。
LLM模型:闭源模型包括OpenAI 的GPT 系列(如GPT-4o)、Google 的Gemini 和PaLM 2,以及Anthropic 的Claude 系列。开源模型则有Meta 的Llama 系列(如Llama 3.1),以及国内的通义千问(Qwen)和文心一言(ERNIE Bot)等
用于对话的最佳LLMs (如GPT 和 Claude Sonnet 4)擅长处理细微对话、语境保留和语气转换,而 DeepSeek R1 和 Gemini 2.5 Pro 等注重推理的模型则能处理复杂的多步骤任务。
1.4 GPT(Generative Pre-trained Transformer,生成式预训练模型)
一种使用深度学习技术训练的自然语言处理模型。GPT模型的核心是Transformer架构。
1.5 Agent(智能代理)
能自主感知环境、决策并执行任务的AI程序,通常基于LLM驱动。规划(Planning):拆解目标为子任务(如AutoGPT)。工具调用(Tool Use):使用API、数据库、搜索引擎等(如ChatGPT Plugins)。记忆(Memory):短期(对话上下文)和长期(向量数据库)。
1.6 WorkFlow(工作流)
将复杂任务分解为有序步骤的自动化流程,可能跨多个模型或工具。
1.7 MCP(Model Context Protocol,模型上下文协议)
管理和调度AI模型的中间件系统,关注资源分配和模型生命周期
1.8 RAG(Retrieval-Augmented Generation,检索增强生成)
结合外部知识检索和LLM生成的混合方法,解决LLM知识静态问题(如回答最新新闻)。
流程:检索:从数据库/文档中查找相关片段(如Elasticsearch)。增强:将检索结果作为上下文输入LLM。生成:LLM输出最终答案。
2 关系
2.1 AI/LLM/GPT关系:
人工智能(AI)是一个大的领域,LLM(大语言模型)是其中的一个子领域,而GPT(生成式预训练模型)是LLM的一种具体实现,DeepSeek模型也是LLM的一种实现。LLM的目标是处理自然语言,而人工智能涵盖了机器视觉、机器学习等。
2.2 Agent/workFlow/MCP/RAG关系:
- Agent是“执行者”:自主调用工具完成任务,依赖MCP提供的接口和WorkFlow定义的步骤。
- MCP是“资源管家”:MCP提供了标准化的接口,使得Agent能够方便地调用各种外部工具和数据源。
- WorkFlow是“流程设计师”:编排Agent、RAG等组件的协作顺序。
- RAG是“知识扩展包”:为Agent或WorkFlow中的LLM提供实时知识支持。
MCP就像是一个工具箱,里面装满了各种工具(如爬虫、数据库查询等)。AI 模型可以通过 MCP 来调用这些工具,但具体如何使用这些工具来完成任务,则需要由 Agent 来决定。
关系:
扩展:
Token:文本生成模型以 Token 为基本单位来处理文本。Token 代表常见的字符序列。
例如,单个汉字\"夔\"可能会被分解为若干 Token 的组合,而像\"中国\"这样短且常见的短语则可能会使用单个 Token。大致来说,对于一段通常的中文文本,1 个 Token 大约相当于 1.5-2 个汉字。一个 token 可以是一个单词、一个词的一部分(如词干、词缀),或者是一个字符,具体取决于所用的分词算法和模型的设计。模型将输入文本分解成的一个个独立的片段,模型以这些片段为基础进行处理和生成。
大模型上下文:通常指的是模型在一次处理过程中能够理解和生成的文本的最大长度。这包括输入的提示(prompt)和模型生成的响应,如果超过这个长度的字符会被大模型丢弃。
模型参数:模型的参数以「B」即Billion十亿为单位,「70B」是70亿参数。这个参数大小不是训练数据的数量,而是模型中那些密密麻麻的参数,像模型的脑细胞,越多模型越聪明,更能理解数据中那些错综复杂的关系,处理任务时才能表现的更好。
单模态:只处理一种类型的数据,例如只处理文本(GPT3.5),只处理图像(图像识别模型)。
多模态:能否处理两种以上类型数据。既能理解图像内容,又能理解文本描述。