2986 字
6 分钟
AI 术语从易到难

本文整理 AI 领域常见术语,按理解难度分三级递进。每条仅给出定义与必要说明,不展开使用方法。

初级#

AI(人工智能):让机器具备类人认知与决策能力的技术总称,涵盖机器学习、计算机视觉、自然语言处理等多个分支。它是一类研究方向的统称。

LLM(大语言模型):Large Language Model,基于 Transformer 架构、在海量文本上训练的大型语言模型。输入一段文字,输出续写或变换后的文字。ChatGPT、Claude、DeepSeek 等产品的核心均为 LLM。

ChatGPT:OpenAI 于 2022 年 11 月发布的对话产品,是这一轮大模型热潮的起点。底层模型为 GPT-5 系列,支持文本对话、代码生成、文档处理等任务。

Claude:Anthropic 公司推出的对话模型产品,最新版本为 Claude Sonnet 4.8,强调安全对齐与长文本理解能力,在代码生成与文档分析任务上表现突出。

Gemini:Google 推出的多模态对话模型,最新版本为 Gemini 3.5-flash,前身为 Bard。支持文本、图像、音频、视频的统一处理,已接入 Google 搜索、相册、Android 等产品线。

DeepSeek:中国开源大模型团队,隶属于幻方量化。2026 年 4 月发布并开源的 DeepSeek-V4 以较低训练成本达到接近顶级闭源模型的效果,模型权重完全开源。

智谱:清华系 AI 公司,2026 年 6 月发布并开源的 GLM-5.2 主攻长程任务能力,支持 1M 无损上下文,在编程与长文档处理任务上表现突出。

Kimi:月之暗面公司的对话产品,2026 年 6 月发布并开源的 Kimi K2.7 Code 为 1.1 万亿参数、256K 上下文的编程特化模型,在长上下文编程任务上表现突出。

Xiaomi MiMo:小米自研的开源大模型系列,2026 年 4 月发布 MiMo-V2.5 系列,包含 MiMo-V2.5、MiMo-V2.5-Pro 等多款型号。Pro 版本通过 UltraSpeed 模式支持万亿参数模型推理,针对推理任务优化。

通义千问:阿里推出的大模型产品,开源版本为 Qwen3.7 系列,支持多模态,在中文任务与代码生成上表现较好。

豆包:字节跳动的对话产品,集成图像生成与语音合成能力,在国内普通用户中装机量较大。

Prompt(提示词):用户输入给模型的指令文本,决定模型本次任务的目标与约束。同一模型在不同 Prompt 下表现差异显著。

上下文:模型在当前对话中可引用的全部输入与输出内容。上下文存在长度上限,超出后早期内容会被丢弃。

记忆:模型跨对话保留用户信息与偏好的能力。默认情况下每次新对话相互独立,开启记忆后模型可调用历史交互内容。

Token:模型处理文本的最小单位,大致对应一个字或词。中文一个汉字通常占用一到两个 Token,英文一个单词约一个 Token。模型按 Token 计算上下文长度与计费。

文生文:输入文本、输出文本的任务模式,包括写作、翻译、摘要、代码生成等,是 LLM 最基础的应用形态。

文生图:输入文本描述、输出图像的任务模式。底层为扩散模型而非 LLM,代表产品包括 Midjourney、Stable Diffusion、DALL-E、即梦。

文生视频:输入文本描述、输出视频的任务模式。技术难度高于文生图,需保证帧间一致性,代表产品有 Sora 2、Veo 3.1、可灵 3.0、即梦 Seedance 2.0。

语音克隆:基于少量样本录音复制特定人声的技术,可生成任意文本的合成语音。技术成熟度较高,存在被滥用于诈骗的风险。

幻觉:模型生成看似合理但与事实不符内容的现象。根源在于模型本质为概率生成而非事实检索,无法区分”流畅”与”正确”。

开源模型:模型权重与配套代码公开发布,允许下载、研究、修改与再分发。代表项目有 LLaMA、DeepSeek、Qwen、GLM。

闭源模型:模型仅通过厂商 API 或产品提供服务,权重不公开。代表产品有 ChatGPT、Claude、Gemini。

中级#

提示词工程(Prompt Engineering):研究如何构造 Prompt 以提升模型表现的方法论。常见技巧包括角色设定、示例引导、分步指示、输出格式约束等。模型能力提升后,部分技巧的边际收益在下降。

思维链(CoT):Chain of Thought,引导模型在给出答案前先输出推理步骤的方法。在数学与逻辑任务上能显著降低错误率,代价是消耗更多 Token。

温度:控制模型输出随机性的参数,取值范围通常为 0 到 1 或 0 到 2。数值越低输出越确定保守,数值越高越具多样性。

Top-p:核采样参数,限制模型从概率累积前 p 的候选词中采样。与温度同为采样策略参数,通常调整其一即可。

模型训练:使用大规模文本数据对模型参数进行优化的过程,涉及海量算力与数月时间,成本可达数百万至数千万元。训练完成得到模型权重。

蒸馏:用大模型输出训练小模型的方法,使小模型在部分任务上接近大模型效果,同时保持较低部署成本。能力上限受限于教师模型。

RAG:Retrieval-Augmented Generation,检索增强生成。模型在生成回答前先检索外部知识库,将检索结果注入上下文。可解决事实时效性与私有数据接入问题。

知识库:为 RAG 提供检索来源的结构化文档集合,可为企业文档、专业资料或个人笔记。知识库质量直接影响检索效果与回答准确性。

语义检索:基于语义相似度而非关键词匹配的检索方法。将文本表示为向量后比较向量距离,可命中意思相近但措辞不同的内容。

Copilot:嵌入特定软件的 AI 助手,能感知所在软件上下文并直接操作软件功能。代表产品有 GitHub Copilot、Microsoft 365 Copilot。

插件(Plugin):为模型扩展特定外部能力的模块,如查询股票、订票等。该概念逐步被 MCP 与 Skill 体系取代。

指令:描述模型需执行任务的内容,强调任务本身而非措辞技巧。模型会将指令拆解为内部步骤执行。

Function Calling:模型调用外部函数的能力。模型识别任务所需函数与参数,调用后获得返回结果并据此生成回答,是从对话工具向智能体演进的关键能力。

多模态:模型同时处理多种数据类型的能力,如文本、图像、音频、视频。GPT-5、Gemini 3.5-flash、Claude Sonnet 4.8 均为多模态模型。

AGI:Artificial General Intelligence,通用人工智能,指能在多数智力任务上达到或超越人类水平的 AI。当前所有模型均属窄 AI,AGI 是否可行、何时实现,业界尚无共识。

强 AI:具备自我意识与主观体验的 AI,属哲学概念,目前并不存在。强 AI 必然是 AGI,但 AGI 未必是强 AI。

弱 AI:仅在行为结果上模拟人类智能、不具备真实理解能力的 AI。当前所有实际运行的 AI 系统均为弱 AI。

幻觉:模型生成与事实不符内容的现象,根源在于生成机制本身。降低幻觉的常用手段包括 RAG 检索约束、让模型标注不确定性、限制回答范围。

端侧模型:部署在用户本地设备上的小规模模型。优点为隐私保护、离线可用、低延迟;缺点为参数受限,能力低于云端模型。

云端模型:部署在厂商服务器、通过网络调用的模型。参数规模大、能力强,但数据需上传、依赖网络、按调用量计费。

Embedding:将文本或其他模态数据映射为高维向量的过程。语义相近的内容对应向量距离较近,是语义检索、RAG、推荐系统的基础。

高级#

Agent:能自主规划任务步骤、调用工具、完成多步目标的 AI 系统。区别于问答式对话工具,Agent 具备目标分解、工具选择、结果反馈循环的能力。

子 Agent:由父 Agent 派生、负责特定子任务的 Agent。父 Agent 将复杂任务分解后,分派子 Agent 并行或顺序执行,最后汇总结果。

多 Agent:多个 Agent 协作完成任务的架构。各 Agent 分工不同,可对话、交接、互审。代表框架有 AutoGen、CrewAI、MetaGPT。

自主规划:Agent 将高层目标分解为有序可执行步骤的能力。规划质量直接决定 Agent 能否完成复杂任务,是其区别于普通对话工具的核心能力。

ReAct:Reasoning and Acting,模型交替进行推理与行动的执行模式。每一步包含思考、行动、观察三个阶段,是 Agent 的基础执行范式。

Tool:Agent 可调用的外部能力,如搜索引擎、计算器、API 接口。Agent 自身仅具备推理能力,具体操作依赖 Tool 完成。

MCP:Model Context Protocol,模型上下文协议,由 Anthropic 于 2024 年 11 月提出的开放标准,定义 AI 与外部工具之间的统一通信方式。任何符合标准的工具可被任意支持 MCP 的 AI 调用,旨在替代此前逐一适配的集成方式。

Skill:封装特定任务流程的可复用模块,AI 在识别到相关任务时自动加载。由 Anthropic 于 2025 年 10 月提出 Agent Skill 概念,12 月发布开放标准。其本质为说明文档配合可选脚本,可降低长 Prompt 对上下文的占用。

Workflow:将多个 AI 步骤编排为固定流程的框架。流程预先定义、不随运行调整,适合重复性任务。与 Agent 的区别在于流程固定性与临场规划性。

Transformer:2017 年由 Google 提出的神经网络架构,基于自注意力机制。GPT、Claude、Gemini、LLaMA、DeepSeek 等模型均基于该架构或其变体。

注意力:Transformer 中判断序列内各元素关联权重的机制。使模型能识别”哪些词与当前词关系更密切”,是处理长距离依赖的关键。

Fine-tuning:在已训练模型基础上使用领域数据进行继续训练,使其在特定任务上表现提升。与 RAG 为不同路线,RAG 是检索增强,Fine-tuning 是参数更新。

RLHF:Reinforcement Learning from Human Feedback,基于人类反馈的强化学习。通过人类对模型输出的偏好标注训练奖励模型,再以此优化策略模型,使其输出更符合人类偏好。

SFT:Supervised Fine-Tuning,监督微调,使用”输入-输出”成对数据训练模型学习特定任务模式。通常作为 RLHF 的前置阶段。

Few-shot:在 Prompt 中提供少量示例以引导模型完成任务的方式。无需修改模型参数,但消耗上下文 Token,效果依赖示例质量。

Zero-shot:不提供任何示例直接让模型完成任务的方式。模型能力较强时 Zero-shot 效果已可接受,无需额外示例。

本地部署:将开源模型下载至本地设备或私有服务器运行的部署方式。具备隐私保护、长期成本可控、离线可用等优势,需要自行管理硬件与环境。

AI 术语从易到难
作者
Blue
发布于
2026-06-25
许可协议
CC BY-NC-SA 4.0