[{"content":"笔者是一名刚入职的 AGI 工程师，会在这里分享自己的理解与项目实践，希望和大家一起学习、进步，共同探索真正的 AI Agent。\n什么是 Agent？ Agent，即智能体，是在 LLM（大语言模型）基础上构建的更高级系统。\n普通的 LLM 应用只是单次调用 API 进行对话——知识面极广，但每次对话都是\u0026quot;失忆\u0026quot;状态，不会记住上一轮说了什么。\n一个完整的 Agent 通常由三大核心能力构成：\n用户输入 │ ▼ ┌─────────────────────────────────┐ │ Agent │ │ │ │ 记忆系统 → 规划推理 → 工具调用 │ │ ↑ │ │ │ └────────────────────┘ │ └─────────────────────────────────┘ │ ▼ 输出结果 / 执行动作 核心能力一：记忆系统 这就引出了 Agent 的记忆系统。\n目前 LLM 厂商主要面向通用问答场景，不会为个人定制对话管理方式，所以现阶段的主流解决方案是：把需要记住的内容手动拼接进 Prompt，或者本地部署 LLM 自行管理。\n关于如何设计记忆系统，后续我会专门介绍笔者正在开发的一个开源记忆系统。有了记忆系统，就可以和 AI 进行真正的多轮对话了。\n核心能力二：规划与推理（Planning） 有了记忆还不够——面对复杂任务，Agent 需要能自己拆解问题、制定步骤、逐步执行。\n这就是规划能力（Planning）的作用。比如\u0026quot;帮我整理本周所有未回复的邮件并分优先级\u0026quot;，这个任务不是一步能完成的，Agent 需要：\n判断要拆成哪几个子任务 决定每一步调用什么工具 根据中间结果动态调整后续步骤 目前主流的规划方案有 ReAct（推理+行动交替）、Chain-of-Thought（思维链）等，后续会专门介绍。\n核心能力三：工具调用（Tool Calling） 但多轮对话之后会发现，光是\u0026quot;聊天\u0026quot;还远远不够，AI 需要能做事。\n这时候就需要 Tool Calling（工具调用）：把工具的描述传给 LLM，让它自己判断该用哪个工具、传什么参数，再由本地代码去实际执行。\n不同 LLM 在 Tool Calling 能力上差异显著，后续会出一期横向对比。\n一个具体例子：Agent 是怎么工作的？ 假设你对 Agent 说：\u0026ldquo;帮我查一下明天北京到上海的高铁，选最早一班买票。\u0026rdquo;\n一个具备三大能力的 Agent 会这样处理：\n步骤 Agent 在做什么 1. 理解意图 LLM 解析出：查票 + 筛选最早 + 购买 2. 规划拆解 拆成三个子任务：查询 → 筛选 → 下单 3. 调用工具 调用\u0026quot;查票 API\u0026quot;，获取班次列表 4. 推理决策 从结果中选出最早班次 5. 再次调用工具 调用\u0026quot;购票 API\u0026quot;，传入车次和乘客信息 6. 记住上下文 把整个过程存入记忆，下次可以追问\u0026quot;上次买的是几点的？\u0026quot; 这就是 Agent 和普通聊天机器人的本质区别：不只是说，还能做。\n后续计划 这个系列会持续更新，预计涵盖：\n记忆系统实战：笔者开源记忆系统的设计与代码解析 规划能力深入：ReAct、CoT、Tree-of-Thought 横向对比 Tool Calling 对比：主流 LLM（GPT-4o、Claude、Gemini、Qwen）工具调用能力实测 从零搭建一个 Agent：完整项目实战 欢迎关注，有问题或想法也欢迎在评论区交流。\n","permalink":"http://www.plugin.xin/posts/ai-agent-intro/","summary":"什么是 AI Agent？它和普通的聊天机器人有什么不同？这篇文章带你从零开始认识 Agent。","title":"AI时代第一课：认识Agent"}]