Agent

Agent接收一个请求后，通过反复调用大模型以及动作接口，将输入请求的目的进行实现。调用大模型的目的是让大模型告诉我们，针对当前的背景和目标或子目标，我们应该做什么事情或者执行什么具体动作，或者什么也做不了。具体的动作驱动外部的外部的任务，并将结果反馈回来作为后继执行的背景（上下文）。

![[whats-agent 2025-05-04 09.19.51.excalidraw]] ![[Pasted_image_20250504102833.png]]

利用模型可以给出解决问题的中间过程，逐步的达到目标。这非常类似人的思考过程。这也是Chain of Thought，思考链的名字由来。也就产生了如何优化模型的Prompt，让它的输出更适合解决问题的一门学问，这就是CoT优化。

Agent的执行过程像是一个流程，但是这个流程和AI工作流不同。首先目的不同，其次这个流程是动态的，根据要解决的问题不同，它实际执行出来的流程实例也不同。

大模型的使用本身就可以是流程化的。类似人类的审批流程，很多工作流系统能画出审批的流程，而某种常用的流程就类似现在的RAG。Agent类似灵活工作流，上个审批人可以决定下一个审批人是谁，这样整个审批流程就是一个动态的过程，具体的工作流程是无法提前画出来的。

![[whats-agent 2025-05-04 10.09.34.excalidraw]] ![[Pasted_image_20250504103126.png]]

受限当前LLM的能力，全自动运行的Agent的体验/性能/可靠性还需要进一步发展。同环境下小范围的协作Agent/RAG反而是当下受信任和有价值的。它平衡了信任/技术成熟度/体验等方面。

Agent的进化考虑这些方面：更多的输入和输出能力，支持输入的更准确查询和解析；对输入的安全考虑；更合适的模型；减低延时和提升体验。

Agent#