Agent
Agent接收一个请求后,通过反复调用大模型以及动作接口,将输入请求的目的进行实现。调用大模型的目的是让大模型告诉我们,针对当前的背景和目标或子目标,我们应该做什么事情或者执行什么具体动作,或者什么也做不了。具体的动作驱动外部的外部的任务,并将结果反馈回来作为后继执行的背景(上下文)。
![[whats-agent 2025-05-04 09.19.51.excalidraw]]
![[Pasted_image_20250504102833.png]]
利用模型可以给出解决问题的中间过程,逐步的达到目标。这非常类似人的思考过程。这也是Chain of Thought,思考链的名字由来。也就产生了如何优化模型的Prompt,让它的输出更适合解决问题的一门学问,这就是CoT优化。
Agent的执行过程像是一个流程,但是这个流程和AI工作流不同。首先目的不同,其次这个流程是动态的,根据要解决的问题不同,它实际执行出来的流程实例也不同。
大模型的使用本身就可以是流程化的。类似人类的审批流程,很多工作流系统能画出审批的流程,而某种常用的流程就类似现在的RAG。Agent类似灵活工作流,上个审批人可以决定下一个审批人是谁,这样整个审批流程就是一个动态的过程,具体的工作流程是无法提前画出来的。
![[whats-agent 2025-05-04 10.09.34.excalidraw]]
![[Pasted_image_20250504103126.png]]
受限当前LLM的能力,全自动运行的Agent的体验/性能/可靠性还需要进一步发展。同环境下小范围的协作Agent/RAG反而是当下受信任和有价值的。它平衡了信任/技术成熟度/体验等方面。
Agent的进化考虑这些方面:更多的输入和输出能力,支持输入的更准确查询和解析;对输入的安全考虑;更合适的模型;减低延时和提升体验。