在上周智齿科技的一场AI Agent全员培训会上,产品经理正分享得起劲,线上忽然传来了老板徐懿的声音:“对不起我打断一下,关于RAG的部分,因为是我们非常重要的核心能力,所以我想再给大家补充一些信息。”
RAG (Retrieval-Augmented Generation,检索增强生成) 是一种将「信息检索」技术与「语言生成模型」相结合的方法,AI Agent智能客服的高效工作,除了有大语言模型的生成能力外,更得益于RAG对访客语言内容的理解与检索,是以生成式AI为底层技术的智能客户联络中心最关键核心的能力。以下是智齿科技CEO徐懿的分享原声录音,信息量巨大,建议边听录音,边跟随下方整理的文字内容一起理解。(文末还有核心干货点的整理)刚刚讲了,我们只需要上传文档,就可以随便问问题了,这个是我们大模型第一个强大的地方。但是用户会问,说你们大模型工作的原理是什么?以及我自己部署一套DeepSeek,是不是我就可以自己做一个这样的产品出来了?不需要用智齿或者其他家的产品了?那其实大模型机器人里,我们能用到的最精细化的活,全在你们现在右边能看到的这个「匹配过程详情」里面。这个用到的技术叫「RAG」,如果有用户问到说“你们的大模型技术,你们的难题或者价值在哪?”全在这个RAG上。
1. 什么是「RAG」
RAG叫「检索增强生成」,大概的原理是什么呢?我可以给大家讲一下。刚刚不是上传了一个Word文档吗,这个Word文档到我们的系统里,我们是怎么来处理它呢?首先呢,这么大的一个 word 文档,我们会按照一种算法的逻辑,像切香肠一样的,把它切成一段一段的,当我系统的文档特别多的时候呢,也许我会切1000片出来,把它存储到一个向量数据库里。第二呢,当用户问了一个问题之后,我们会自动的去做向量「相似度的匹配」,把这(一段一段的香肠)一段一段的片段呢,找可能最相似的5-10个,或者甚至更多可能15个、20个,我找出最相关的这些片段,我把它挑出来。这20片抽出来之后呢,结合我们写的提示词(就是我们给大模型下的指令),一起打个包,扔到一个大模型去,告诉大模型:“你需要按照我的规范,就是这个提示词,来回答问题。回答问题的范围在哪呢?就在我的这20片片段里面,你去找这个答案。找完答案以后,你把这个答案自动改写,并且生成成一个通顺的语言,回答给客户。”
首先有一个改写,原始语句“X1”,然后大模型把它先改写了,叫:“我的扫地机无法充电,型号是X1”,这就是用户问的一个问题。
第二步叫召回,就是把我们的片段切片了以后,我们找出了30段最相似的文档,然后把它拎出来了。你可以看到这里面有一个一个的片段,我们可以看到都有相似度,最相关的一个是第一个片段,大概相似度是83.09%。
找完召回以后,我们再做排序,就是把最相似的放在最上面,然后一步步把它排下来。有了这个排序之后,就把这样的排序跟角色提示词和备注,一起扔到我们的底层大模型里,最后大模型会给你一个答案,然后我们把这个答案呈现在我们的聊天页面上了。
第二,我们用户问一个问题,我们怎么改写它?怎么理解它?最后怎么把最相似的片段拎出来,这个是要花很多功夫的。不是随随便便找一个DeepSeek开源,它就能做好的,这个我们调优都花了很多个月很长时间。第三,扔到大模型之后,我们的提示词,就我们给它的指令准不准?第四,它生成的答案会不会产生答非所问、幻觉问题?产生了之后,我们怎么规避它?也用到了各种提示词工程,或者各种软件工程,最后才能呈现给客户一个比较好的答案。也就是说,只要大家测大模型,大家的差异主要来自于哪呢?就来自于这一套RAG的工程到底谁玩的更好,这个是大家比较有含金量,或者比较有技术含量的部分了。——把上传的学习材料做切割做成切片,存起来(切片量与内容信息量有关)。>>> 难点:切片能否切得准(能识别信息点)、切得全(单个信息点不会被切割;所有信息点都能覆盖到)。——当用户提问时,大模型理解意图后,自动改写成完整问题。>>> 难点:大模型是否能结合上下文,准确理解用户问题,并正确改写问题。
第三步:召回(检索)
——根据大模型改写后的提问,拎出向量相似度最高的多个片段。
>>> 难点:能否理解用户提问;能否准确判断每一个片段与提问的相似度,并排序。——结合调用的片段及提示词,快速生成通顺的内容回复给用户。
>>> 难点:大模型的生成能力是否强大;能否有效避免幻觉的产生。
作为第一批拥抱「生成式AI」技术的客户联络中心,智齿科技正在高速引领整个行业向「智能体」时代发展。我们正在帮助所有仍在使用传统客服机器人的老客户们完成更新迭代,也期待更多仍在选型中的朋友选择智齿科技AI Agent,先人一步部署新一代智能化客服。