版本：3.7.0

小睿助理部署文档

先决条件

需要客户提供调用LLM的接口，即客户可以在自己的环境中部署自己的LLM，也可以使用云厂商（eg: 火山引擎，百度云平台，阿里云平台）的LLM，只要提供调用LLM的接口url, key等即可。这些接口需要按照国内外通用LLM的openai规范。如下是火山引擎的调用DeepSeek-R1接口url和key等示例。
```
model.platform=volcengine
model.name=deepseek-r1-250528
model.api.key=abc123(use your own key)
model.base.url=https://ark.cn-beijing.volces.com/api/v3
```
需要客户提供嵌入模型和ReRanker模型的接口，嵌入模型是将文本转换为嵌入向量所必须的模型，同时ReRanker模型是用于检索知识库时对检索到的结果进行排序，可以提高检索知识库的准确性。同样，这两个模型的接口，客户可以在自己环境中部署这两个模型，也可以用云厂商（eg: 火山引擎，百度云平台，阿里云平台）的模型接口。我们内部使用的嵌入模型是Qwen3-Embedding-4B，ReRanker模型是：bge-reranker-v2-m3，客户可以选用自己的嵌入模型和ReRanker模型，由于模型不同，可能会影响最终准确率。
需要部署两个服务：chat-service 服务和 milvus-service服务，这两个服务都支持Docker环境和K8S部署，所需要的资源：chat-service + milvus-service，一共2台8C16G，milvus-service部署时仅仅部署一个节点，尽量选用SSD硬盘，不然影响查询速率。

部署步骤

chat-service 服务和 milvus-service服务的部署与公司其他组件的部署方式一样，可以用Ansible直接部署。
Ansible部署步骤：

准备Ansible环境，获取Ansible包：联系架构部或从资源下载平台获取包含chat-service组件和milvus-service组件的Ansible包（例如：one_chat_service_X.X.X.X_increment.tar.gz）。
上传并解压：eg: tar -xvf one_chat_service_3.3.1.0_increment.tar.gz -C /data/ansible
修改部署参数：修改hosts.ini里面的内容，指定部署chat-service和milvus-service的机器IP
修改all.yml文件：在/data/ansible/gaea/group_vars/all.yml中设置chat_service的版本号（需与DevOps平台打包的版本一致），有时该版本号已经确定，则无需修改。
执行部署命令：进入Ansible的bin目录并运行安装命令：sh br.sh --install -t chat_service -S -vvv
验证部署后的服务状态：docker ps -a | grep chat_service # 确认容器正常运行。

具体的步骤可能因chat-service版本不同而有所调整，部署前需要和AI团队确认好版本和具体步骤。
由于LLM根因分析依赖调用链数据，日志数据，告警数据等，故而对APM, RUM, Log，Alert等组件有依赖，不同的chat-service版本所依赖的其他组件版本不同，需要和AI团队确认好依赖的其他组件情况。
最好先部署milvus-service服务，然后部署chat-service服务。
部署后检查服务是否正常：

部署milvus-service后，通过docker exec -it br-milvus-service bash进入容器内部，使用bash milvus_service.sh 6 出现的各进程都是RUNNING则表示正常，如下：
部署chat-service后，通过docker exec -it br-chat-service bash进入容器内部，使用bash chat_service.sh 6 出现的各进程都是RUNNING则表示正常。（与上图类似）

部署后配置LLM参数

部署了chat-service和milvus-service后，需要首先配置LLM，嵌入模型，ReRanker模型的接口地址，配置方法：在nacos的chat-service的私有配置（默认：CHAT_SERVICE，可能有改动）的内容：

修改LLM接口参数：

model.platform=volcengine
model.name=deepseek-r1-250528
model.api.key=abc123(use your own key)
model.base.url=https://ark.cn-beijing.volces.com/api/v3

修改副LLM接口参数（副LLM通常是比较快速的其他模型，如果没有，可以设置为和上面LLM一样）：

# 副LLM大模型的配置
sub.model.platform=volcengine
sub.model.name=doubao-seed-1-6-flash
sub.model.api.key=(use your own key)
sub.model.base.url=https://ark.cn-beijing.volces.com/api/v3 

# third LLM大模型的配置，如果没有，可以配置为和上面LLM一样
third.model.platform=volcengine
third.model.name=doubao-seed-1-6-flash
third.model.api.key=(use your own key)
third.model.base.url=https://ark.cn-beijing.volces.com/api/v3 

修改嵌入模型和ReRanker模型的接口地址：

# 嵌入模型对应的配置
embedding.model.name=br-embedding(use your own name)
embedding.model.key=(use your own key)
embedding.model.url=http://ip:port/v1(use your own url)

# rerank模型对应的配置
rerank.model.name=br-rerank(use your own name)
rerank.model.key=(use your own key)
rerank.model.url=http://ip:port(use your own url)

配置完成后，需要使用docker restart br-chat-service来重启服务。

先决条件​

部署步骤​

部署后配置LLM参数​

先决条件

部署步骤

部署后配置LLM参数