Dify 之外的新尝试:Coze Studio 知识库实战指南:部署、解析、接入全流程,建议收藏!!
coze studio 的向量还在不断地完善过程中,预估这周ollama会上,自定义http需要按规范实现知识库目前不支持外挂,这个在企业中是一个很大的问题,后续开源社区肯定会支持,迟早的问题整体检索效果相对来说比较差,这个可能是我使用的问题
前言
如何添加多个LLM

在backend/conf/model目录下,多复制几个yaml文件,在template中有相应的模板。
从模板上的内容来看,内部原来是一个结构化的配置,开源以后,精简了,直接剥离成了yaml文件,根据数据结构反向开发定制可以实现在线灵活配置。
我复制了两份,在我的智能体中能看到两个模型,如下图:

如何关闭思考过程
在模型配置文件中有个配置meta.conn_config.enable_thinking赋值为false即可。

重启coze-server
docker compose --profile '*' up -d --force-recreate --no-deps coze-server
效果如下:

还是有些小瑕疵的
知识库相关配置
coze studio的知识库,依赖:存储、向量数据库,向量模型,向量模型配置和LLM不太一样。向量模型在.env中配置。
存储方式配置
向量化需要上传文件到服务中,所以向量模型配置之前,需要先配置上传方式(coze studio 叫上组件)。在coze studio中,上传组件的配置就是上传方式的配置,支持:
- • minio: 这个是开源默认的
- • 火山引擎对象存储TOS
- • 火山引擎ImageX
需要注意的是, 需要将
MINIO_ENDPOINT中的配置中的localhost:9000不需要动,内部做了一些特殊处理,改成容器名称也是可以的
# Storage component 
export STORAGE_TYPE="minio" 
export STORAGE_BUCKET="opencoze"
# MiniIO
export MINIO_ROOT_USER=minioadmin
export MINIO_ROOT_PASSWORD=minioadmin123
export MINIO_DEFAULT_BUCKETS=milvus
export MINIO_AK=$MINIO_ROOT_USER
export MINIO_SK=$MINIO_ROOT_PASSWORD
export MINIO_ENDPOINT="localhost:9000"
export MINIO_API_HOST="http://${MINIO_ENDPOINT}"
OCR 配置
如果上传的文件是扫描件,coze studio支持通过ocr将扫描件解析,需要开通火山引擎的OCR产品服务,这个就不做讲解了。
向量存储配置
向量化存储目前支持两种:
- • milvus
- • vikingdb: 火山引擎的服务
我使用本地的milvus,和minio一样,不需要改动,改成coze-milvus:19530 也可以
export VECTOR_STORE_TYPE="milvus"
# milvus vector store
export MILVUS_ADDR="coze-milvus:19530"
 
向量化模型配置
本来想试用本地ollama做向量模型的,折腾了1个多小时,没有成功,一直报
panic: InitializeInfra failed, err=Init - initPrimaryServices failed, err: init vector store failed, err=init milvus embedding failed, err=init knowledge embedding failed, type not configured
看了下源码

压根没有实现,然后在github上找了issue


官方说会在1~2天把ollama补上。先试用在线的
创建火山引擎向量模型接入点

配置
在.env中配置
export EMBEDDING_TYPE="ark"
export ARK_EMBEDDING_MODEL="自己的接入点"
export ARK_EMBEDDING_AK="自己的api key"
export ARK_EMBEDDING_DIMS="2048"
export ARK_EMBEDDING_BASE_URL="https://ark.cn-beijing.volces.com/api/v3"
重启coze-server
docker compose --profile '*' up -d --force-recreate --no-deps coze-server
知识库使用
创建知识库

- 
  • 点击资源库右上角资源中的知识库  
- 
  • 知识库有3类:文本格式、表格、照片 
- 
  • 文本格式,可以本地文档,可以自定义文档 
- 
  • 我以文本格式为示例进行创建  点击上传,或者拖入上传即可。 
pdf 解析

点击下一步

- 
  • 在coze studio 中,文件解析策略有两种 
- 
  - • 精准解析:精准解析需要用到OCR来处理扫描件
- • 快速解析:适用于存文本
 
- • 精准解析:精准解析需要用到
- 
  • 分段策略 
- 
  - 
    • 自动分段与清洗:傻瓜式操作 
- 
    • 自定义分段:分段标识都用了下拉选,降低了普通用户的使用成本,也可以自定义分隔符。  
 
- 
    
- 
  • 分段可以进行预览,但是不能跟随对比,  普通的向量模型,没法识别表格,我切换下视觉向量模型试试。  
重启下coze-server

- 
  • 可以看到表格式识别出来了,但是图片还是不显示(别急,后面可以看到)  点击确认。  可以看到图片已经提取了出来。然后一直 0%,去查下issue  目前还不支持图像向量化模型。,还得切回到文本模型。 

切回以后还能识别…
markdown解析
我新增了一个redis的知识库,上传了两个md文件进行解析。

这里一定要把扫描件给取消了,要不然会一直卡住,它是根据你的设置去处理的,而不是根据你的文档处理。

- • 可以看到md里的图片都被抓到了,看链接已经存入minio里了
- • 向量化以后的结果,分段重叠了10%,所以看到很明显的衔接。
工作流中使用

基本上延续了coze的能力。

画了一个简单的知识库工作流。

- 
  • 知识库检索,支持添加多个知识库 
- 
  • 搜索策略:支持、混合、语义、全文 
- 
  • 可以设置召回数量、最小匹配度 
- 
  • 可以勾选是否查询改写:查询改写在某些场景下很关键,可以极大的提升效率  很简单的提示词  查到内容总是感觉差点意思。效果并不理想 
在智能体中使用

- • 1需要在提示词中调用recallKnowledge
- • 2可以添加多个知识库
总结
- coze studio 的向量还在不断地完善过程中,预估这周ollama会上,自定义http需要按规范实现
- 知识库目前不支持外挂,这个在企业中是一个很大的问题,后续开源社区肯定会支持,迟早的问题
- 整体检索效果相对来说比较差,这个可能是我使用的问题
最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
  最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
 
AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

  光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐
 
 

所有评论(0)