2301_80950638 个人主页

@2301_80950638

2301_80950638

2025-03-21 20:48:30 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

开发日志8-学习模块【智能规划-迭代】

对于Agent的思维导图绘图TOOL，其实现不再依赖于ClipMind API调用，而是再调用一次大模型，这个模型和大脑LLMu不是同一个。工具中模型暂时使用qwen-max。定义一个maptool_service.py，在其中写一个generate_mindmap函数，该函数调用大模型并根据严格的prompt生成json结构化数据，将这份结构化数据解析后作为函数返回。

#学习 #python #自然语言处理

开发日志6-RAG知识库构建step3-向量化

我们的用户群体是408备考生，需要匹配的是中文语义，所以不能用英文模型，这会造成对408 专业术语比如死锁、流水线、平衡二叉树、页式虚拟内存理解极差。其次，模型的上下文长度要需要 ≥ Chunk 大小，我的切块是450字符，如果模型输入长度必须小于450字符，会造成切块塞不进去，直接截断，语义丢失。，存在大量问题：同义不同词搜不到，比如，原文：进程饥饿现象；可以看到回答的内容明显受到了知识点作为

#机器学习 #人工智能

开发日志5-RAG知识库构建step2-切块

在之前清洗数据的时候我有意识地让数据比较规整，按照二级标题##、三级标题###等等划分，并且在用视觉模型VLM生成文本替换图片的时候用图表分析开始和结束标签包裹了内容，所以在这里按照层级划分基本能够满足知识点完整性的要求，图标的起始结束标签也可以作为切块的一句，保证一张图的描述不会从中间断开。，也就是块和块之间字符重叠为0，这主要是因为数据清洗后结构比较规整，加上切块逻辑的完善，一个chunk基本

#python #RAG

开发日志4-RAG知识库构建step1-爬取数据+清洗

它用OpenAI的Vision模型（比如LLaVA）自动生成图片描述，把图片内容变成“可检索的文本”，然后把所有文本块和图片描述都转成向量（embedding），统一放进向量数据库。之后用户在与模型的交互中，系统会将用户的搜索内容编码成向量，并查询向量数据库，比较查询向量和数据库向量之间的相似度，并返回最相似的几条数据。爬取的数据中除了纯文本知识外，还包括图片，对于图片在上一步爬取时我们是将其UR

#python #个人开发

到底了