zytskr 个人主页

@zytskr

zytskr

2026-03-28 16:07:31 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

OpenCompass模型评估

使用gen类型的数据集（如ceval_gen），配置metric=gen 并指定。ROUGE/LCS：用于文本生成任务的相似度评估，需安装rouge==1 .0.1依赖，并在数据配置中设置metric=rouge。条件对数概率（CLP）：结合上下文计算答案的条件概率，适用于复杂推理任务，需在模型配置中启用use_logprob=True。知识类：C-Eval（中文考试题）、CMMLU（多语言知识问

项目情绪对话模型（2）

我采用的是以 LMDeploy 现有对话模板，自定义一个python对话模板类，注册成功后直接用即可。易于使用：Streamlit 的设计哲学是简洁性，它允许用户通过简单的 Python 脚本快速构建 Web 应用。强大的交互性：Streamlit 提供了多种交互组件，如按钮、滑块、文本输入等，使得创建交互式应用变得简。数据可视化：支持多种图表库，如 Matplotlib、Altair 等，方便进

剪枝简介剪枝方式。

剪枝简介剪枝方式。

LangChain 随着版本迭代可用性有明显提升使用 LangChain 要注意维护自己的 Prompt，尽量 Prompt 与代码逻辑解依赖它的内置基础工具，建议充分测试效果后再决定是否使用。

LLama Factory与Xtuner分布式微调大模型

大模型分布式训练的基本概念大模型分布式训练的基本概念1.1 为什么需要分布式训练？模型规模爆炸：现代大模型（如GPT-3、LLaMA等）参数量达千亿级别，单卡GPU无法存储完整模型。计算资源需求：训练大模型需要海量计算（如GPT-3需数万GPU小时），分布式训练可加速训练过程。内存瓶颈：单卡显存不足以容纳大模型参数、梯度及优化器状态。1.2 分布式训练的核心技术数据并行（Data Parallel

#分布式

中医临床智能诊疗助手

大语言模型（LLM）是概率生成系统知识时效性：模型知识截止于训练数据时间点（联网搜索推理局限性：本质是概率预测而非逻辑运算，复杂数学推理易出错（DeepSeek-R1的架构有所不同专业领域盲区：缺乏垂直领域知识幻觉现象：可能生成看似合理但实际错误的内容RAG（Retrieval Augmented Generation）顾名思义，通过检索的方法来增强生成模型的能力。LlamaIndex中提供的pr

#机器学习 #人工智能

第4章 LlamaIndex知识管理与信息检索

官网标题：LlamaIndex 是一个为开发「知识增强」的大语言模型应用的框架（也就是 SDK）。知识增强，泛指任何在私有或特定领域数据基础上应用大语言模型的情况。例如：Question-Answering Chatbots (也就是 RAG)Document Understanding and Extraction （文档理解与信息抽取）Autonomous Agents that can pe

#python #人工智能 #linux

vLLM自定义对话模板

对话模板（Chat Template）本质是把多轮对话（角色+内容）按模型训练时固定的格式拼成单一文本序列，并插入对应的特殊标记（如<|im_end|>等）。模型本身只做“下一个 token 预测”，并不天然理解“哪句是用户/助手/系统”，模板就是训练/推理对齐的“协议”。不同模型家族（Llama / Qwen / ChatML 等）模板不同；格式不对会直接导致生成质量下降甚至“答非所问”。在 H

#人工智能

第3章 RAG高级技术与实践

Qwen-Agent是一个开发框架。充分利用基于通义千问模型（Qwen）的指令遵循、工具使用、规划、记忆能力。Qwen-Agent支持的模型形式：DashScope服务提供的Qwen模型服务支持通过OpenAI API方式接入开源的Qwen模型服务Ragas (Retrieval-Augmented Generation Assessment) 它是一个框架，它可以帮助我们来快速评估RAG系统的性

#人工智能 #RAG

共 22 条

请选择