
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在大模型应用开发中,从零构建一个具备文件操作、子 Agent 协作、上下文管理、容错修复等全维度能力的智能体(Agent),往往需要大量的底层封装和踩坑。而 DeepAgents 框架正是为解决这一痛点而生 —— 它基于 LangChain/LangGraph 生态,通过高度封装的中间件体系,让开发者一行代码就能创建出具备生产级能力的 “深度 Agent”,无需重复造轮子。

DeepSeek作为当前领先的开源大模型体系,其V3和R1系列模型凭借强大的自然语言处理能力和灵活的架构设计,已成为企业智能化转型的重要基础设施。

Rerank(重排序)是提升信息检索与生成系统精度的核心技术,尤其在RAG(检索增强生成)和大模型推理流程中起关键作用。简单来说,就是给搜索结果“二次打分”,把最相关的内容排到最前面。它像是一个“智能筛选器”,解决信息过载的问题,尤其在AI问答、搜索引擎等场景中至关重要。

本博客将全面探讨构建系统的需求分析框架到深入解析华为昇腾算力的支持能力,再到提供详尽的显卡信息对比和大模型微调所需的显存资源指南。特别针对Qwen系列与DeepSeek蒸馏模型,将详细介绍其微调显存需求、优化策略及硬件选型建议。

大模型微调,简单来说,就是拿一个已经训练好的“基础(Base)大模型”(比如BERT、Qwen、deepseek这些大家伙),然后根据你的具体任务,再稍微训练一下,让它更懂你要做的事情。你可以把它想象成一个已经学了很多知识的学生,现在你只需要再教它一些特定的技能,它就能在你需要的任务上表现得更好。例子:假设你有一个已经学会了各种语言知识的AI模型(比如BERT),现在你想让它专门做“情感分析”,就

在当今快速发展的科技世界里,人工智能(AI)已经成为推动社会进步和创新的关键力量。从智能家居到自动驾驶汽车,再到复杂的数据分析与预测模型,AI的应用无处不在,并不断拓展着人类认知和技术实现的边界。而在众多引领这场智能革命的企业和研究机构中,DeepSeek以其独特的核心技术和前瞻性的研究方向脱颖而出,成为行业内外关注的焦点。本文旨在为读者提供一个深入了解DeepSeek的机会。DeepSeek是一

本博客将全面探讨构建系统的需求分析框架到深入解析华为昇腾算力的支持能力,再到提供详尽的显卡信息对比和大模型微调所需的显存资源指南。特别针对Qwen系列与DeepSeek蒸馏模型,将详细介绍其微调显存需求、优化策略及硬件选型建议。

语音识别特征提取是语音处理中的一个重要环节,其主要任务是将连续的时域语音信号转换为连续的特征向量,以便于后续的语音识别和语音处理任务。在特征提取阶段,这些特征向量能够捕捉到语音信号中的关键信息,如音调、音色和音节等。时域特征提取:包括自相关函数、方差、峰值等。频域特征提取:如傅里叶变换、快速傅里叶变换、波束傅里叶变换等。时频域特征提取:包括短时傅里叶变换、波形分解、时频图等。高级特征提取:涉及语言

在现有的大模型训练方案中,通常会采用混合精度训练,模型参数和模型梯度通常以 16 位浮点数存储,而 Adam 或 AdamW优化器则需要额外存储 32 位浮点数的模型参数、动量参数以及动量二阶矩参数。大语言模型的参数量取决于多个关键因素,包括词表大小(𝑉)、解码器层数(𝐿)、中间状态维度(𝐻)、以及前馈网络层的中间维度(𝐻′)。假设模型的参数量为 𝑃,训练中配备有 𝐺 张 GPU,训练

此博客是基于华为云中的DFCNN_Transformer的教程进行的学习和实践。本文将介绍一个结合了深度全卷积网络(DFCNN)和Transformer的模型——DFCNN-Transformer,旨在提高中文语音识别的准确性和效率。注意该代码主要改进之处为将原先的TensorFlow-1.13.1版本的代码改进为TensorFlow-2.0+版本。以方便大家进行代码的实践。首先加载需要的pyth








