沐自礼个人主页

@nanjifengzi

沐自礼

2022-12-15 14:35:02 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Docker + Ascend NPU 环境初始化踩坑总结（ENTRYPOINT / bash -l / LD_LIBRARY_PATH）

Docker 只负责执行入口，真正决定环境是否正确的是 shell 初始化方式，而 Ascend NPU 强依赖 profile/basrc 中的环境变量配置，因此 login shell 与 non-login shell 的差异会直接导致运行结果完全不同。

#docker #bash #容器

（三）DeepSeek v2 原理

Zhao等人,2023),将其KV 缓存中每个元素进一步平均压缩至6比特。MHA需要保存N个头的K,V缓存，效果好；MLA则是将 Key-Value (KV) 缓存压缩为潜在向量，使用时进行映射，效果好。采用DeepSeekMoE架构(Dai等人,2024),该架构通过细粒度专家分割和共享专家隔离,为专家专业化提供了更高潜力。为了减少K-V缓存，采用低秩键值联合压缩（对键与值进行低秩联合压缩来减

#语言模型 #人工智能 #深度学习

（四）Deepseek v3 原理

性能更强：因为它取消了训练目标中的大额辅助损失，模型可以更专注于学习语言规律。更灵活的专业化（Expert Specialization）：实验证明，这种策略允许专家在不同领域（如数学、代码）进行更深度的专业化，而不是被迫在每个序列内都保持死板的平衡。计算高效：它确保了专家并行的负载均衡，避免了计算资源的浪费。

#python #算法 #开发语言

Text2SQL(DIN-SQL, MAC-SQL,DAIL-SQL,RSL-SQL,CHESS,LinkAlign,DeepEye,Agentar-Scale-SQL,AskData+GPT-4o)

nl2sql, text2sql，大模型

#sql #人工智能

（一）DeepSeek V1

论文标题：DeepSeek LLM: Scaling Open-Source Language Models with Longtermism。

DeepSeekMoE 原理

ubuntu下如何　将文件或者文件夹传到github上．

https://www.jianshu.com/p/c70ca3a02087（第一步）１，ｓsh检查２，生成秘钥，打开id_rsa.pub，查看．３，github上设置相关的ssh　远程的链接．（第二步）１，到达想上传的文件夹下．　初始化．　git init２，git add .　然后设置　注释文件　　git commit -m "注释信息"３，github 上　新建相应的仓库

共 12 条

请选择