logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于Ktransformer部署DeepSeek-R1模型

我这边离线机器跑起来居然没有报错,成功后可以访问10012端口看看,一般会显示detail Not Found,访问后缀加/web/index.html即可进入聊天页面。其中gguf_path为gguf文件路径,需要有config配置文件在同一路径;记录一次在离线机器上使用kt框架部署Deepseek:671B模型过程。model_path为模型路径,不知道为什么没有后会报错(再看看;cpu_in

文章图片
#java#spring cloud#开发语言
大模型从基础到入门——基础知识

本文主要记录入门大模型学习的相关知识,以期为后续工作学习提供帮助。(除了我自己截图外,引用的我尽量标注来源,有些忘记来源了请告诉我orz)

文章图片
#人工智能#python
新版本本地化的fastgpt接入重排模型≥4.8.20

新版本本地化的fastgpt接入重排模型

文章图片
#docker
大模型从基础到入门——大模型文件

本文以DeepSeek-R1-Distill-Qwen-7B大模型为例,详细解析了大模型文件的结构及其参数意义。主要文件包括config.json(模型架构配置)、generation_config.json(生成控制配置)、tokenizer_config.json(分词器配置)及model.safetensors(模型权重文件)等。文章对比了不同模型文件的差异,如DeepSeek与Qwen系列

文章图片
#python
大模型从基础到入门——大模型文件

本文以DeepSeek-R1-Distill-Qwen-7B大模型为例,详细解析了大模型文件的结构及其参数意义。主要文件包括config.json(模型架构配置)、generation_config.json(生成控制配置)、tokenizer_config.json(分词器配置)及model.safetensors(模型权重文件)等。文章对比了不同模型文件的差异,如DeepSeek与Qwen系列

文章图片
#python
大模型从基础到入门——基础知识

本文主要记录入门大模型学习的相关知识,以期为后续工作学习提供帮助。(除了我自己截图外,引用的我尽量标注来源,有些忘记来源了请告诉我orz)

文章图片
#人工智能#python
大模型从基础到入门——入门知识

摘要:DeepSeek大模型系列通过技术创新持续演进,从DeepSeek-V2的MoE架构到V3引入MTP、FP8混合精度训练等技术,再到DeepSeek-R1采用强化学习框架GRPO和蒸馏技术。MoE架构通过细粒度专家划分和共享专家策略优化计算效率,MLA技术则通过低秩压缩减少KVcache显存占用。微调方法包括LoRA、AdapterTuning等,强化学习方面PPO、DPO和GRPO各有特点

文章图片
#深度学习#人工智能#论文阅读
关于anaconda中虚拟环境创建及深度学习中模型训练的过程记录

本文主要为个人查询网络资料的总结,便于后续的学习过程,如有不妥,敬请指教。

文章图片
#python#人工智能#pycharm
交叉验证法和自助法的异同

在机器学习中,我们使用随机采样方法,从数据集D划分训练集和测试(验证)集进行模型的选择,也就是人工智能中模型评估常用的三种方法:留出法、交叉验证法和自助法(其中留出法也叫简单的交叉验证法)。本文则针对其中交叉验证法和自助法的异同进行探讨。ps:本文主要为个人查询网络资料的总结,便于后续的学习过程,如有不妥,敬请指教。

文章图片
#机器学习#人工智能
新版本本地化的fastgpt接入重排模型≥4.8.20

新版本本地化的fastgpt接入重排模型

文章图片
#docker
    共 14 条
  • 1
  • 2
  • 请选择