xuebodx 个人主页

@xuebodx

xuebodx

2024-03-14 11:26:50 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek-VL2解读

这是一系列先进的大型混合专家(MoE)视觉语言模型，比其前身DeepSeek-VL有了显著改进。DeepSeek-VL2在各种任务中都表现出卓越的能力，包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。我们的模型系列由三个变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和，他们之间的主要区别在于基础LLM。基于DeepSeekMoE-3B 构建（

#计算机视觉 #人工智能 #transformer +3

用llama-factory微调DeepSeek-R1

用llama-factory的0.9.1版本微调DeepSeek-R1-Distill-Qwen-1.5B,微调数据是对文档段进行问答对提取的4000条样本。使用微调后的模型进行推理。合并微调后的模型问题。微调GPU配置H20-96G。H20-96Gpython3.10.8touch 2.1.2+cu121torchvision0.16.2+cu121CUDA Version: 12.4https

#人工智能 #python #AIGC +2

OpenAI深夜大招暴打Manus，发布通过API构建智能体的新工具，支持网络和文件搜索以及computer use

Manus掀起的智能体风暴，再次逼急了OpenAI，OpenAI 在2025年3月11日发布了一系列可让开发者通过API构建智能体的新工具，让智能体开发进入新时代。全新Responses API：将Chat Completions API简单性与Assistants API工具使用功能相结合，用于构建智能体。内置三大工具：网络搜索、文件搜索和Computer Use。Agents SDK：用于编排

#人工智能 #python #自然语言处理

搭建工作流自动化工具n8n并配置deepseek大模型

1. 摘要（发音为 "n-eight-n"）是一个开源的图形化低代码工作流自动化工具，允许用户通过可视化界面连接不同的应用程序和服务，实现自动化任务。在linux服务器上，用docker安装n8n工作流自动化工具，用ollama私有化部署DeepSeek-R1-Distill-Qwen-1.5B。If you prefer to disable this security feature，set

#自动化 #运维 #人工智能 +2

vllm多卡部署qwen2.5-72b-instruct

1. 介绍1.1 vllmvLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值。vLLM的特点和优势：采用了 PagedAttention，可

#人工智能 #AIGC #语言模型 +1

vllm多卡部署qwen2.5-72b-instruct

#人工智能 #AIGC #语言模型 +1

搭建工作流自动化工具n8n并配置deepseek大模型

#自动化 #运维 #人工智能 +2

OpenAI深夜大招暴打Manus，发布通过API构建智能体的新工具，支持网络和文件搜索以及computer use

#人工智能 #python #自然语言处理

vllm多卡部署qwen2.5-72b-instruct

#人工智能 #AIGC #语言模型 +1

DeepSeek V3解读

训练成本低，但效果卓越。DeepSeek V3的参数量为671B，每个token激活 37B，支持上下文长度为128k。训练语料由14.8T高质量且多样化的token组成，在2048个H800上训练了2.788M H800 GPU小时，耗时57天（2.788*1000000/2048/24=56.78天），用了558万美元。其所用的GPU训练资源仅为Llama 3.1 405B的差不多1/14，

#人工智能 #自然语言处理 #transformer +3

共 29 条

请选择