logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

OpenAI深夜大招暴打Manus,发布通过API构建智能体的新工具,支持网络和文件搜索以及computer use

Manus掀起的智能体风暴,再次逼急了OpenAI,OpenAI 在2025年3月11日发布了一系列可让开发者通过API构建智能体的新工具,让智能体开发进入新时代。全新Responses API:将Chat Completions API简单性与Assistants API工具使用功能相结合,用于构建智能体。内置三大工具:网络搜索、文件搜索和Computer Use。Agents SDK:用于编排

文章图片
#人工智能#python#自然语言处理
用llama-factory微调DeepSeek-R1

用llama-factory的0.9.1版本微调DeepSeek-R1-Distill-Qwen-1.5B,微调数据是对文档段进行问答对提取的4000条样本。使用微调后的模型进行推理。合并微调后的模型问题。微调GPU配置H20-96G。H20-96Gpython3.10.8touch 2.1.2+cu121torchvision0.16.2+cu121CUDA Version: 12.4https

文章图片
#人工智能#python#AIGC +2
搭建工作流自动化工具n8n并配置deepseek大模型

1. 摘要(发音为 "n-eight-n")是一个开源的图形化低代码工作流自动化工具,允许用户通过可视化界面连接不同的应用程序和服务,实现自动化任务。在linux服务器上,用docker安装n8n工作流自动化工具,用ollama私有化部署DeepSeek-R1-Distill-Qwen-1.5B。If you prefer to disable this security feature,set

文章图片
#自动化#运维#人工智能 +2
私有化部署dify + DeepSeek-R1-Distill-Qwen-32B + bge-m3

Dify是一款开源的大语言模型(LLM)应用开发平台。可以快速搭建生产级的生成式AI应用。Dify内置了构建LLM应用所需的关键技术栈,包括对数百个模型的支持、直观的Prompt编排界面、高质量的RAG引擎、稳健的Agent框架、灵活的流程编排,并同时提供了一套易用的界面和API。在linux环境中使用docker部署difyvllm部署DeepSeek-Rollama部署bge-m3,并在dif

文章图片
#人工智能#python#docker +4
DeepSeek-R1解读

和DeepSeek-R1是在模型基础上微调来的,模型参数是671B,每个token激活参数37B,支持的上下文长度是128K。是一种通过大规模强化学习(RL)训练的模型,无需监督微调 (SFT) 作为初步步骤,在推理方面表现出色。借助 RL,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而,DeepSeek-R1-Zero 遇到了诸如无休止重复、可读性差和语言混合等

文章图片
#人工智能#pytorch#transformer +2
DeepSeek V3解读

训练成本低,但效果卓越。DeepSeek V3的参数量为671B,每个token激活 37B,支持上下文长度为128k。训练语料由14.8T高质量且多样化的token组成, 在2048个H800上训练了2.788M H800 GPU小时,耗时57天(2.788*1000000/2048/24=56.78天),用了558万美元。其所用的GPU训练资源仅为Llama 3.1 405B的差不多1/14,

文章图片
#人工智能#自然语言处理#transformer +3
DeepSeek-VL2解读

这是一系列先进的大型混合专家(MoE)视觉语言模型,比其前身DeepSeek-VL有了显著改进。DeepSeek-VL2在各种任务中都表现出卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。我们的模型系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和,他们之间的主要区别在于基础LLM。基于DeepSeekMoE-3B 构建(

文章图片
#计算机视觉#人工智能#transformer +3
DeepSeek-Prover-V1.5解读

DeepSeek-Prover-V1.5是DeepSeek为Lean 4中的定理证明而设计的开源语言模型。该模型是在DeepSeekMath-Base 基础上训练出来的,该模型一共有三个版本,分别是DeepSeek-Prover-V1.5-Base,DeepSeek-Prover-V1.5-SFT和DeepSeek-Prover-V1.5-RL。虽然参数量只有7B,但是在高中水平 miniF2F

文章图片
#人工智能#python#语言模型 +2
DeepSeek发布的Janus系列解读

Janus一共有三个系列,分布是Janus,Janus-Pro,JanusFlow。他们统一了多模态的理解和生成。之前的研究通常依赖单一的视觉编码器来同时完成这两项任务,现在Janus 将视觉编码过程解耦,分别为视觉理解和视觉生成提供独立的编码器。支持4k的上下文长度。我们在两个基准测试 GenEval 和 DPG-Bench 上评估性能。总体而言,Janus-Pro 超越了之前的统一多模态模型以

文章图片
#人工智能#深度学习#计算机视觉 +2
DeepSeek-Coder-V2解读

DeepSeek-Coder-V2是一种开源的混合专家(MoE)代码语言模型,在特定代码任务中实现了与GPT4 Turbo相当的性能。发布了参数量分别为16B和236B的两个版本。DeepSeek-Coder-V2是从DeepSeek-V2进一步预训练来的。通过这种持续的预训练,DeepSeek-Coder-V2大大提高了DeepSeek-V2的编码和数学推理能力。DeepSeek-Coder-V

文章图片
#人工智能#pytorch#transformer
    共 13 条
  • 1
  • 2
  • 请选择