logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek V4 vs Claude Opus 4.7 实测

6 道 HTML 编码题,正面硬刚顶级闭源模型

文章图片
#人工智能#语言模型
DeepSeek V4 vs Claude Opus 4.7 实测

6 道 HTML 编码题,正面硬刚顶级闭源模型

文章图片
#人工智能#语言模型
DeepSeek R1中提到“知识蒸馏”到底是什么

想象你是一个刚学做菜的新手,想复刻米其林大厨的招牌菜。如果只告诉你最终味道(比如“酸甜适中”),你很难完美复制。但如果你能知道大厨做菜时的每个细节(比如火候调整顺序、调料配比、食材处理技巧),你就能学得更像。深度学习中的知识蒸馏(Knowledge Distillation)一个复杂的大模型(比如GPT-3、ResNet-152),性能强大但计算成本高。学生模型(Student Model):一个

文章图片
#人工智能#算法#深度学习 +3
DeepSeek-R1 Ollama部署+Cherry Studio,实现本地大模型知识库

本地知识库通常包含企业或机构的私有数据(如内部文档、客户档案、行业术语库等),这些数据涉及商业机密或敏感信息,若依赖云端服务处理,可能面临合规风险或第三方泄露隐患。通过DeepSeek本地化部署,DeepSeek可直接在内部服务器访问知识库,确保数据无需离开本地环境,既符合数据保护法规,又能通过内网隔离降低外部攻击风险。本文将介绍如何通过Ollama实现DeepSeek的本地部署,并结合Cherr

文章图片
#人工智能#语言模型#transformer +3
Qwen3 来了:更强、更智能、更开放的下一代大模型!

后训练阶段:针对指令遵循和对话能力,团队采用了创新的四阶段后训练流程:首先通过长思维链数据进行冷启动微调,接着运用强化学习提升探索与深度推理,然后融合思考与非思考模式,最后进行大规模通用能力强化学习,覆盖指令遵循、格式控制、Agent 技能等二十多个领域,全面提升模型的综合素质和安全性。Qwen3-30B-A3B是Qwen3-235B-A22B的蒸馏版本,Qwen3-14B、8B、4B等Dense

文章图片
#人工智能#自然语言处理#语言模型 +1
DeepSeek-R1 Ollama部署+Cherry Studio,实现本地大模型知识库

本地知识库通常包含企业或机构的私有数据(如内部文档、客户档案、行业术语库等),这些数据涉及商业机密或敏感信息,若依赖云端服务处理,可能面临合规风险或第三方泄露隐患。通过DeepSeek本地化部署,DeepSeek可直接在内部服务器访问知识库,确保数据无需离开本地环境,既符合数据保护法规,又能通过内网隔离降低外部攻击风险。本文将介绍如何通过Ollama实现DeepSeek的本地部署,并结合Cherr

文章图片
#人工智能#语言模型#transformer +3
AI编程利器Cursor,教你10秒速成编程高手

Cursor 是一款集成了先进大型语言模型(LLM)的代码编辑器,其设计灵感来源于广受欢迎的 Visual Studio Code(VS Code),并在此基础上添加了强大的 AI 辅助编程功能。它支持多种先进模型,如 GPT-4 和 Claude 3.5,能够通过自然语言交互生成代码,帮助开发者快速解决问题。如果你熟悉VS Code,那么你可以无缝衔接Cursor;如果你熟悉PyCharm、Id

文章图片
#人工智能#深度学习#python +2
一文读懂DeepSeek-R1论文

论文提出了基于强化学习(RL)的推理模型和。:完全通过大规模强化学习(无需监督微调/SFT)训练,展示了强大的推理能力,但存在可读性差、语言混合等问题。:在强化学习前引入冷启动数据和多阶段训练(SFT + RL),解决了可读性问题,性能与相当。开源贡献:发布 DeepSeek-R1-Zero、DeepSeek-R1 及基于 Qwen 和 Llama 的 6 个蒸馏模型(1.5B 至 70B),供研

文章图片
#人工智能#深度学习#transformer +2
DeepSeek R1中提到“知识蒸馏”到底是什么

想象你是一个刚学做菜的新手,想复刻米其林大厨的招牌菜。如果只告诉你最终味道(比如“酸甜适中”),你很难完美复制。但如果你能知道大厨做菜时的每个细节(比如火候调整顺序、调料配比、食材处理技巧),你就能学得更像。深度学习中的知识蒸馏(Knowledge Distillation)一个复杂的大模型(比如GPT-3、ResNet-152),性能强大但计算成本高。学生模型(Student Model):一个

文章图片
#人工智能#算法#深度学习 +3
一个能听懂人话的数据库智能体,到底有多强大?一句话搞定所有业务!

如果您想深入探讨,如何将这个智能体无缝对接到您现有的数据库,解决您最核心的业务痛点,或者有任何关于技术合作、私有化部署的想法,我非常乐意与您交流。眼花缭乱,还极易出错。😩 作为市场负责人,你刚花掉50万预算办了场活动,想知道效果如何,却要填一堆数据需求单,然后在一周后拿到一份布满图表的复杂报告。它会瞬间理解你的意图,生成复杂的SQL,查询数据库,然后用你能听懂的语言,给你一个清晰、深刻、直达问题

文章图片
#数据库#人工智能#大数据 +2
    共 28 条
  • 1
  • 2
  • 3
  • 请选择