logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3是如何实现混合推理(快慢思考)的?_qwen3获取思考过程

其实混合推理模型已经有不少了,例如 Claude 3.7 Sonnet 和 Gemini 2.5 Flash,但 Qwen3 应该是开源且效果好的典例。未来这可能也是一个趋势,不需要特意区分普通模型和思考模型,而是同一个模型按需使用。那么 Qwen3 是如何实现混合推理(Hybrid Reasoning,或者说“快/慢思考”,我们这里统一称为混合推理)的呢?在 Qwen3 的****中有提到,这次

文章图片
#人工智能#运维#服务器 +1
【架构解析】深入浅析DeepSeek-V3的技术架构_deepseek 参数

模型层数:61 层隐藏层维度:7168前馈网络维度:18432注意力头数:128词汇表大小:129280最大位置嵌入:163840该模型通过精细的架构设计,实现了在计算效率和性能上的平衡。高性能表现:在编程、数学等任务上取得领先成绩,展现出卓越的智商水平。低成本高效能:以较低的训练成本,实现了与大型闭源模型相当的性能。技术创新:在 FP8 混合精度训练、MLA、无辅助损失负载均衡等方面取得突破。支

文章图片
#架构#数据库#开源 +3
【VSCode实战】使用DeepSeek实现AI辅助编程:提升开发效率的新利器!_deepseek代码助手

最近国产大模型新版本凭借其优秀的模型推理能力,讨论度非常之高🔥,且其官网提供的相关大模型API接口服务价格一直走的“价格屠夫”路线,性价比很高,本期文章中,就将为大家举例,如何在vscode中,基于开源AI编程辅助插件Continue,配置基于Deepseek的API接口,实现常用的AI编程辅助等功能。

文章图片
#vscode#人工智能#ide +3
RAG 实践指南:使用Ollama与RagFlow构建本地知识库_ragflow ollama

上一篇文章我们介绍了如何利用 Ollama+AnythingLLM 来实践 RAG ,在本地部署一个知识库。借助大模型和 RAG 技术让我可以与本地私有的知识库文件实现自然语言的交互。本文我们介绍另一种实现方式:利用 Ollama+RagFlow 来实现,其中 Ollama 中使用的模型仍然是Qwen2我们再来回顾一下 RAG 常见的应用架构。

文章图片
#spring boot#后端#开源 +1
Ollama 本地运行大模型(LLM)完全指南_ollama token速度计算

Ollama是一个专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计的开源工具。它让用户无需深入了解复杂的底层技术,就能轻松地加载、运行和交互各种LLM模型。本地和服务器Ollama 最初是被设计为本地(主要是开发)运行LLM的工具,当然现在也可以在服务器(面向用户并发提供服务)上使用,并且兼容 OpenAI 接口,可以作为 OpenAI 的私有化部署方案。Ollama 的特点:• 本地部

文章图片
#人工智能#visual studio#copilot +1
Visual Studio 使用 GitHub Copilot 与 IntelliCode 辅助编码 【AI辅助开发系列】_intellicode和copilot

今天介绍两款AI辅助开发工具 ,后续还会介绍一些其他的好用的工具,比如阿里的通义灵码等。借助这些工具可以大大提高我们的工作效率和开发效率。这只是AI辅助开发系列的开篇文章,后续会更具体的介绍如何使用。💕。

文章图片
#visual studio#github#copilot +2
5分钟教你不写一行代码微调构建属于你的大模型(使用llama-factory微调Qwen大模型)_llama factory训练后的模型如何使用

DeepSeek, QWQ一系列实力强劲大模型的发布标志着我国在人工智能大模型领域进入世界领导者行列。越来越多领域开始关注并使用大模型。各行各业都积极赋能并开发相关专业领域大模型,比如东南大学推出的“法衡-R1”法律大模型,哈工大推出的“华佗”医疗诊断模型都取得了优异表现。那么它们是如何将大模型这个“博学家”变成领域的“专家”呢?这就需要使用我们今天分享的大模型微调技术。这篇文章带你5分钟学会使用

文章图片
#人工智能#大数据#AIGC +2
普通Java开发如何转型大模型方向?

他们的路径很接地气,也适合大多数人。首先,别一上来就想着看深度学习,Transformer论文精读这种硬核的东西。就像学Java的时候,你不会先学JVM源码,而是搭个Spring Boot Hello World再说。大模型这边也一样,建议你先搞清楚这几个问题:大模型到底是干嘛的?ChatGPT、

文章图片
#java#开发语言#数据库 +1
Prompt、Agent、Skill、MCP、Claude:5个核心概念让AI从“能听懂“到“自动干活“的完整指南

过去几年,大家花很多时间学怎么写好 Prompt,像是在教一个新来的实习生怎么理解你说话。但往后,光会写 Prompt 是不够的。你要学会给 Agent 配好 Skill,通过 MCP 把它接进你的系统,然后知道什么场景该用什么工具——这是从"跟 AI 聊天"到"让 AI 帮你干活"的真正跨越。这 5 个词不是谁替代谁,是一套分工。搞懂分层,才能少踩坑,少花冤枉钱,少被新词绕晕。怎么说话 → 谁来

文章图片
#人工智能#数据库#开发语言 +3
    共 1046 条
  • 1
  • 2
  • 3
  • 105
  • 请选择