在人工智能领域,模型的迭代更新不断推动着技术的边界。昨天晚上,DeepSeek 推出了其最新模型 DeepSeek-V3-0324,这一小版本更新不仅在模型参数上有所提升,更在开源协议上做出了重大调整,为开发者带来了更大的自由度和便利性。DeepSeek-V3-0324 模型在参数规模上进行了小幅增长,从初代 V3 版本的 6710 亿参数提升至 6850 亿参数。虽然参数增长幅度不大,但性能上的
本文主要介绍如何在 Windows 系统电脑本地安装开源 AI 客户端 Cherry Studio,并结合 cpolar 内网穿透工具轻松实现随时随地远程调用本地部署的各种 AI 大语言模型,无需公网 IP,也不用准备云服务器那么麻烦。Cherry Studio 是一款支持多个大语言模型(LLM)服务商的桌面客户端(如 OpenAI、Gemini、Anthropic)以及本地模型(通过 Ollam
在MMU、MMMU-Pro、MathVista等多模态基准测试中,32B版本甚至优于72B前代模型,并在MM-MT-Bench主观评估中实现显著进步。同时,其纯文本处理能力也达到同规模(如Mistral-Small-3.1-24B、Gemma-3-27B-IT)的最优水平157。:例如,通过分析交通指示牌照片,结合卡车限速、时间与距离,精确判断“1小时内能否行驶110公里”,展现视觉逻辑推导能力1
开源大模型竞争,现在是Llama、Qwen和DeepSeek三足鼎立之势,谁优谁劣,我们直接上榜单!
昨夜,DeepSeek-V3-0324版本悄然上线,以6850亿参数量、显著提升的代码与数学推理能力,再次刷新开源模型的天花板。这不仅是技术的突破,更预示着一场AI格局的颠覆——当开源模型以低成本、高性能冲击商业巨头,谁将笑到最后?DeepSeek-V3的爆发,不仅是技术的胜利,更是开源精神的胜利。当模型以MIT协议开放、以消费级设备可运行的姿态出现,AI的民主化进程已不可逆转。或许,下一场AI革
DeepSeek-R1-Zero 已经证明,大规模强化学习(RL)可以在不依赖监督微调的情况下直接增强大语言模型(LLM)的推理能力。Sea AI Lab 的研究人员对 R1-Zero 训练方法进行了深入分析,重点探讨其两个核心组成部分:基础模型和强化学习。研究人员研究了多种基础模型,包括 DeepSeek-V3-Base,以理解预训练特性如何影响强化学习的表现。
在大模型应用开发的浪潮中,将强大的大语言模型与灵活的开发框架相结合,能为开发者开启无限可能。本文将详细阐述如何基于DeepSeek-R1-Distill-Qwen大模型与LangChain框架进行本地大模型应用开发,从基础环境搭建到实际应用演示,为你提供全面且深入的指导。无论你是想探索大模型应用开发的新手,还是寻求优化现有项目的资深开发者,都能在本文中找到有价值的内容。
DeepSeek的表现突破标志着开源社区已具备与顶级商业实验室竞争的技术能力,但二者将长期呈现差异化共存:开源模型在垂直场景、可控性需求强烈的领域(如工业质检、法律文书)更具优势,而闭源模型在通用智能、生态整合方面保持领先。闭源模型的不可验证性:OpenAI未公开GPT-4的训练细节和完整评测数据,第三方对闭源模型的测试可能受限于API访问的稳定性或功能限制,而开源模型可被全面复现,这种不对称性可
DeepSeek开源EPLB
了解RAG流程解决方案,可构建本地知识库。基于LangChain框架写的一个简单RAG流程项目,支持联网搜索与本地指数哭,GitHub开源。
在本地部署DeepSeek-R1模型时,需根据硬件资源、模型版本及使用场景选择合适的方案。
在人工智能领域,DeepSeek 作为国产大模型的第一梯队选手,凭借其卓越的算法优化和高性能表现(支持代码生成、数学推理、多轮对话等场景)持续领跑行业。然而,尽管官方提供了免费的网页版服务,但在实际使用中,用户常常面临三大痛点:网络延迟高(尤其是在代码生成场景中)、隐私数据外泄风险以及高峰期服务器响应缓慢。为了解决这些问题,本文将介绍一种基于 Ollama 和 Chatbox 的黄金组合方案,手把
DeepSeek入驻WPS,不用写JS宏代码也能提效300%!
在人工智能飞速发展的当下,大语言模型成为了众多领域创新的关键驱动力。DeepSeek-R1系列模型凭借其卓越的性能和独特的技术优势,在国产推理模型中脱颖而出,备受关注。本文将详细介绍如何通过Ollama这一便捷工具,快速实现DeepSeek-R1系列模型的部署,为开发者提供全面且实用的实战指南。通过本文的详细介绍,相信开发者已经掌握了基于Ollama快速部署DeepSeek-R1系列模型的方法和技
DeepSeek大模型是一种基于先进深度学习技术的人工智能模型,专为金融行业设计,旨在提升银行业务的智能化水平。该模型通过大规模数据的训练,能够有效处理复杂的金融数据,提供精准的预测和分析。高精度预测:DeepSeek大模型能够处理多维度的金融数据,包括市场趋势、客户行为和风险评估,从而提供高精度的预测结果。自动化处理:该模型能够自动化处理大量繁琐的金融业务,如贷款审批、风险评估和客户服务,显著提
基于MCP 协议的Server有哪些社区贡献与开源项目?作者简介猫头虎是谁?作者名片 ✍️加入我们AI共创团队 🌐加入猫头虎的AI共创变现圈,一起探索编程世界的无限可能!🚀正文一、社区贡献与开源项目概况二、开发框架与MCP的集成1. **LangChain 与 MCP 的集成**2. **LangChain4j:Java 版的 MCP 集成**3. **其他代理框架的支持**三、MCP协议作为
MCP协议的生态系统现状如何?作者简介猫头虎是谁?作者名片 ✍️加入我们AI共创团队 🌐加入猫头虎的AI共创变现圈,一起探索编程世界的无限可能!🚀正文一、生态系统概述二、官方支持与早期采用1. **早期采用者与合作伙伴**2. **开发者工具厂商的积极参与**3. **Claude 企业版和桌面应用的支持**三、开源生态和社区支持四、MCP协议的生态应用1. **企业智能化应用**2. **代
MCP协议是开源的吗?MCP支持哪些编程语言创建 MCP Client 和 Server?作者简介猫头虎是谁?作者名片 ✍️加入我们AI共创团队 🌐加入猫头虎的AI共创变现圈,一起探索编程世界的无限可能!🚀正文一、MCP协议的开源性质二、MCP协议的开源组件与实现1. **协议规范与 SDK**2. **示例服务器与模板**3. **Claude 本地集成**4. **生态建设与社区支持**三
日活用户突破2000万,与中国移动、华为、金山办公、吉利汽车等企业相继达成合作,DeepSeek迎来了高光时刻。在互联网巨头争相进入AI行业的今天,企业为实现技术领先,纷纷斥巨资买数据和算力芯片,打造万卡集群。然而DeepSeek却选择了与众不同的以“花小钱办大事”路线,推出的V3模型训练成本仅557.6万美元,最新的R1模型,则以V3模型为基座,号称能力不输OpenAI开发的o1大模型。
在机器学习和深度学习中,模型蒸馏是一种将大型模型(满血版)压缩为小型模型(蒸馏版)的技术。
什么是 MCP 协议?什么是 MCP 协议?什么是MCP协议?MCP的技术架构与核心原理是什么?MCP封装了哪些协议?在现代 AI 的发展中,模型与外部数据源和工具的交互变得越来越复杂。为了解决这个问题,Model Context Protocol (MCP) 被提出,它是一种开放标准,旨在为 AI 模型与外部资源之间提供统一的连接方式。由 Anthropic 于 2024 年推出,MCP 希望能
AIChat开源程序是一个全能的LLMCLI工具,具有Shell Assistant、CMD和REPL模式、RAG、AI工具和代理等功能,通过统一界面与 20 多家领先LLM提供商无缝集成。支持的提供商包括 OpenAI、Claude、Gemini (Google AI Studio)、Ollama、Groq、Azure-OpenAI、VertexAI、Bedrock、Github Models、
在人工智能开源浪潮中,DeepSeek通过MIT协议构建起独特的开放生态。这种「极致自由+责任自担」的开源模式,既为开发者铺就创新高速公路,也设置了必要的技术护栏。
在人工智能领域,大模型的发展一直是技术前沿的热点话题。2025 年 3 月 6 日,阿里巴巴 Qwen 团队正式开源了其最新研发的推理大模型QwQ-32B,这无疑为全球开发者带来了一股强劲的创新动力。这款拥有 320 亿参数的模型,在数学推理、代码生成和逻辑分析等关键领域展现出了卓越的性能,迅速吸引了众多目光。令人惊叹的是,其性能不仅能够与参数规模高达 6710 亿的 DeepSeek-R1 相媲
在这个背景下,开源低代码平台Microi吾码以其独特的功能和理念吸引了众多开发者的关注。总结而言,Microi吾码作为一个开源低代码平台,在保持易用性的同时兼顾了灵活性与扩展性,并且拥有良好的社区生态和支持体系。在未来,随着技术的进步以及市场需求的变化,相信Microi吾码将会持续进化,带来更多可能性。同时,它也提供了丰富的组件库,帮助开发者迅速搭建所需的功能模块。随着人工智能、物联网等新技术的发
采用了.NET8 + MySql/SqlServer/Oracle + Vue2/3 + Element-UI/Element-Plus的技术框架,这种组合使得平台在性能、稳定性和可扩展性方面表现出色。同时,基于Vue的重构也为用户带来了更好的交互体验和更高效的开发模式,能够适应不同规模和复杂程度的企业应用开发需求.它不仅提供了详尽的技术文档和专业的客户服务,帮助企业快速完成内网部署环境的搭建,还
大家好,我是二哥呀。有没有发现?不知不觉中,阿里巴巴已经完成了从电商巨头到硬核科技公司的蜕变。第一个标志事件,一向挑剔的苹果宣布和阿里合作,一起为国行版 iPhone 提供 AI 技术服务。第二个标志事件,DeepSeek R1 蒸馏了 6 个模型开源给社区,其中有 4 个来自阿里的 Qwen。第三个标志事件,阿里云为开发者量身定制的通义灵码插件,也在第一时间集成了 DeepSeek-R1 满血版
DeepSeek-V3是一个具有671B参数的大型Mixture-of-Experts语言模型,采用Multi-head Latent Attention和DeepSeekMoE架构以提高训练效率和推理性能。模型通过无辅助损失的负载平衡策略和多token预测训练目标优化,预训练于14.8万亿tokens,并经过监督微调和强化学习以提升性能。DeepSeek-V3在多个基准测试中表现优异,尤其在代码
GPUStack 正式发布并开源,一个用于运行 LLM(大型语言模型)的开源 GPU 集群管理器。
在前两篇文章中,我们详细介绍了如何通过 vLLM 高效部署开源模型 GLM-4-9B-Chat 和 Qwen2.5,并分享了验证代码。这两款模型体量较小,使用单张 4090 显卡即可部署,且在企业实际应用场景中表现优异。本章将聚焦当前备受瞩目的开源模型 DeepSeek-V3。作为一款自称超越所有开源模型,甚至在部分能力上超过闭源模型的产品,DeepSeek-V3展现了惊人的潜力。
之前我们的辣妈系列文章介绍了很多如何使用Ollama框架+OpenWebUI做很多大模型框架下相关的事情。之后我们也尝试了LMStudio这样一体化的工具。本文介绍下LMStudio 和 Ollama+Web UI 各有优劣,具体选择取决于你的需求。
作为 NVIDIA Triton™ 推理服务器的后续产品,NVIDIA Dynamo 是一款全新的 AI 推理服务软件,旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益。”NVIDIA 创始人兼首席执行官黄仁勋表示,“为了实现自定义推理 AI 的未来,NVIDIA Dynamo 可以在这些模型上进行规模化部署,从而为 AI 工厂实现降本增效”。然后,它会将新的推理请求路由到与所需
如果需要高性能和效率,建议使用快速版本(
一款由字节复刻Manus的开源AI自动化任务处理工具:LangManus,它通过LLM和网络搜索、网页爬取、浏览器控制等各种工具结合来实现任务自动化,可以实现本地部署使用,支持国产AI大模型API,在人工智能和自动化技术不断发展的今天,如何高效地将多个工具和智能体结合在一起,以完成复杂的任务,成为了众多开发者的挑战。LangManus应运而生,它通过集成大语言模型(LLM)、网络搜索、网页爬取和浏
在本文中,我们将深入探讨 DeepSeek-R1 的数学和方法论核心,剖析其采用的强化学习(RL)技术,并分析促成这些卓越成果的创新点。在提升 LLM 推理能力的传统方法中,最常见的包括思维链 (CoT) prompting(Wei 等,2022),即鼓励模型明确列出其推理步骤,或是通过监督微调(Supervised Fine-Tuning, SFT)在包含推理示例的数据集上进行训练。这些方法在一
开源
——开源
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net
登录社区云,与社区用户共同成长
邀请您加入社区