登录社区云,与社区用户共同成长
邀请您加入社区
如果不备案的后果:根据《互联网信息服务深度合成管理规定》的第21、22条,根据《互联网信息服务算法推荐管理规定》的第31、32、33条,可能给予以下处罚:整改、警告、通报批评,责令限期改正、责令暂停信息更新、撤销备案、注销备案、处一万元以上十万元以下罚款、关闭网站、吊销相关业务许可证或者吊销营业执照、治安处罚。大模型备案周期为6-8个月左右,时间跨度较长,且由各地网信部门发布通过的大模型备案信息,
无论你的模型服务于设计师还是消费者,算法备案是底线,大模型备案则需“量体裁衣”。无论是否做大模型备案,只要涉及《互联网信息服务算法推荐管理规定》中的算法类型(如深度合成类、个性化推荐类、检索过滤类、决策调度类、排序精选类),必须完成算法备案!大模型+算法双备案:额外准备模型训练数据来源说明、安全评估报告、模型服务协议、语料标注规则、拦截关键词列表、评估测试题集、测试账号等jxh152637。大模型
伴随AI技术的爆炸式发展,尤其是大模型(LLM)在各行各业的深度应用和整合,企业利用AI技术提升效率、创新服务的步伐不断加快。无论是像DeepSeek这样的前沿技术提供者,还是积极拥抱AI转型的传统企业,在面向公众提供基于大模型的智能服务时,合规运营已成为可持续发展的生命线。确保服务符合监管要求,避免被“下架”的关键举措之一,就是完成大模型服务的备案或登记。本文将为您详细梳理企业该如何判断
融资35亿后,Kimi的新模型紧跟着就要来了?!大模型竞技场上,一个名叫的神秘模型悄然出现。发现这个新模型的推特网友询问了模型的身份,结果模型自报家门,表示自己来自月之暗面Kimi,训练数据截止到2025年1月。另有网友表示,Kiwi-do表现出了一些有趣的结果,尤其是在竞技场当中。那么,Kiwi-do的真实身份究竟是什么呢?
英伟达在AI算力领域大幅领先AMD,每花费1美元获得的性能是后者的15倍。尽管产品更贵,但在MoE推理模型上,英伟达通过NVLink技术将多GPU连接成单一域,突破通信瓶颈。模型越复杂,英伟达优势越明显,在DeepSeek-R1上性能达AMD的28倍。综合成本计算显示,生成同等数量token,英伟达平台成本仅为AMD的十五分之一,成为大模型开发者的首选。
简单来说,智能体纲要(Agent Skills)是一种让Claude(或作为一个标准,任何其它大模型应用,如GPT、Gemini,虽然它们尚未宣布对智能体纲要的支持,但其实也不需要官方支持,就像MCP一样)能够按需加载、自主调用的“能力包”。它本质上是一个文件夹,里面包含了说明文档(Markdown)、脚本(Python/Bash)和参考资料。与传统的 Prompt 工程不同,Skills 不是一
核心:将LingoEDU定位为一次重要的技术范式演进,引领行业走向可解释、可控制的AI。AI应用正从「效果惊艳」走向「流程可信」。忠实度意味着可溯源性,LingoEDU正是这一理念的工程化实践,推动AI从「黑盒魔术」走向「白盒工程」。开创了「基于分解的可扩展数据合成」流程,通过「求解器-批评家」循环与双层任务分解,自动化生产高质量训练数据,解决了该领域数据稀缺的核心瓶颈,构建了坚实的技术壁垒。Li
模型微调 = 在“大模型已有能力”基础上,教它更符合你的业务预训练模型:大学毕业生岗位培训。
文章深度解析了2025年AI Agent生态的六大关键领域,包括Claude Agent SDK、OpenAI Agents SDK、Manus的成功实践、Context Engineering的核心作用、Agentic与Workflow架构选择及MCP连接标准。指出Context Engineering已取代Prompt Engineering成为Agent开发核心学科,强调上下文管理是AI A
这篇文章系统调研了大模型知识蒸馏技术,将其分为黑盒(仅访问教师模型的输入输出)和白盒(可访问中间状态)两类。介绍了代表性文献,包括综述研究和具体实现方法,如DeepSeek-R1的黑盒蒸馏和DistilQwen2.5的黑白盒结合方法。还讨论了蒸馏效果的量化评估方法,内容全面覆盖知识蒸馏的理论基础、技术分类、实践案例和评估方法,适合研究者和开发者学习参考。
本文以零基础视角详细解析了Transformer架构的核心组件,包括位置编码解决顺序信息问题、多头注意力机制捕捉上下文关系、残差连接与层归一化优化深度网络训练,以及逐位置前馈神经网络增强非线性表达能力。作者通过Excel表格可视化计算过程,帮助读者理解Transformer如何通过并行处理提升效率,成为大模型的基础架构。文章适合AI初学者收藏学习,为理解现代大模型技术奠定基础。
本文系统讲解AI应用开发中Prompt与Context的协同技巧。Prompt作为AI的"行动指南",包含任务目标、约束规则;Context作为"决策依据",提供多源信息。二者协同需遵循Context为Prompt服务、Prompt调用Context的原则。通过Dify平台实操,展示Context分层管理、Prompt模块化设计和工作流编排方法,助力开发者打造高精准AI应用,避免常见开发误区,实现
深度解析:AI 产品经理为何必须懂数据、算法、算力?不懂就只能 “卡壳”!
复杂:算力——全参数(续训)、部分参数微调(LoRA)——具备业务场景的知识——和环境进行交互——构建智能体(评测)——部署。综合性能:InternLM-Chat-20B的推理、数学、代码能力比肩ChatGPT。发布,开源智能体框架Lagent——语言到智能体。评测:社区开源模型在开源数据集、榜单上的表现。不复杂:评测——部署。升级对话模型:InternLM-Chat-数据分析:上传表格——生成分
企业想要将大模型技术应用到企业管理中,需要考虑以下几个关键条件:1.明确的需求定位:企业应首先诊断自身的业务场景、数据、算法、基础设施预算以及战略等能力,明确大模型能够为企业带来的具体赋能。2.高质量的数据资源:大模型的训练和应用需要高质量的数据资源作为支撑,企业需要确保能够管理和利用这些数据资源,包括高质量的语料库和企业内部知识。3.技术能力和基础设施:企业需要构建包括算力、存储和开发平台在内的
算力市场动态,1、英伟达;2、大模型;3、华铁应急;4算力
2.深度融合架构(如Flamingo):用跨模态注意力动态对齐特征,适合问答和生成任务。3.纯解码器架构(如Fuyu-8b):取消独立编码器,直接处理多模态输入,降低延迟。1.统一编码架构(如CLIP):分别编码不同模态后对比学习,适合检索任务。1.模态扩展:向3D模型、触觉等延伸(如手术机器人触觉反馈)。2.轻量化训练:用知识蒸馏技术压缩百亿参数模型,降低算力需求。3.安全治理:解决AI生成图片
基于Xiaothink-T6-0.15B-ST模型实现低算力高效文本情感分类。该工具优势包括:零额外模型负担、适配轻量模型、即插即用API。通过pip安装后,只需3步即可实现情感分析:导入模块、初始化模型、调用分类接口。该方案采用指令微调技术,支持零样本迁移,无需额外训练数据。使用时需注意路径正确性和版本兼容性,适合资源有限的端侧应用场景。模型可通过ModelScope下载。
在大模型时代,AI 的训练与推理已经不再是单纯的算力问题。随着模型参数规模进入百亿级、数据量级扩展到 TB~PB,数据管线与存储架构往往成为影响训练速度的决定性因素。算力再强,如果数据加载跟不上,也会出现 GPU 空闲等待 I/O 的情况,训练效率大打折扣。
文章系统梳理了AI、ML、DL、LLM的递进关系,通过产品经理视角解释了三者的核心原理区别:ML依赖特征工程的手工作坊,DL是端到端学习的自动化流水线,LLM是基于预训练的通用能力底座。文章介绍了各自应用场景及演进脉络,指出大模型标志着AI从专用智能向通用智能的过渡,其发展得益于算法创新、数据爆炸和算力飞跃三大驱动力。
本文介绍了LangGraph环境的搭建与智能体创建方法。首先通过pip安装LangGraph库,并说明其底层依赖LangChain的大模型接入方式。重点讲解了四种预构建智能体API的特点和适用场景,其中React Agent(推理-执行模式)最为常用。文章详细演示了如何创建自定义工具函数(以天气查询为例),包括参数定义、函数装饰和API调用。最后展示了如何初始化大语言模型并创建React智能体,通
斯坦福大学提出 LLM 预训练新范式
Agent只是大模型的新功能?大错特错!作为架构师,我告诉你真相:大模型是只会动嘴的大脑,而Agent是一群伺候它的管家。想知道它是如何联网、如何操作电脑的?想了解真正的AI Native开发?点进来,为你揭秘大模型下半场的关键。
Sampling不是MCP的新概念,而是对现有模式的优雅延伸【传统方式】Server → 定义提示词 → Client获取 → Client调用LLM → 返回结果【Sampling方式】Server → 发起采样请求 → Client接收 →Client[可选:调整参数] →Client调用LLM →Client[可选:修改结果] →返回给Server关键洞察:Sampling本质上是Serve
ChatGPT、DeepSeek已经成了日常工具,但你真的懂它们吗?如果你认为大模型是“一个连着巨大知识库、会思考的机器人”,那就大错特错!作为一线Agent架构师,我要告诉你一个反直觉的真相:大模型根本没有“脑子”,也不懂逻辑。它唯一会做的竟然只是“文字接龙”,和你手机里的输入法本质一样?为什么它会一本正经地胡说八道?那些爆火的“思考模型”真相又是什么?点进来,司沐带你彻底祛魅,重塑你对AI的认
本文简单介绍了如何在鸿蒙应用开发中集成国产的大模型,各个大模型厂商的使用过程基本都是一样的,学会一个其他都会用了,核心都是在与网络请求。上面只是简单的与大模型对话的应用,只展示了如何在应用中与大模型进行后续可以继续加入其他的功能,加入各种各样的MCP服务,让你的大模型应用更加强大,有兴趣的小伙伴可以自行探索。
2026年Agentic AI十大趋势:重塑13万亿美元劳动力市场 摘要:2026年AI智能体将迎来关键发展拐点,十大趋势包括:记忆机制突破实现数周级任务连贯性;计算机操作能力成为标配;多模态交互显著提升感知能力;多Agent协作架构成为主流;系统架构向层级化演进;人机协同进入深度整合阶段;企业应用渗透率突破30%;行业专用Agent加速涌现;商业模式面临重构;治理与安全问题凸显。这些趋势将推动A
2025年AI领域五大核心突破:1) 顶尖模型训练成本降至500万美元,门槛大幅降低;2) 基准测试"跑分至上"现象凸显,实际应用能力比排行榜更重要;3) 模型进步转向"更聪明"的推理策略和工具调用,而非单纯扩大规模;4) AI成为人类工作的"国际象棋搭档",赋能而非替代;5) 私有数据成为核心竞争力,垂直领域专业化模型将崛起。这些趋势表
本地AI知识库搭建指南:零代码构建专属智能助手 本文详细介绍了如何无需编程基础搭建本地化知识库系统。推荐中文场景首选Qwen3和DeepSeek大模型,适配NVIDIA 40/50系列显卡配置。通过Ollama或LM Studio等工具实现后端部署,配合Open WebUI等界面工具,用户可轻松上传文档构建可检索知识库。方案涵盖从硬件选型到软件部署全流程,特别强调数据本地存储的安全性,适合个人用户
语言模型
——语言模型
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net