大模型学习原理个人主页

@damoxing1427

大模型学习原理

2025-05-23 16:47:21 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

图解 LLM（大语言模型）的工作原理

这篇文章用通俗易懂的方式解释了大型语言模型(LLM)的工作原理。首先通过条件概率的实例说明LLM预测单词是基于上下文计算的条件概率。接着介绍了损失函数(如交叉熵和负对数似然)用于优化模型参数。重点讲解了"temperature"参数的作用：较低温度使输出更确定但缺乏创意，较高温度增加随机性但可能不连贯。最后通过代码示例展示了温度参数对采样的影响，强调要理解LLM需要掌握概率统计

#语言模型 #机器学习 #人工智能 +2

不同AI架构如何选择？单Agent+MCP“与“多Agent“架构对比分析！

AI智能体架构选择指南：单一智能体+MCP vs 多智能体系统在构建AI应用时，开发者面临架构选择难题。单一智能体搭配MCP协议像一个"全能专家"，简单高效，适合快速迭代和小规模应用；多智能体系统则像"专家团队"，专业分工但复杂度高，适合复杂任务和大规模并发。典型场景中，客服系统适合单一架构，投资分析需要多智能体，而大型电商平台可采用混合模式。选择时需权衡

#人工智能 #架构 #语言模型

以实现业务场景为目标的智能体设计：从用户需求到多智能体落地的全流程解析！

摘要：本文以电信运营商套餐推荐为例，阐述了如何构建以业务为导向的智能体系统。企业应避免技术堆砌，聚焦业务痛点，通过多智能体协同（意图识别、套餐匹配等）优化用户旅程。开发阶段需明确角色分工，测试环节验证交互效率与稳定性，运营期则通过数据分析持续优化。智能体的核心价值在于提升转化率、节省人力成本，其成功关键是将AI能力与业务流程深度融合，而非单纯追求技术先进性。（149字）

#人工智能 #产品经理 #语言模型

揭秘AI推理能力四大技术！如何让大模型像人类一样“深度思考”？

你有没有想过，为什么ChatGPT能轻松解出一道复杂的数学题，而Siri却只能干巴巴地告诉你“今天是星期几”？答案藏在一个关键的区别里——推理能力！正是这种能力，让AI从只会背答案的“书呆子”，变成了能深度思考的“学霸”。今天，我们将用最通俗的语言，揭秘提升AI推理能力的四大核心技术，带你看懂大模型如何一步步从“小学生”进化到“解题高手”。

#人工智能 #语言模型 #产品经理

AI智能体：一键生成爆款故事会短视频，解锁一个挣钱的工作流

摘要：本文介绍了一个全自动AI视频生成工作流，该系统通过8个板块、54个节点实现从文案输入到视频输出的完整流程。工作流包含文案结构化处理、语音合成与音频处理、视觉元素生成三大核心模块，能自动生成具有情绪钩子、水墨画风格画面的爆款故事视频。该方案已成功复现原作者的商业变现模式，通过13次调试优化了剧本框架、人物设计和悬疑解说等关键元素，最终实现包含炸裂开场、多轮反转的叙事闭环。系统支持从标题输入到视

#人工智能 #音视频 #语言模型 +1

为什么说Coze 搭建应用：既不聪明，也不省力？

作者体验了Coze平台的Beta版应用创建功能，发现其存在诸多问题。UI设计不符合常用工具层级逻辑，图标过度设计且交互体验差；操作流程从后端逻辑切入，对新手极不友好；功能开发过程繁琐，遇到bug难解决，且实现效果有限。虽然组件数量基本够用，但复杂功能仍无法实现，导致该功能定位尴尬——程序员嫌麻烦，小白嫌复杂。作者建议若能结合AI代码生成工具或简化设计流程会更好用，并推测该功能可能是为了构建平台闭环

#photoshop #ui #人工智能 +3

智能体开发框架Langgraph基础流程和理论梳理

摘要： Langgraph作为大模型智能体的关键工具，通过状态图、节点、边和检查点等模块，解决了传统链式调用框架（如Langchain）的局限性。其核心优势在于支持循环调用、条件判断和"时间旅行"（状态回溯），并能实现人工干预（人在回路），使智能体更接近人类解决问题的逻辑。状态图记录全流程执行数据，检查点保存节点记忆，二者协同提升复杂任务处理的灵活性和容错性，为AI应用开发提供

#人工智能 #深度学习 #语言模型 +1

流程工业大模型的挑战与机遇有哪些？

流程工业大模型ProcessFM：挑战与机遇针对流程工业复杂机理、高精度控制等难题，任磊团队提出ProcessFM框架，融合"数据+机理+知识+计算"四层架构，构建具备机理认知、知识问答等六大核心能力的工业大模型。该框架通过多模态预训练、机理内嵌微调等技术，解决通用大模型在泛化性、可信性等方面的不足，并面向电力、冶金等行业实现任务适配。应用表明，ProcessFM能有效支持工

#人工智能 #语言模型 #产品经理

使用DeepSeek的四个层级，你在哪一层？

作为国内最火最强大的AI，DeepSeek为我们带来的意想不到的惊喜：知识问答、文本分析、外文翻译、摘要生成、报告写作、创作文案、深度推理、等等。

#人工智能 #语言模型 #产品经理

到底了