logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型必知基础知识:8、Transformer架构-如何理解学习率 Learning Rate

学习率(Learning Rate)是深度学习中的关键超参数,控制模型参数每次更新的步幅大小。本文通过"下山"比喻形象说明:学习率过大会导致模型在最优解附近震荡或发散;过小则收敛缓慢且易陷入局部最优。学习率的工作原理是结合梯度方向决定参数更新幅度(公式:w_new=w_old-η×∇L)。实际应用中需要平衡收敛速度和稳定性,初期可采用较大学习率快速下降,接近最优解时减小学习率精

文章图片
#transformer
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构

Cursor 2.0发布首款自研编码模型Composer,性能突破显著:30秒完成复杂任务,比同行快400%;支持语音生成代码、浏览器工具自主调试等新功能;采用强化学习训练的MoE架构,通过真实环境训练显著提升性能;每秒生成250个token,速度达到主流模型的2-4倍;但模型底层架构细节未完全公开,引发业界对其"自研"性质的讨论。

文章图片
#人工智能
狙击Google?ChatGPT Atlas浏览器来了:能聊天、能记忆、还能替你干活

OpenAI发布首款AI原生浏览器ChatGPT Atlas,将对话式AI深度整合到浏览体验中。该浏览器基于Chromium内核,具备五大核心功能:1)每个标签页集成ChatGPT对话;2)可基于当前网页内容智能问答;3)支持浏览记忆功能;4)提供文本即时编辑的CursorChat;5)面向付费用户的Agent模式,可自动执行比价、预订等任务。OpenAI此举旨在重塑浏览器入口,挑战谷歌搜索主导地

文章图片
#人工智能#浏览器
AI圈正陷入命名地狱!Claude Skills上线,却遭开发者集体吐槽:LLM生态要爆炸了!

Anthropic发布ClaudeSkills新功能,让AI能调用特定"技能"完成专业任务。每个技能由指令、脚本和资源组成,可本地存储或云端调用,实现按需加载。该功能支持办公自动化、企业知识管理等多种场景,还能执行真实代码以提高效率。虽然功能强大,但也引发安全担忧和AI生态术语混乱的争议。开发者可轻松创建技能,企业则可构建内部技能库。这一创新或将推动AI向更专业化的方向发展,但

文章图片
#人工智能
大模型必知基础知识:11、大模型知识蒸馏原理和过程详解

大模型知识蒸馏是一种将大型教师模型的知识迁移到小型学生模型的技术。本文详细介绍了知识蒸馏的两种主要方式:白盒蒸馏和黑盒蒸馏。白盒蒸馏允许学生访问教师模型的内部参数,通过KL散度优化来对齐输出分布,特别介绍了MiniLLM方法采用反向KLD和策略梯度法优化生成质量。黑盒蒸馏则仅依赖教师模型的输入输出,更具实用性。文章还分析了正向与反向KLD的差异,以及它们在大语言模型生成任务中的应用场景。这些技术能

文章图片
对 GPT 5 模型路由机制的深度解析

摘要:GPT-5引入"智能路由器"架构,实现了专家模型的动态协同,标志着大模型从"全能单体"向"专业协同"的范式转变。文章分析了其基于对话类型、任务复杂度、工具需求和用户意图的四大路由决策支柱,对比了其在响应速度、资源优化等方面相较于GPT-4的突破性进步。同时探讨了该架构的技术实现路径、调试困难等挑战,并提供了开源工具构建方案。作者认为

文章图片
#人工智能
5个Lang:1-LangServe基本操作

本文介绍了安装LangChain相关开发环境的步骤。通过执行pip install命令,安装了包括langchain、openai、langserve、fastapi、uvicorn和sse_starlette在内的多个Python包及其依赖项。安装过程中自动下载并安装了所需的各种组件,如数据处理库dataclasses-json、网络请求库httpx、高性能JSON解析器orjson等。这些工具

5个Lang:3-LangSmith简单实践

本文介绍了AI生产力工具LangSmith的Tracing功能实操指南。主要内容包括:1)环境准备,需安装相关库并获取API key;2)LangChain程序与LangSmith平台的对接方法;3)使用LangSmith调试Prompt的技巧;4)在线数据标注和收集操作,为后续自动化评估做准备。文章指出LangSmith能有效解决LLM应用生产级维护需求,包括指标监控、Prompt版本管理、系统

文章图片
每周七亿人使用ChatGPT!他们究竟在用它做什么?究竟怎么用?

ChatGPT 已迅速崛起为全球现象级 AI 工具,每周活跃用户超 7 亿,其中 73% 为非工作场景使用。OpenAI 最新报告显示,用户主要应用集中在七大领域:实用指南(29%)、信息获取(24%)、内容创作(24%)、技术帮助(5%)、多媒体处理(7%)、自我表达(2.4%)等。文章提供了针对这些场景的实用提示模板,如学习辅导、流程指导、创意头脑风暴、信息对比分析等,帮助用户高效获取 AI

文章图片
#人工智能
企业级 RAG 系统实战:10 个项目踩过的坑(附代码工程示例)

本文分享了企业级RAG系统的实战经验。作者基于在制药、金融等行业构建10余个RAG系统的实践,总结了关键挑战和解决方案:1)优先进行文档质量检测并分类处理;2)采用层级化分块策略替代固定分块;3)构建专业领域元数据架构;4)实施混合检索方法。文章详细介绍了文档评分系统、分层检索等技术实现,并对比了不同模型的成本效益(Qwen可节省85%成本)。核心观点认为企业RAG的成功70%依赖工程能力,20%

文章图片
#人工智能#大数据#RAG
    共 124 条
  • 1
  • 2
  • 3
  • 13
  • 请选择