咖啡有点甜个人主页

@weixin_63040022

咖啡有点甜

2022-12-20 10:35:53 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

腾讯混元3D世界模型1.0：开源、沉浸与实用的技术解析

在2025世界人工智能大会上，腾讯发布并开源了混元3D世界模型1.0，成为业界首个支持沉浸漫游、交互与仿真的开源世界级3D生成模型。该模型采用两阶段生成架构与语义分层算法，支持文本与图像输入，可生成可编辑、可导出的高质量3D场景，广泛适用于游戏、影视、教育等领域。开源策略和技术创新显著降低了3D创作门槛，具备较强实用性与生态潜力。

#3d #深度学习 #人工智能 +1

通义千问Qwen3-30B-A3B-Thinking-2507技术解析：推理模型的工程实践突破

阿里云发布Qwen3-30B-A3B推理模型，采用MoE架构和GQA机制，显著提升计算效率。该模型在数学（AIME25得分85）和编程（LiveCodeBenchv6得分66）测试中表现优异，支持256K长文本处理且显存占用降低67%。通过"强到弱蒸馏"策略和36万亿token训练数据增强，其STEM能力显著提升。应用测试显示，该模型在科研分析、代码审查等场景中展现出色性能，但

#人工智能 #自然语言处理 #深度学习

GLM-4.5发布：面向推理、代码与智能体的开源SOTA模型

GLM-4.5是智谱AI推出的国产开源大模型，采用混合专家架构（MoE）与“深度优先”设计理念，在性能与效率之间实现精妙平衡。模型分为旗舰版与轻量版，结合Grouped-Query Attention机制和Muon优化器，显著提升了推理能力和训练效率。在MMLU等权威基准上表现优异，具备强大的代码生成与多任务处理能力。其开源生态完善，支持多种推理框架，并通过三阶段训练体系实现高质量模型构建，为国产

#自然语言处理 #深度学习 #人工智能 +1

ChatGPT Agent全解析：从多任务处理到实操指南

2025年7月，OpenAI发布了ChatGPT Agent，这是融合Deep Research与Operator的全新AI助手，具备网页浏览、代码执行和视觉交互等能力。其核心为统一代理系统架构，采用文本浏览器和可视化浏览器的双浏览器设计，并运行于虚拟计算机环境中，能够独立完成多步骤任务，如竞争对手分析、PPT生成和在线购物。该功能通过Plus/Pro订阅可用，并设置消息次数限制（Pro用户400

大模型低成本落地实践：量化、蒸馏与 QLoRA 全解析

随着大模型的应用不断拓展，企业亟需在保证性能的同时降低部署和推理成本。本文以盘古 5.5、Kimi-K2 和 Qwen3 等大模型为例，系统分析了量化、蒸馏及 QLoRA 技术如何协同降低显存需求和计算开销。通过 4bit 量化、知识蒸馏及低秩微调，企业可在少量 GPU 资源下实现高效推理与定制化应用。文中还介绍了从模型选择、微调到推理优化的完整流程，并给出成本对比，帮助企业以更高性价比实现大模型

#自然语言处理 #深度学习 #人工智能 +2

通义千问Qwen3-30B-A3B-Thinking-2507技术解析：推理模型的工程实践突破

#人工智能 #自然语言处理 #深度学习

通用大模型、生成大模型、推理大模型：关系与区别详解

本文面向普通读者，全面介绍了通用大模型、生成大模型和推理大模型的定义、特点及相互关系。通用大模型作为基础框架，具备多模态处理能力和广泛的任务适应性；生成大模型通过学习数据分布实现内容创作，如文本和图像生成；推理大模型则强调逻辑推理与多步骤问题解决，在数学和决策等领域表现突出。三者关系上，生成与推理大模型多为通用模型的功能延伸，应用场景互补。未来发展趋势包括能力融合、行业垂直化以及效率优化，推动大模

#人工智能 #自然语言处理 #深度学习 +1

通义千问Qwen3-30B-A3B-Thinking-2507技术解析：推理模型的工程实践突破

#人工智能 #自然语言处理 #深度学习

每日AI观察 | 多模态编辑、研究Agent、云端智能体一览

过去24小时内，Runway推出多任务视频编辑模型Aleph，支持对象增删、风格转换与镜头迁移；微软为Edge浏览器引入Copilot模式，升级为“AI原生”浏览器；阶跃星辰发布AI研究助手“深研”，可十分钟生成专业报告；阿里云推出AgentBay，三行代码接入云端AI能力；昆仑万维开源多模态模型Skywork UniPic；OpenAI上线ChatGPT Study学习模式，强调引导式学习与批判

#人工智能 #自然语言处理 #github +1

到底了