logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LongCat-Flash-Chat:高效智能体大语言模型

LongCat-Flash-Chat 重新定义了高效大模型的技术路线——不是盲目堆砌参数,而是通过精巧架构、严谨训练与目标导向优化,在计算效率与模型能力间取得最优平衡。其开源(MIT 许可证)将加速智能体技术在各行各业的落地,推动 AI 从"语言模型"迈向"行动智能"的新阶段。

文章图片
#语言模型#人工智能#自然语言处理 +1
PPO前传1:策略梯度算法

策略梯度算法是强化学习中一类直接优化参数化策略 πθ(a∣s)\pi_\theta(a|s)πθ​(a∣s) 的方法,通过计算目标函数(通常是累计奖励的期望)关于策略参数 θ\thetaθ 的梯度,并沿着梯度方向更新 θ\thetaθ。在经典的马尔可夫决策过程(MDP)中,我们的目标是找到一个参数 θ\thetaθ 使得期望累计奖励最大化。对于回合制任务(Episodic Tasks),目标函数可

文章图片
#算法#人工智能#语言模型 +2
Gemma 3:轻量、多模态、长上下文、负责任开源的工业级新标杆

Gemma 3 是 Google 首个支持图像理解的轻量级开源大模型,在消费级硬件上实现 128K 长上下文、多语言、强 STEM 能力,27B 版性能媲美 Gemini 1.5 Pro,同时以系统化安全机制保障负责任部署。

文章图片
#算法#人工智能#计算机视觉 +1
DeepSeek-R1强化训练基石:GRPO

GRPO是一种专为大型语言模型设计的强化学习算法,通过组内采样比较替代传统PPO的价值网络,显著降低计算开销。其核心流程包括生成多样化回答、计算标准化优势、KL散度约束和策略更新。GRPO在可验证奖励任务中表现优异,但也存在长度偏差等问题,后续改进算法如Dr. GRPO、GSPO等针对性地优化了优势计算和稳定性。该算法为LLM强化学习提供了高效简洁的新范式。

文章图片
#人工智能#计算机视觉#自然语言处理 +2
Qwen3-Omni:统一端到端多模态交互模型的架构演进与技术突破

首个支持动态思考模式切换的开源大模型→ 一模型通吃简单与复杂任务。119语言支持 + 36T Token训练→ 真正全球化、多领域能力。强到弱蒸馏 + 高效MoE→ 小模型低成本高性能,推动边缘部署。全系列开源 + 完整技术报告→ 社区可复现、可改进、可商用。

文章图片
#人工智能#计算机视觉#自然语言处理 +1
【LLM大模型组件】大模型上下文窗口扩展技术

上下文窗口(Context Window)指模型单次前向传播可处理的最大输入序列长度,直接影响长文本理解、多轮对话连贯性与复杂推理能力。简单来说就是,上下文窗口:就是大模型的“短期记忆力”——它能一次性处理多少文本内容。4K tokens:约3页A4纸的内容(传统模型)32K tokens:一篇完整学术论文或中篇小说:整本《三体》或专业技术手册1M+ tokens:你过去一年的所有聊天记录或整套法

文章图片
#人工智能#自然语言处理#计算机视觉 +1
Qwen3-VL:下一代视觉语言大模型

Qwen3-VL系列实现视觉语言模型从感知到认知与执行的关键突破,在文本能力、视觉推理、长视频处理等维度全面升级。其旗舰模型Qwen3-VL-235B-A22B在多项评测中超越Gemini 2.5 Pro并达到SOTA水平。通过创新性的MRoPE-Interleave位置编码和DeepStack多层视觉注入技术,模型显著提升了时空鲁棒性和视觉细节捕捉能力,支持256K token长上下文和精准视频

文章图片
#算法#人工智能#自然语言处理 +2
Qwen3-Next:长上下文 + 高稀疏MoE + 混合注意力 = 下一代大模型架构革命

Qwen3-Next提出新一代大模型架构创新,通过混合注意力机制(75% Gated DeltaNet + 25% Gated Attention)、极致稀疏MoE(80B总参/3B激活)、训练稳定性优化及多Token预测技术,实现突破性进展。该架构在仅消耗Qwen3-32B 9.3%训练成本下,性能持平甚至超越235B旗舰模型,推理吞吐提升10倍以上,支持256K长上下文处理。核心优势体现为:更

文章图片
#深度学习#人工智能#自然语言处理 +1
Qwen3 Embedding与Reranking:新一代文本表征与排序模型

文章优先发布在,有些文章未来得及同步,可以直接关注公众号查看。

文章图片
#人工智能#计算机视觉#自然语言处理 +1
DeepSeek-OCR :面向上下文光学压缩的端到端文档理解系统

DeepSeek-OCR提出了一种面向大语言模型(LLMs)的新型上下文处理范式,通过将文本内容编码为高信息密度的视觉标记(vision tokens),再由视觉语言模型解码重建,实现了文本信息的高效压缩。该系统采用双模块协同架构:DeepEncoder作为上下文光学压缩器,DeepSeek3B-MoE-A570M作为解码器。

文章图片
#人工智能#计算机视觉#自然语言处理 +1
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择