
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
大模型基准测试:数字背后的真相 摘要:本文深入解析了LLM基准测试的运作机制与价值局限。基准测试通过标准化题库和评分规则,为多元能力的大模型提供量化比较依据。主流测试包括知识与推理(如MMLU)、代码生成(如HumanEval)、对话交互(如ChatbotArena)等类别,采用零样本、少样本或微调等不同测试方式。虽然评分系统(如BLEU、ROUGE等)能客观衡量部分能力,但测试仍存在评分饱和、覆

阿里云发布千问Qwen3.6-Plus模型,实现编程智能体、通用智能体和工具调用三大能力跃升。该模型配备100万token超长上下文窗口,在编程基准测试中紧追ClaudeOpus4.5,部分表现超越;在通用智能体评测中与顶级模型同梯队,多模态能力全面提升。支持主流Agent框架,API调用价格低至2元/百万tokens。实测显示其"氛围编程"能力可快速生成完整应用,标志AI工作

Google DeepMind发布Gemma4系列开源模型,全面支持文本、图像、视频和音频处理。该系列包含四款不同尺寸模型,覆盖从移动设备到高性能GPU的全场景需求,采用Apache2.0许可彻底开放商用。其中E系列通过创新技术大幅降低计算成本,26B版本采用MoE架构实现高效推理。性能测试显示,31B版本在开源模型中排名全球第三。Gemma4突破性地改进了注意力机制,支持长上下文处理,同时保持高

摘要:DeepSeek推出的Engram技术通过分离静态记忆与动态推理,解决了传统Transformer架构在处理简单事实时浪费算力的问题。该技术采用分词器压缩、多头哈希和上下文感知门控三项创新,实现O(1)级知识查找。研究发现20%-25%参数分配给Engram能获得最佳性能,270亿参数模型表现优于传统MoE。Engram不仅提升记忆能力,还显著增强逻辑推理(BBH任务提升5.0)和长文本处理

摘要:现代AI助手如ClaudeCode的核心架构其实非常简单——一个while循环加上工具调用机制。文章解析了这种被称为"AgentLoop"的模式:语言模型通过循环不断接收工具执行结果,自主决定何时停止。核心实现包括安全执行层、工具定义和消息历史管理,整个系统仅需30行代码即可构建基础功能。这种设计让模型能自主判断任务完成度,只需添加工具即可扩展能力边界,是构建复杂AI助手

打开 deerflow 的官网,瞬间被首页的这段文字震撼到了,do anything with deerflow。让 agent 做任何事情,这让我同时想到了 openclaw 刚上线时场景。

阿里开源Qwen3-TTS语音模型引发热议,其97ms超低延迟和精准音色克隆能力令人惊艳。该模型采用Dual-Track双轨建模技术,实现"话音刚落,回应即至"的流畅交互体验。创新的12Hz Tokenizer保留副语言细节,非DiT架构在保证音质的同时降低算力需求。更支持自然语言控制语音风格,并能从零创造音色。开源1.7B和0.6B两个版本,支持10种语言,让开发者能以低成本

《FlashAttention-4:重新定义GPU上的Attention计算》 随着GPU算力持续提升,Attention计算却未获得等比例加速。最新研究发现,现代GPU的矩阵运算已足够快,但Softmax中的指数运算和内存访问成为新瓶颈。FlashAttention-4通过算法-硬件协同设计实现突破:1)用多项式逼近替代昂贵的exp运算;2)重构异步流水线;3)优化Softmax重缩放策略;4)

本文从生物神经元的工作原理出发,系统介绍了人工神经网络的基本原理。首先解释了生物神经元接收、整合和传递信号的机制,然后阐述了感知机如何通过权重、偏置和激活函数模拟这一过程。文章详细讲解了多层神经网络的结构、前向传播的计算逻辑,以及通过损失函数、反向传播和梯度下降进行参数优化的方法。最后以MNIST手写数字识别为例展示了神经网络的实际应用,并讨论了过拟合问题及正则化解决方案。全文深入浅出地揭示了神经

温度参数是控制大语言模型输出的关键调节器,它通过调整softmax函数前的logit分布来改变生成文本的随机性和创造性。低温(T<1)使输出更确定和保守,依赖训练数据中的常见模式;高温(T>1)增加多样性但可能降低连贯性。温度需与top_k、top_p等采样参数协同工作,并配合max_length、停止序列等控制输出结构。实际应用中,不同任务需要针对性配置:代码生成用低温(≈0.2),








