
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Magnus是一个专为大规模机器学习工作负载设计的创新数据管理系统。针对传统数据湖表格式在存储效率、元数据管理和更新性能等方面的不足,Magnus提出了多项优化方案:1)自主研发Krypton列式格式和Blob多模态格式,显著提升存储和读取效率;2)通过消除冗余统计信息和构建索引优化元数据管理,使解析效率比Iceberg快5-26倍;3)支持轻量级的列级更新和主键Upsert机制;4)针对LLM和
本文介绍了时间序列分析中的关键技术:1)Transformer架构及其改进版Informer,通过特征提取解决长尾问题;2)TimesNet将一维时序数据转换为二维;3)傅里叶变换分解影响因素并量化重要性。重点阐述了利用大模型实现文本域到时间域的映射方法:通过全连接层将时间片段(如缓慢下降、平缓上升)与文本patch绑定,使大模型适应时序分析。该方法结合了1D-2D转换、卷积特征提取等技术,为时序
LangGraph是一个基于状态流转的流程图框架,核心包含四个概念:状态(state)作为数据载体,节点(node)作为处理单元,边(edge)连接节点,以及图(graph)组织流程。其执行逻辑为初始状态输入后,按节点和边的定义顺序处理并更新状态,直至终止。文中展示了两种实现案例:基础流程演示了状态传递和处理过程;条件分支案例则通过条件函数动态选择执行路径。两个案例都遵循定义状态、创建节点、构建边
摘要:针对GraphRAG系统存在的冗余计算和缓存复用效率低问题,研究者提出DepCache优化框架。通过依赖注意力机制(仅计算相关实体间的注意力)和图结构感知的KVCache复用策略,配合创新的LACR缓存替换算法,在Llama3等模型上实现:首Token延迟降低1.5-3.2倍,吞吐率提升1.5-5倍,缓存命中率提高6.7%-10.1%,同时保持生成质量。实验验证了结构感知微调和图KV复用的关
Tokencake是首个以KV Cache 为中心、专为LLM 多智能体应用设计的服务框架。通过智能体感知的空间分区与预测驱动的时间卸载/加载机制,有效解决了多智能体场景下的资源争用与缓存闲置问题,在真实负载下显著优于现有系统。原文:大型语言模型(LLM)正越来越多地应用于需要外部函数调用的复杂多智能体场景中。这类工作负载给KV Cache带来了严峻的性能挑战:空间竞争会导致关键智能体的缓存被驱逐
本文介绍了从零构建小型LLM(类似GPT2)的实现过程。主要内容包括:1. Tokenizer部分:详细讲解BPE分词算法原理,比较字符级、词级和子词级分词方案的优劣;2. 模型核心组件:包括嵌入层(解决数字无语义问题)、位置编码(处理词序)、注意力机制(建立词间关系)和Transformer结构;3. 训练方法:通过预测下一个词的任务让模型学习语言模式,并介绍了SFT微调方法;4. 生成策略:解
量化的主要技术路线有两条,第一条是权重量化。权重量化的理论加速比是16/量化的比特数。例如,将模型压缩成为4bit,那么理论加速比为16/4=4倍。然而,当服务商面临大量的用户同时访问时,权重量化的系统吞吐会低于FP16的吞吐,其主要原因是权重量化计算过程中将低精度权重恢复成FP16然后计算,这导致权重量化并不使用低精度算力,当场景表现为compute bound的时候,性能较低。△。

"微舆"是一款创新型多智能体舆情分析系统,通过AI驱动实现全网舆情监控与深度分析。系统整合30+社媒平台数据,采用五大专业Agent协同工作,具备多模态内容解析、公私域数据融合和智能报告生成等核心功能。其创新性体现在"论坛式"协作机制,通过辩论式思维碰撞提升分析质量。系统采用模块化设计,支持快速部署和扩展,既能满足舆情分析需求,也可灵活适配金融等垂直领域。目
Claude Skills是一种模块化能力包,包含详细说明文档、脚本模板和资源文件,可让AI高效执行特定专业任务(如文档处理、数据分析)。其核心优势在于可组合性、可移植性和高效性,能提升40%效率并减少35%错误。与MCP(主要连接外部系统)不同,Skills更专注于工具处理,两者可互补使用。官方已开源12个Skills,用户可通过简单命令安装使用。Skills通过预封装标准化流程,避免了传统方式
报告的核心结论是,未来没有一种“万能”的存储技术。AI计算系统将依赖于DRAM、NAND与多种新兴存储技术(如HBM, CXL, PIM, SOM/MRAM等)的“组合创新”,通过架构层面的深度融合来满足不同场景对性能、能效和成本的要求。为了支撑更强大的AI,计算、内存和存储必须进行系统性的协同革新。如果你对其中某一种具体的技术(比如HBM是如何工作的,或者PIM如何实现“存内计算”)特别感兴趣,







