logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型行研:算力加速的技术标准 - RDMA

远程直接内存访问 (RDMA) 是一种允许联网计算机直接访问彼此主内存的技术,无需涉及处理器、缓存或操作系统,是一个由多个公司和组织合作开发的技术标准。这种旁路方法减少了 CPU 负载并降低了延迟,从而实现更快的数据传输速度,非常适合需要高速数据传输的应用,例如高性能计算 (HPC) 集群、数据中心网络和大数据分析。可以这样形象化理解:以前:快速是需要送到大楼的收发室里,再由收发室送到收件人手里,

文章图片
#网络#人工智能#microsoft +2
没有标记数据集,如何做大模型指令微调?介绍一款有潜力的标记数据集生成模型

在构建大模型应用时,通常有两种方式来改进效果,一种是构建外部知识库,利用RAG来完成。但RAG并不是万能的,对于特定领域的LLM应用,以及无需示例,就能完成特定任务等场合就需要进行微调。然而,微调本身相较于RAG来讲,需要更多的算力资源和时间周期,但更大的瓶颈在于微调需要标记过的样本数据。这对于很多企业来讲,很难有这样高质量的数据积累,他们的数据通常是未经标记的,可能是一篇一篇的文章或者规章制度,

文章图片
#数据库#金融#大数据 +1
财务数智化 | 场景驱动 融合创新 DeepSeek等大模型技术 推动财务数字化转型实践观察与思考

2025年1月DeepSeek-R1正式发布以来,凭借其推理能力和部署成本优势的特点迅速引起行业重视。DeepSeek-R1在推理、代码生成等领域表现优异,在降低部署成本和训练成本的同时,促进了AI应用商业模式从“算力壁垒”到“场景驱动算法普及”的转变。财务作为企业数据处理和应用的中心,伴随DeepSeek等人工智能产品不断涌现,为智能财务的管理方式和商业模式带来全新的范式。围绕大模型在财务领域的

文章图片
#语言模型#人工智能#自然语言处理 +1
谈谈字节的Attention/Expert分离

看到一篇字节的AE分离(Attn/MoE)的文章《》 挺有趣的.文章有一个非常简单的叙事, Microbatch, 然后M:N的Attn:MoE配比并配合异构算力来降低成本.

文章图片
#人工智能#搜索引擎#数据库 +1
北京大学开源论文 | 强化学习微调框架引入具身智能领域!让机器人“看懂”空间变化

视觉推理能力是人工智能迈向通用智能(AGI)的关键,但传统方法存在过拟合、认知僵化等问题。近期,来自北京大学和北京人工智能研究院的团队提出 Reason-RFT 框架,通过强化微调(RFT)与监督学习(SFT)的结合,显著提升了视觉语言模型(VLM)的推理泛化能力。Reason-RFT 的核心是两阶段混合训练策略,结合监督学习与强化学习的优势:阶段一:监督微调激活推理能力阶段二:GRPO 提升泛化

文章图片
#开源#机器人#人工智能 +4
如何打造一个高效的智能问答系统

智能问答系统作为人工智能技术体系中的核心分支,凭借其在响应效率与服务便捷性方面的突出优势,正在深刻变革人类社会的传统信息交互模式。本文将系统阐述智能问答系统的整体架构设计原理与技术实现路径,旨在为相关从业者提供系统性认知框架,助力该技术在实际业务场景中的有效落地。本系统采用分层式架构设计,由前端交互层、智能处理层及数据支撑层三大核心模块构成。各模块通过标准接口实现有机协同,形成完整的「输入-处理-

文章图片
#人工智能#react.js#前端 +2
字节跳动发Seed-TTS语音合成模型,可模仿任意人的声音,效果逼真

我们介绍过很多语音合成的模型,比如ChatTTS,微软语音合成大模型等,随着大模型的不断进步,其合成的声音基本跟真人没有多大的区别。本期介绍的是字节跳动自家发布的语音合成模型Seed-TTS。Seed-TTS 推理包含四个功能模块:(1) 语音标记器从参考语音中学习标记信息。(2)自回归语言模型根据条件文本和语音生成语音标记。(3) 扩散变换器模型以从粗到细的方式生成语音标记的连续语音表示。(4)

文章图片
#人工智能#大数据#网络 +1
Function Calling + LangChain 拉通业务系统的技术架构

LLMs通过训练海量数据生成高级语言模型,从最初的GPT-3到如今的GPT-4,这些模型在理解和生成自然语言文本方面取得了显著进步,被广泛应用于自动化内容创作、聊天机器人、语言翻译等多个领域。Function Calling是一种使LLMs能够与外部系统、API或自定义函数进行交互的新兴技术。通过解析用户请求并自动选择和调用适当的外部功能,Function Calling实现了更复杂和动态的交互。

文章图片
#架构#transformer#深度学习 +1
医图论文 AAAI‘25 | BSAFusion: 用于未对齐医学图像融合的双向逐步特征对齐网络

如果未对齐的多模态医学图像能够在一个统一的框架内通过单阶段方法同时对齐和融合,不仅可以实现双任务的相互促进,还能帮助减少模型的复杂性。然而,该模型的设计面临特征融合和对齐需求不兼容的挑战。为了解决这一挑战,作者提出了一种未对齐医学图像融合方法,称为双向逐步特征对齐与融合(BSFA-F)策略。为了减少模态差异对跨模态特征匹配的负面影响,作者将模态差异无特征表示(MDF-FR)方法融入BSFA-F中。

文章图片
#计算机视觉#人工智能#java +3
Transformer,一个神奇的算法模型 !!

Transformer 模型的核心在于其自注意力机制和多头注意力机制,通过这些机制,模型能够有效地理解并处理序列数据中的复杂关系。虽然其公式和实现细节可能略显复杂,但 Transformer 提供了一种强大而灵活的框架来处理各种自然语言处理任务。

文章图片
#transformer#算法#深度学习 +4
    共 1090 条
  • 1
  • 2
  • 3
  • 109
  • 请选择