logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

中科大、智源等发布推理检索框架BGE-Reasoner、打破瓶颈,让RAG学会思考

中国研究团队推出BGE-Reasoner,在推理密集型信息检索领域取得突破。该方案由中科大、智源研究院等机构联合研发,通过三阶段模块化框架(查询改写、向量检索、强化学习重排序)显著提升复杂推理任务中的检索性能。在权威BRIGHT基准测试中以45.2分刷新纪录,领先第二名3.6分。关键技术包括:利用大模型合成高质量训练数据解决数据稀缺问题;将强化学习应用于排序模型训练;提出的BGE-Reasoner

文章图片
#搜索引擎#百度#人工智能 +1
FlashCommunication V2登场!突破「任意比特」通信瓶颈,加速大模型分布式训练与部署

论文《FlashCommunicationV2》提出创新通信技术,解决大模型分布式训练中的带宽瓶颈问题。

文章图片
#分布式#人工智能#机器学习 +2
谷歌又赢了,nano banana「被迫」改名后,网友搞出7种神仙玩法

只需提供两个动漫角色图像,再加上一张手绘简笔画指定战斗姿势,输入提示词「Have these two characters fight using the pose from Figure 3. Add appropriate visual」,AI 就能将这些元素整合,还能添加丰富的背景和特效。第一步,给一张真实的自动驾驶汽车照片,提示词「turn this into black-and-whit

文章图片
#人工智能#架构
不靠海量数据,精准喂养大模型!上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果

上海交通大学团队提出DataWhisperer框架,创新性地利用预训练模型的上下文学习能力实现高效数据选择,为LLM高效微调提供了新思路。

文章图片
#深度学习#人工智能#机器学习
00后MIT华人女生辍学AI创业,已融1.5个亿

00后华人女生Jessica Wu从MIT辍学创立AI公司Sola Solutions,专注RPA自动化领域,获1.5亿元融资。公司定位"RPA界的Copilot",通过LLM和计算机视觉帮助企业实现流程自动化,客户包括摩根大通等财富100强企业。Jessica跨界数学、计算机和金融领域,曾创办服装公司并在对冲基金工作。

文章图片
#人工智能#AI
All in one,统一多模态理解与生成!7B 参数的BAGEL为何能媲美GPT-4o?

BAGEL 是字节 2025.05 出品的理解生成统一的开源模型。BAGEL 搞了一个高质量多模态交错数据集,在这个数据集上进行训练,BAGEL 表现出了逐渐涌现的能力。从基本的理解,生成,逐渐到简单的编辑和复杂的编辑能力。这个现象很有趣。此外,BAGEL 在标准基准的多模态生成和理解方面明显优于开源统一模型,同时展示了先进的多模态推理能力。

#深度学习#人工智能#lstm +3
Grok代码模型来了:限时免费用,速度超级快

马斯克旗下xAI本周推出全新代码模型GrokCodeFast1,速度较GPT-5快3倍且成本降低6倍。该专为AI编程任务优化的模型支持TypeScript、Python等主流语言,能自动调用开发工具完成代码任务。采用创新架构训练,在SWE-Bench测试中取得70.8%的高分,接近Claude4水平。现已免费开放一周试用,未来将升级支持多模态输入和扩展上下文功能。

#人工智能#架构
25年最火AI编程Claude保姆级使用指南:零基础也能玩转​

目前最炙手可热的 AI 编程工具非 Claude Code 莫属,它是一个强大的 AI 编程助手,可以让您可以直接在终端中与 AI 协作编程,今天就来介绍下如何玩转Claude code。

文章图片
#语言模型
​​突破Transformer架构限制​,上海交通大学发布全球首个类脑大语言模型BriLLM

上海交大赵海团队发布全球首个人脑启发大模型BriLLM,突破传统Transformer架构局限。

#人工智能#机器学习#transformer
阿里闪电入局Agent Infra!智能体新基建亮相WAIC,“超级大脑”开箱即用

全球AI算力基建竞争白热化,两大云巨头同步布局Agent基础设施。在WAIC2025上,阿里云推出无影AgentBay,作为专为AIAgent开发的云端超级电脑,提供沙箱环境、多系统支持(含移动端)、数据持久化和企业级安全等核心功能,解决Agent开发中的环境适配与算力需求难题。

#人工智能#大数据#阿里云 +1
    共 67 条
  • 1
  • 2
  • 3
  • 7
  • 请选择