
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
DeepSeek发布针对国产芯片的FP8量化策略UE8M0FP8,引发业界对大模型量化技术的关注。FP8作为低精度格式可平衡计算效率与模型精度,微软、Meta等巨头也在推进相关研究。与此同时,英伟达宣布更激进的FP4量化方案NVFP4,声称能在预训练阶段保持16位精度。该技术通过微块缩放、高精度编码等创新,在120亿参数模型上验证了可行性,训练速度较FP8提升7倍。这标志着AI训练进入超低精度新阶

摘要:DeepSeek发布V3.1模型,采用UE8M0FP8新型量化格式,性能提升显著且成本优势明显。该格式针对国产AI芯片优化,支持8位浮点计算,在存储、计算效率和精度间取得平衡。

目前最炙手可热的 AI 编程工具非 Claude Code 莫属,它是一个强大的 AI 编程助手,可以让您可以直接在终端中与 AI 协作编程,今天就来介绍下如何玩转Claude code。

Meta开源新一代视觉基础模型DINOv3,在自监督学习领域实现重大突破。该模型通过17亿图像训练和70亿参数规模,在15个视觉任务、60多个基准测试中超越专业解决方案。其创新性的GramAnchoring策略和RoPE编码技术,使模型无需微调即可处理高分辨率图像并生成优质特征图。Meta已开源包括卫星图像专用模型在内的多个版本,该技术已成功应用于医疗影像、环境监测等领域,为计算机视觉研究提供了强
PINN实在太好发论文了!在Nature、Science,和NeurIPS、ICLR等顶会上,都是霸榜的存在。PINN(物理信息神经网络)与LSTM(长短期记忆网络)的融合研究,已成为深度学习领域突破高区的创新路径。

中国研究团队推出BGE-Reasoner,在推理密集型信息检索领域取得突破。该方案由中科大、智源研究院等机构联合研发,通过三阶段模块化框架(查询改写、向量检索、强化学习重排序)显著提升复杂推理任务中的检索性能。在权威BRIGHT基准测试中以45.2分刷新纪录,领先第二名3.6分。关键技术包括:利用大模型合成高质量训练数据解决数据稀缺问题;将强化学习应用于排序模型训练;提出的BGE-Reasoner

论文《FlashCommunicationV2》提出创新通信技术,解决大模型分布式训练中的带宽瓶颈问题。

只需提供两个动漫角色图像,再加上一张手绘简笔画指定战斗姿势,输入提示词「Have these two characters fight using the pose from Figure 3. Add appropriate visual」,AI 就能将这些元素整合,还能添加丰富的背景和特效。第一步,给一张真实的自动驾驶汽车照片,提示词「turn this into black-and-whit

上海交通大学团队提出DataWhisperer框架,创新性地利用预训练模型的上下文学习能力实现高效数据选择,为LLM高效微调提供了新思路。

00后华人女生Jessica Wu从MIT辍学创立AI公司Sola Solutions,专注RPA自动化领域,获1.5亿元融资。公司定位"RPA界的Copilot",通过LLM和计算机视觉帮助企业实现流程自动化,客户包括摩根大通等财富100强企业。Jessica跨界数学、计算机和金融领域,曾创办服装公司并在对冲基金工作。








