
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:清华大学与快手团队联合提出FilmWeaver框架,解决多镜头视频生成的一致性问题。该框架采用双层缓存机制:时间缓存确保镜头内动作连贯性,镜头缓存维持跨镜头视觉一致性。通过四阶段推理流程支持从首镜头生成到多镜头叙事的全流程创作,并构建高质量多镜头数据集进行验证。实验表明,FilmWeaver在角色一致性(74.61%)、文本对齐(23.07%)等指标上显著优于现有方法,能稳定保持角色外观和背
论文标题:作者团队:浙江大学发布时间:2025年11月13日大语言模型(LLMs)在自动化数据分析任务中具有巨大潜力,但现有开源模型在面向高强度推理场景时仍存在明显局限。为此,本工作系统研究了提升开源 LLM 数据分析能力的策略。首先构建了一个涵盖多样且贴近真实场景的种子数据集,从数据理解、代码生成和策略规划三个核心维度对模型表现进行评测。
如今的大模型就像是一个功能强大的“万能API”,能够通过简单的接口调用即可实现诗歌创作、问题解答、代码编写甚至哲学思辨等复杂任务。实现这一切的关键,在于一套标准化的调用方式——即笔者今天要深入介绍的OpenAI格式。OpenAI格式如今已成为绝大多数主流大模型API调用的事实标准,它如同AI领域的“通用语言”或“普通话”,使得不同厂商、不同架构的大模型能够以统一的通信方式与用户交互,极大地降低了开
北京时间12月17日凌晨,谷歌正式发布了新一代AI模型Gemini 3 Flash,这款被称为“为速度而生的前沿智能”模型,在性能、成本和速度三个方面实现了突破性进展,有望重塑大模型性价比的天花板。
本文整理了LLaMA-Factory大模型微调工具使用中的9个高频问题及解决方案,涵盖显存管理、数据格式、训练优化等关键点。主要内容包括:1)多服务器通信方法;2)学术资源加速技巧;3)预训练样本数差异原因;4)LoRA参数设置问题;5)显存占用优化方案;6)多模态数据格式规范;7)Jupyter文件操作异常处理;8)训练数据顺序控制;9)模型输出异常排查方法(模板匹配、过拟合处理等)。文章还介绍
VideoLLaMA 3是基于Llama 3的前沿多模态基础模型,深度融合视觉、听觉与语言理解能力,支持高分辨率图像和长视频的端到端分析。其核心技术包括统一的视听语言架构、高效长视频词元化和万亿级多模态预训练,具备复杂的时空因果推理能力,可同步解析画面与音轨信息。该模型为影视分析、场景理解等任务提供强大支持,相关代码和预训练权重已在Lab4AI平台开源,用户可一键复现实验。

DeepSeek-OCR突破传统OCR局限,通过“压缩+解码”架构高效解析多模态文档。其核心包括双阶段视觉压缩引擎(DeepEncoder)和MoE解码器,能以10-20倍压缩比处理图像,在保持高精度的同时显著提升速度并降低显存占用。该技术仅需3B参数即可深度解析文字、表格、图表等内容,并支持3分钟私有化部署。Lab4AI平台提供全流程支持,用户可快速体验从文档上传到结构化输出的完整流程,实现高效

StackOverflow已经死亡了吗

清华大学与上海交通大学团队2025年发表的研究《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》挑战了强化学习与可验证奖励(RLVR)提升大模型推理能力的传统认知。研究发现当前RLVR方法仅优化了模型从基座已有能力中的采样效率,并未真正拓展其能力边界。通

实现跨越时空的文化互动,生动体验AI技术赋能下的历史人物“复活”。








