
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出FinGPT——一款由AI4Finance Foundation主导开发的开源金融大语言模型(FinLLMs),旨在解决金融领域高时间敏感性、高动态性、低信噪比(SNR)的核心挑战。与BloombergGPT等专有模型(训练成本约$300万)不同,FinGPT以数据中心approach为核心,构建包含数据来源层、数据工程层、LLMs层、任务层、应用层的端到端框架,通过轻量级微调(单次成本约

本文提出,这是一个基于工具增强VLLM的通用CAD任务求解框架,核心由VLLM规划器(如GPT-4o)、集成的执行环境,以及包含手绘草图参数化器、约束检查器等在内的CAD专用工具集构成;它能处理文本、手绘草图、3D扫描等多模态输入,通过迭代生成Python代码并在FreeCAD中执行,动态适配CAD设计状态,有效弥补VLLM在几何推理和CAD命令影响预测上的局限;在CAD问答(CQA)、自动约束、

引入“样式混合”“截断技巧”,实现对生成图像特征(发型、肤色等)的精细控制,生成的人脸图像高度逼真,为后续StyleGAN系列奠定基础。Google多模态大模型,支持文本、图像、视频联合处理,可根据长文本、视频片段生成逻辑连贯的图像/视频内容,向动态内容生成延伸。OpenAI推出的早期文本-图像生成模型,可根据趣味文本描述(如“牛油果穿西装办公”)生成对应图像,开启多模态图像生成新方向。百度推出的

LoRA和ControlNet的差异,本质是“特征微调”与“结构控制若需“让模型学会新风格、固定特征”,选LoRA;若需“让模型严格遵循外部结构指令”,选ControlNet;若需“风格可控+结构精确”,则两者结合是最优解。随着AIGC技术的发展,两者的融合已成为趋势(如“ControlLoRA”等混合方案),未来可能出现更高效的协同框架,让“定制化+可控性”的生成体验进一步升级。对于开发者和创作
代码和文档介绍详见GitHub:下面用两张图三分钟,介绍一下DeepSeek-VL。

SpatialLM 以“低成本视频输入+高精度空间理解+开源赋能”为核心亮点,是连接现实空间与数字世界的关键技术桥梁。其轻量架构与多场景适配能力,使其成为空间智能领域的重要基础设施,推动具身智能、建筑数字化、AR/VR 等领域的技术落地与创新应用。

熵”是信息论中衡量概率分布不确定性的指标。在MaxEnt RL中,我们关注的是策略π的熵H(π)若策略熵高:在同一状态下,智能体选择不同动作的概率更平均(如“选动作A的概率40%,选动作B的概率35%,选动作C的概率25%”),随机性强。若策略熵低:在同一状态下,智能体几乎只选某一个动作(如“选动作A的概率99%,其他动作1%”),随机性弱(接近传统RL的固定策略)。
ControlNet 通过“冻结原模型+学习控制信号”的轻量设计,为扩散模型赋予了精确的可控性,既保留了大模型的生成质量,又降低了定制化控制的门槛。它的出现不仅推动了 AIGC 从“随机生成”走向“精准创作”,也为普通用户提供了用“视觉语言”与 AI 协作的能力,成为连接创意与实现的重要桥梁。
DSA的本质,是用“轻量索引筛选+高效注意力计算”的组合,解决了长上下文大模型的“性能-效率”矛盾。这张架构图里的每个模块,都在围绕“少算但算对”这个目标设计——而这,正是开源大模型能追上闭源前沿的关键技术之一。

Encoder的“理解能力”让BERT成为NLP理解类任务的标杆;Decoder的“生成能力”让GPT成为文本创作类任务的顶流。无需追求“大而全”,聚焦“单点专精”也能打造出影响行业的技术突破。未来,Encoder与Decoder的潜力或许还会在更多领域(如多模态、强化学习)绽放,让我们持续关注这场由Transformer开启的技术演进之旅。







