
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
5年前,作者作为大一新生开始在CSDN记录Python学习过程,初衷只是为解决自学中的困惑。通过持续记录,逐渐形成了系统的知识体系。2025年,作者已成长为人工智能研究生和CSDN博客专家,出版了《数字图像处理》专著。 文章分享了三点经验:1)真实记录学习过程,不跳过任何细节;2)将AIGC作为学习助手而非替代工具;3)坚持写作初心,不为榜单所累。

大语言模型的浪潮推动了 AI Agent 相关研究快速发展,AI Agent 是当前通往 AGI 的主要探索路线。大模型让 AI 会思考,而 Agent 让思考能落地"——这正是Deepseek等平台正在构建的下一代智能基础设施。

U-Bench是首个全面评估100种U-Net变体的大规模基准测试平台,涵盖28个数据集和10种医学影像模态。该研究提出U-Score新指标,综合评估模型性能与计算效率,揭示了现有方法在统计显著性、零样本泛化能力和效率权衡方面的不足。该工作填补了U-Net变体缺乏系统性评估的空白,为临床部署和未来研究提供了重要参考。

GPT-OSS 是 OpenAI 推出的开源 GPT 服务框架,本地部署在性能、成本和安全等方面具有显著优势。本文详细讲解 基于 Ollama+Docker+OpenWebUI 的本地化部署流程,并通过实例代码演示。

GPT-4o 的图像生成,具有精准呈现文本、严格遵循指令、巧妙运用4o 内置知识库与对话上下文的特点。本文详细介绍 GPT-4o 的图像生成,并全文翻译官方技术报告 “Addendum to GPT-4o System Card: Native image generation”。

FunBench 视觉问答基准专为评估多模态大型语言模型(MLLMs)的眼底图像解读能力而设计,其核心特点是四级分层任务架构(模态感知、解剖结构感知、病变分析、疾病诊断)和三种针对性评估模式(基于线性探针的视觉编码器评估、知识提示的语言模型评估、整体评估),数据集涵盖 16,348 张眼底图像和 91,810 个视觉问题

2025年 9月,DeepSeek-R1 论文以封面文章的形式登上了权威科学期刊 Nature,这是第一个在经过同行评审后发表的主流 LLM。本文详细翻译解读 【Nature封面文章】 DeepSeek-R1 通过强化学习机制激励大语言模型进行推理优化。

DeepSeek-AI 发表论文 "Inference-Time Scaling for Generalist Reward Modeling(推理时扩展的通用奖励模型)",提出了一种 "自原则批判调优(SPCT)" 技术,使奖励模型在推理阶段能够动态扩展计算资源。本研究表明 “推理时扩展” 在通用 RM 中的有效性,性能超越训练时扩展。

借助扣子Coze提供的可视化设计与编排工具,你可以通过零代码或低代码的方式,快速搭建出基于大模型的各类 AI 项目。本文详细讲解基于 Coze 快速搭建智能体的步骤。

MOCHA(Multi-modal Objects-aware Cross-arcHitecture Alignment)是一种面向少样本个性化目标检测的多模态跨架构知识蒸馏方法,核心是将大型视觉语言模型(VLM)的区域级多模态语义迁移到轻量级纯视觉目标检测器中。本文将大型 Transformer-based 视觉语言教师模型(如 LLaVa-1.5-7B)的语义知识,高效迁移到轻量级 CNN-b








