
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
近年来,随着计算能力的增强和数据量的爆炸式增长,大模型进入了快速发展的新阶段,展现出强大的语言理解和生成能力。同时,大模型的应用也带来了数据、计算和伦理等挑战,要求我们在享受技术进步带来的便利的同时,也要关注其可能带来的风险和影响。其次,大模型推动了数据预处理和模型训练技术的创新,使得模型在复杂任务上的表现显著增强。大模型在图像识别、目标检测、图像分割等方面展现出卓越的性能,如用于自动驾驶的车辆识

通用大模型技术快速发展,但很多传统行业推进得并不快。对企业而言,大模型应用需要综合考虑专业性、数据安全、持续迭代和综合成本等多种因素。针对这些现实情况,腾讯集团提出重点发展行业大模型的理念。本文基于一线大量实践反馈,做出系统归纳总结,呈现行业大模型发展真实情况,厘清关键争议和困惑问题。真正解决用户需求、距离场景和数据更近的企业,将拥有大模型的未来。

4 月 29 号凌晨,阿里巴巴发布了新一代通义千问 Qwen3 模型,并同步开源。(总是半夜搞大动作!)模型发布后,科技领域、AI 领域的知乎答主们第一时间体验该模型,并纷纷给出了自己的分析和思考,一起来看看吧~简单说结论——可以加显卡了,这就是可以本地部署的最强开源写代码大模型。Qwen3 写代码能力测试来啦!简单说结论——可以加显卡了,这就是可以本地部署的最强开源写代码大模型。主要问题出现在小

从整体上看,训练LLM主要包括两个关键阶段:预训练(Pre-training)后训练(Post-training):微调、RL和RLHF。

MCP是一种开放的技术协议,旨在标准化大型语言模型(LLM)与外部工具和服务的交互方式。你可以把MCP理解成像是一个AI世界的通用翻译官,让AI模型能够与各种各样的外部工具"对话"。

前言本文重点介绍使用微调框架unsloth,围绕DeepSeek R1 Distill 7B模型进行高效微调,并介绍用于推理大模型高效微调的COT数据集的创建和使用方法,并在一个medical-o1-reasoning-SFT数据集上完成高效微调实战,并最终达到问答风格优化&知识灌注目的。你能收获什么:亲手完成DeepSeek R1蒸馏模型的微调实战对模型微调、推理数据集等知识有一定了解对大模型运

RAG(Retrieval Augmented Generation,检索增强生成)技术最初源于2020年Facebook的一篇论文——《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。是的,2020年就已经提出了这项技术。这篇论文要解决的一个问题非常简单:如何让大语言模型使用外部知识进行生成。通常,预训练模型的知

现在,就行动起来吧,解锁 AI 驱动的下一代应用,开启你的创新之旅!调用 deepseek - reasoner 模型,平台可以对学生提交的代码进行分析,准确解析代码错误,并给出详细的修复建议,就像一位随时在线的编程导师。大模型的发展是当前人工智能时代科技进步的必然趋势,我们只有主动拥抱这种变化,紧跟数字化、智能化潮流,才能确保我们在激烈的竞争中立于不败之地。通过集成 deepseek - cha

大家好,我是程序员海文。最近DeepSeek非常的火爆,而我们开发中常用的是IDEA,如果将DeepSeek集成到IDEA中,一定会大大提高开发效率。Let’go!

MCP,即Model Context Protocol(模型上下文协议),是由Claude的母公司Anthropic在2024年底推出的一项创新技术协议。在它刚问世时,并未引起太多关注,反响较为平淡。然而,随着今年智能体Agent领域的迅猛发展,MCP逐渐进入大众视野并受到广泛关注。今年2月,Cursor宣布正式支持MCP功能,这无疑为MCP的推广按下了加速键,使其迅速走进了众多开发人员的视野。从








