
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
调整模型参数以符合人类价值观,但这种方法存在致命短板——它需要海量标注数据、消耗巨大算力,且会覆盖模型原有的知识("知识退化"),更无法适配闭源商业模型(如GPT-4)。三大阶段动态引导模型行为。(URIAL):在问题前添加3个安全回答示例+系统指令(如"你是一个无害助手"),即可让原始模型达到接近微调的安全水平。(CoSA):引入"安全配置器",动态生成文化适配的提示(如对欧美用户强调隐私,对亚
例如,面对一道小学数学题,传统指令模型只需30个词就能解答,而某LRM模型竟用了1248个词,相当于写一篇小作文。这项研究不仅关乎算力节省,更是打开通用人工智能的关键钥匙——毕竟,真正的智慧不在于能想多少,而在于如何想得巧。实验显示,引入强化学习后模型在数学题上的冗余推理减少58%,但过度优化可能导致AI在复杂问题上“躺平”,需要更智能的奖励设计。这些变革让模型在保持精度的同时,推理速度提升3倍以
选自Lightning AI作者:Sebastian Raschka机器之心编译编辑:赵阳LoRA 微调方法,随着大模型的出现而走红。进NLP群—>加入NLP交流群最近几个月,ChatGPT 等一系列大语言模型(LLM)相继出现,随之而来的是算力紧缺日益严重。虽然人人都想打造专属于自己的大模型,但是能负担得起上亿参数模型训练的机构却寥寥无几。在快速发展的人工智能领域,以高效和有效的方式使用大
它教会AI在需要时清晰地说出“我要什么”,然后用巧妙的分层检索迅速找到,按需取用,动态搭建解决复杂任务的“工具链”。实验还对比了直接用用户原始查询去检索工具的方法(Q.Retrieval),其准确率(~65-72%)远低于MCP-Zero(~90-97%)。AI发出了清晰的需求单(“我要操作系统领域的,能读文件的工具”),接下来怎么快速从几千个工具里找到它?:需求单的措辞和工具官方文档很接近,找起
主题从0开始训练1.4b中文大模型的经验分享[1]个人简介黎健进(知乎:Lil2J)23年在华南师范大学软件工程毕业的一名硕士研究生,在校期间,我专注于自然语言处理(NLP)领域的研究,致力于探索语言智能的前沿技术。毕业后,我顺利加入了深圳一家知名的金融公司,目前主要负责大模型相关的工作,通过技术创新助力金融行业的智能化升级。在研究生阶段,有幸与华为昇腾团队展开了深入的合作,共同进行昇腾生态上的t
庆祝北京超算荣获2021 AI Perf500榜单总量份额第一福利来了!2000核时CPU算力或200元卡时GPU算力免费领!重要的事情说三遍,免费、免费、免费!无需转发,扫码直接领11月...
如今的大模型(如GPT-4o)越来越聪明,但“聪明”的背后是巨大的计算成本。比如,解答一道数学题时,模型会一步步写出推理过程,虽然答案更准,但生成的文字量暴涨,导致算力消耗和响应时间激增。:TwT请多位“老师模型”(如GPT-4、Mistral等)各自写答案,再用。:挑出老师们观点差异最大的答案,避免“标准答案”单一化(用余弦相似度对比)。:探索更多任务类型,研究隐式推理机制,让LLM真正“无师自
近年来,LLMs如GPT系列、Llama等,以惊人的速度发展,参数规模从几亿跃升至万亿级别,性能在多类任务中显著提升。未来LLM的发展应转向“有限优化”,即在理解其理论边界的基础上,设计更可靠、透明、高效的模型系统。即使相关文档被检索到,LLM也存在“中间位置忽略”现象:模型更关注开头和结尾的文本,中间部分容易被忽略。训练数据中,长距离依赖的样本极少,导致模型对远距离位置的注意力权重接近初始化状态
机器之心报道机器之心编辑部Transformer 是近期 NLP 领域里最热门的模型之一,但因为算力消耗过大,对于个人研究者来说一直不太友好。近日一篇入选 ICLR 2020 的研究提出...
传统的逐词生成方式(Auto-regressive Decoding)就像“一个字一个字写作文”,而推测解码技术则像“先草拟多个可能的后续句子,再快速验证”,从而大幅提速。但如何设计高效的草稿模型(Draft Model),一直是学术界和工业界的难题。LLM虽然能力强大,但生成文本时速度慢、计算成本高,尤其需要“长思考链”的任务(如复杂推理、长文本生成)更是雪上加霜。团队也提醒:盲目扩大草稿模型可







