
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
比赛链接:https://www.kesci.com/home/competition/5ee1f35f73aef4002c76ef3b代码获取方式:关注公众号 ChallengeHub 回复“新网杯”1 赛事背景2020年“创青春·交子杯”新网银行金融科技挑战赛-AI算法赛道,旨在鼓励选手运用前沿的人工智能技术解决金融科技等领域中的实际问题,激发选手创新能力,增强其动手能力。比赛挑战题目为...
OpenCompass 是面向大模型评测的一站式平台。开源可复现:提供公平、公开、可复现的大模型评测方案全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案,全面评估模型能力丰富的模型支持:已支持 20+ HuggingFace 及 API 模型分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测多样化评测范式:支持零样本、小样本及思维链评

信息检索数据集

1 GraphSAGE论文简介论文:Inductive Representation Learning on Large Graphs在大图上的归纳表示学习链接:https://arxiv.org/abs/1706.02216作者:Hamilton, William L. and Ying, Rex and Leskovec, Jure(斯坦福)来源:NIPS 2017代码:https://git
GSM8K(Grade School Math 8K)是一个包含8,500个高质量、语言多样的小学数学文字问题的数据集。该数据集旨在支持需要多步推理的基础数学问题解答任务。

代码摘要中的幻觉检测面临一项重要挑战,即编程语言与自然语言之间复杂的交互关系。随着大型语言模型(LLMs)在理解这两个领域的任务中变得越来越熟练,它们的输出往往容易出现幻觉——即生成的摘要偏离实际代码逻辑或引入虚假信息。这一问题尤为复杂,因为它涉及双重任务:准确解读代码的技术语义,同时将其清晰地表达为自然语言。这一挑战进一步加剧的原因在于LLMs可能会根据标识符名称错误地解释代码实体,或者缺乏对特
在深度搜索智能体的 RL 训练中,看起来"更复杂、更科学"的设计(长推理链、模糊的 F1 奖励、复杂的基线估计)往往不如简化设计有效;反而通过消除不必要的中间监督、让奖励信号更明确、采用更直白的优化策略,能获得更好的稳定性和性能。有时候,简单粗暴比聪明复杂更靠谱。第一,提示词工程的陷阱。显式推理不一定更好。在 RL 的稀疏奖励环境下,过度详细的指令反而容易引发模型学习错误的信号。让模型专注于核心决

这些笔记的框架主要基于Hugging Face发布的SmolLM3报告,因为其内容最为全面和系统化。同时还参考了Intellect-3、gpt-oss-120b、Hermes 4、DeepSeek和Kimi等其他报告中的相关内容。虽然本文会涉及一些基础设施概念,比如动态权重更新和多客户端编排器,但并不会深入讨论专家并行和量化等其他重要主题。前沿大模型训练本质上是一个系统问题:数据混合、架构选择和稳

11.6 Momentum在 Section 11.4 中,我们提到,目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,梯度下降根据自变量当前位置,沿着当前位置的梯度更新自变量。然而,如果自变量的迭代方向仅仅取决于自变量当前位置,这可能会带来一些问题。对于noisy gradien...
比赛链接:https://tianchi.aliyun.com/forum/#raceId=531810以下资料整理自比赛论坛,感谢这些无私开源的选手们,以下是整理TOP5方案的主要思路和模型,以便大家学习零基础入门NLP - 新闻文本分类比赛方案分享 nano- Rank1代码:https://github.com/kangyishuai/NEWS-TEXT-CLASSIFICA...







