辰阳星宇个人主页

@qq_41094332

辰阳星宇

2022-09-29 18:08:37 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【机器学习面试】百面机器学习笔记和问题总结+扩展面试题

第1章特征工程1、为什么需要对数值类型的特征做归一化？（1）消除量纲，将所有特征统一到一个大致相同的区间范围，使不同指标之间具由可比性；（2）可以加快梯度下降收敛的速度，归一化后让等高线的分布更加均匀，类似于一个圆，减少求解过程中参数寻优的震荡，更加笔直的找到最优解。常用的归一化方式有两种：（1）线性函数归一化（min-max scaling）：xnom=X−XminXmax−Xminx_{no

#机器学习 #算法 #决策树

11、动手学深度学习——语言模型和数据集：代码详解

我们了解了如何将文本数据映射为词元，以及将这些词元可以视为一系列离散的观测，例如单词或字符。假设长度为T的文本序列中的词元依次为x1x2xT。于是，xt1≤t≤T）可以被认为是t。在给定这样的文本序列时，语言模型（language model）的目标是估计序列的联合概率Px1x2xT例如，只需要一次抽取一个词元xt∼Pxt∣xt−1x1，一个理想的语言模型就能够基于模型本身生

#深度学习 #语言模型 #人工智能

1、动手学深度学习——线性神经网络：线性回归的实现（从零实现+内置函数实现）

接下来，我们必须定义模型，将模型的输入和参数同模型的输出关联起来。def linreg(X , w , b) : #@save """线性回归模型""" return torch . matmul(X , w) + b因为需要计算损失函数的梯度，所以我们应该先定义损失函数，在这里我们使用平方损失函数。

#深度学习 #神经网络 #线性回归

【Agent】rStar2-Agent: Agentic Reasoning Technical Report

Microsoft Research提出，这是一个基于14B预训练模型、通过智能体强化学习（agentic RL）训练的数学推理模型，核心创新包括GRPO-RoC算法（结合重采样策略解决代码环境噪声问题）、支持45K并发工具调用且平均延迟0.3秒的大规模RL基础设施，以及“非推理SFT+多阶段RL”的高效训练方案（仅用64块MI300X GPU、510个RL步骤、1周完成训练）。该模型在数学推理任

#人工智能 #自然语言处理 #算法

【基座模型】Qwen3报告总结

Github: Qwen3（1）扩展语言类型和数据领域种类。（2）数据合成：使用Qwen2.5-Vl合成读取PDF文件数据、使用Qwen2.5-math和Qwen2.5-coder合成数学想代码相关数据。（1）长COT冷启动数据：包含数学、代码、逻辑推理、通用STEM问题等，每个query都配备一个可验证的参考单或者基于代码的测试用例。排除了难验证（涉及多个子问题或者通用文本生成能力）和不需要CO

#人工智能 #语言模型

大模型模型训练参数指导

数据量推荐 LR原因1k–10k1e-6–5e-6防止过拟合与灾难性遗忘10k–50k5e-6–1e-5格式学习 + 稳定泛化50k–300k1e-5（标准）最稳、最常用、适用所有模型300k–1M5e-6–8e-6防止大规模训练导致模式坍缩1M–10M3e-6–6e-6防止破坏预训练能力。

#算法 #自然语言处理 #人工智能

【MLE】Benchmark 总结

arxiv:code:简介Meta 推出的 MLGym 框架及配套基准 MLGym-Bench，为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境，MLGym 支持强化学习等算法对代理的训练，其模块化设计涵盖Agent、环境、数据集和任务四大核心组件，允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建

#算法 #人工智能 #自然语言处理

【MLE】MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Meta 推出的 MLGym 框架及配套基准 MLGym-Bench，为评估和开发LLM Agent在 AI 研究任务中的表现提供了全新工具。作为首个基于 Gym 的机器学习任务环境，MLGym 支持强化学习等算法对代理的训练，其模块化设计涵盖Agent、环境、数据集和任务四大核心组件，允许灵活集成新任务、模型、工具和Agent。MLGym-Bench 包含五类机器学习建模任务，共13个跨领域的开

#人工智能 #算法 #自然语言处理

【工具调用】数据集总结

本文汇总了多个关于工具增强型语言模型（LLM）的最新研究，重点介绍它们在API调用和多轮交互方面的创新。AgentBank提出了5万+轨迹调优数据集，FunReason-MT开发了多轮函数调用框架，Gorilla和ToolLLM分别连接了海量API（16,000+），API-Bank则提供了全面的评估基准（73个API）。这些研究通过数据合成、轨迹调优和专用训练集（如ToolDial的多轮对话集）

#人工智能 #自然语言处理 #算法

解决基于LangGraph框架的DeerFlow使用Qwen3不能正常被解析的问题

修改了JsonOutputParser类的parse_result()方法，添加了对Qwen3模型固定输出<think>标签的处理逻辑。当检测到文本中包含<think>时，会移除该标签及其内容，只保留</think>之后的部分再进行JSON解析。同时保留了原有的部分解析和完整解析逻辑，以及异常处理机制。

#前端 #linux #运维

共 53 条

请选择