logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

适用于21世纪20年代的大模型训练基础知识学习哲学--以Brillm为例

摘要(149字): 大模型训练入门建议从代码切入,通过解剖train.py掌握核心模块:数据加载、分布式训练、模型迭代等。建议拆解路径为:1)理解数据预处理与流式加载;2)分析训练循环的双层结构;3)研究分布式实现;4)关联模型架构与损失设计。吃透代码后需建立系统思维,绘制训练流程图,结合论文验证理论落地。不必追求千亿参数经验,关键在于掌握数据-模型-算力的平衡能力。通过"复现-简化-创

文章图片
#学习
GELU激活函数的论文虽被ICLR拒绝 但是被引用超8000次

GELU激活函数论文虽被ICLR 2017拒绝,但通过arXiv预印本广泛传播,被引用超8000次。该研究将随机正则化与非线性激活结合,推导出GELU(x)=x·Φ(x)的数学表达式。BERT等大模型通过实验验证了其优越性,使其成为默认激活函数。这一案例体现了"理论创新→实验验证→生态扩散"的传播路径:预印本开放共享→明星模型采用→开源社区推广,展示了学术成果价值未必依赖传统发

#人工智能#深度学习#机器学习
音频数据集采样率选择建议

音频疾病分类任务中,下采样频率的选择需平衡信息保留与计算效率。核心建议如下: 关键频段:疾病分类特征主要集中于200Hz-4kHz(语音基频、共振峰及异常呼吸音),高频信息(>4kHz)贡献有限。 推荐采样率: 最优选择8kHz:完整保留4kHz以下关键特征,计算量比16kHz减少50%,是工业界常用标准。 极限选择4kHz:仅适用于计算资源极度紧张场景,需实验验证精度损失(若>5%则

文章图片
#音视频
agentscope以STUDIO方式调用MCP服务

摘要:本文解决了FastMCP服务器与客户端连接失败的问题,原因是传输方式不匹配(服务器使用STDIO传输,客户端却配置HTTP方式)。解决方案是改用StdIOStatefulClient客户端,并详细说明了修改要点:1)替换客户端类型;2)调整启动参数;3)显式管理连接/关闭。还提供了示例代码和运行说明,确保客户端自动启动MCP服务器并通过STDIO方式通信。文中包含完整的server.py天气

#人工智能
agentscope以STUDIO方式调用MCP服务

摘要:本文解决了FastMCP服务器与客户端连接失败的问题,原因是传输方式不匹配(服务器使用STDIO传输,客户端却配置HTTP方式)。解决方案是改用StdIOStatefulClient客户端,并详细说明了修改要点:1)替换客户端类型;2)调整启动参数;3)显式管理连接/关闭。还提供了示例代码和运行说明,确保客户端自动启动MCP服务器并通过STDIO方式通信。文中包含完整的server.py天气

#人工智能
近几年预训练语音大模型汇总

语音大模型研究近年来取得显著进展,主要包括wav2vec 2.0(2020)、HuBERT(2021)、WavLM(2022)、Data2Vec(2022)、Whisper(2023)等代表性工作。这些模型采用自监督学习框架,通过掩码预测、对比学习等策略在大规模语音数据上预训练,可有效应用于语音识别、情感分析、疾病检测等下游任务。其中wav2vec 2.0首次将对比学习引入语音领域,Whisper

文章图片
#人工智能#深度学习#音视频
近几年预训练语音大模型汇总

语音大模型研究近年来取得显著进展,主要包括wav2vec 2.0(2020)、HuBERT(2021)、WavLM(2022)、Data2Vec(2022)、Whisper(2023)等代表性工作。这些模型采用自监督学习框架,通过掩码预测、对比学习等策略在大规模语音数据上预训练,可有效应用于语音识别、情感分析、疾病检测等下游任务。其中wav2vec 2.0首次将对比学习引入语音领域,Whisper

文章图片
#人工智能#深度学习#音视频
python PIL 处理大像素图片 报错问题

一个简单的图像创建与保存,但是报错,使用了扩大内存的方法,仍然报错,发现是创建的图像太大,无法保存。bg = Image . new("RGB" ,(65500 , 256) ,(0 , 0 , 0)) #背景白板大照片创建 bg . save(wjj + str(j) + ".jpg" , "jpeg") #大块图片粘贴后保存通过测试,发现创建图片的边长尽量小于65500才可以工作,超过了就会产

#python#图像处理
模型量化(Model Quantization) 和低精度计算(Low-Precision Computing)

摘要: 模型量化是深度学习中提升计算效率的关键技术,旨在降低模型权重和激活值的精度以减少存储、计算和能耗。研究方向包括训练后量化(PTQ)、量化感知训练(QAT)、极端量化(二值/三值网络)以及混合精度量化,尤其在大语言模型(LLM)中,低比特量化(如4-bit)成为研究热点。核心挑战在于平衡精度损失与效率提升,相关论文如GPTQ和AWQ推动了LLM量化技术的突破。量化不仅能压缩模型体积,还能优化

文章图片
#深度学习#人工智能
agent 详解 LLM→agent→MCP→结果

这篇文章详细解释了OpenHands系统中LLM、Agent和MCP三者之间的关系与协作机制。主要内容包括: 角色分工: LLM(如DeepSeek v3)负责思考和生成文本 Agent作为编排层管理工具调用流程 MCP Server提供具体工具服务 MCP Client负责通信连接 工作流程: Agent将可用工具清单注入LLM提示词 LLM决定是否调用工具 Agent执行实际工具调用并回传结果

文章图片
#深度学习
    共 15 条
  • 1
  • 2
  • 请选择