logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

魔搭(ModelScope)下载 ChatGLM3 模型时 tokenizer.model 仅 132B?

摘要:在使用阿里云魔搭(ModelScope)下载ChatGLM3模型时,部分用户遇到tokenizer.model文件仅132字节的问题。该问题通常是由于未正确认证或手动下载导致的错误页面(如403/404响应),而非真实模型文件。解决方案是使用官方modelscope SDK的snapshot_download方法,自动处理认证、协议同意及文件校验。关键注意事项包括:确保登录魔搭账号、同意模型

文章图片
#语言模型
从零构建医疗AI Agent:RAG增强检索、混合搜索与模型部署实战

本文介绍了一个基于LangChain、Milvus和Qwen3构建的医疗AI问答系统。系统采用多层检索架构:通过多向量检索扩展语义覆盖,结合BM25和向量检索的混合策略,并引入重排序优化结果。同时实现了Qwen3大模型的本地化部署与API混合架构,兼顾隐私保护与推理能力。该系统能有效解决医疗领域专业术语匹配、语义鸿沟等挑战,适用于智能导诊、用药咨询等场景,在测试中展现出90%以上的Top-3命中率

文章图片
#人工智能
LLaMA-Factory PPO 训练实战:从 SFT 到 RLHF 完整指南

本文介绍了基于LLaMA-Factory框架的RLHF三阶段训练流程,重点演示了从SFT到PPO的完整过程。首先通过监督微调(SFT)让模型具备指令遵循能力,然后构建偏好数据训练奖励模型(RM)学习人类偏好,最后使用PPO算法优化模型输出。文中详细提供了各阶段的配置文件和关键训练步骤,包括LoRA权重的合并方法。该流程可将基础语言模型逐步优化为符合人类期望的AI助手,特别强调了PPO在RLHF中的

文章图片
基于Inception v3的CIFAR-100图像分类实战:从迁移学习到性能优化

本文介绍了使用PyTorch框架在CIFAR-100数据集上基于预训练Inception v3模型进行迁移学习的方法。通过修改模型分类头、采用数据增强策略和复合损失函数,经过30个epoch训练后达到85.11%的测试准确率。文章详细阐述了模型架构适配、数据预处理、训练技巧等关键环节,并分析了训练过程中的收敛特点和过拟合现象,最后提出了增强正则化、添加Dropout层等优化建议以进一步提升模型性能

文章图片
#分类#迁移学习#数据挖掘
大模型核心技术深度解析:从Transformer优化到人类偏好对齐

本文系统梳理了大模型三大核心技术:Transformer计算优化、位置编码演进和人类偏好对齐。在计算优化方面,分析了Self-Attention与FFN的复杂度瓶颈,介绍了Flash Attention的硬件感知优化、MQA/GQA架构及MoE技术;位置编码部分重点解析了RoPE旋转编码的数学原理及其外推技术(NTK/YaRN);最后对比了PPO和DPO两种对齐方法,指出DPO通过隐式奖励建模实现

文章图片
#transformer#深度学习#人工智能
从 GPT 到 GPT-2:解密生成式预训练模型的架构演进

摘要: GPT 和 GPT-2 是基于 Transformer 解码器的生成式语言模型,通过单向自回归方式实现文本生成。GPT-2 在 GPT 基础上通过扩大模型规模(最高 48 层)和训练数据(40GB),验证了缩放法则的有效性。两者采用 Masked Self-Attention 保证生成因果性,并通过预训练+微调两阶段训练,其中 GPT-2 引入 Top-K 采样提升生成多样性。这些创新为后

文章图片
从 Qwen3-0.6B 到 Qwen3.5-0.8B:轻量级大模型的架构革命与多模态进化

阿里巴巴通义千问团队推出的Qwen3-0.6B和Qwen3.5-0.8B两款轻量级模型展现出显著代际差异。Qwen3.5-0.8B不仅参数量增加0.2B,更实现了架构革新:从纯文本模型升级为原生多模态模型,支持262K超长上下文和视觉处理能力。其采用混合注意力机制(3层线性+1层全注意力交替)降低计算复杂度,引入MRoPE三维位置编码支持多模态输入,并内置视觉编码器处理图像/视频数据。这些改进使Q

#架构#人工智能#阿里云
matlab绘制动态图

matlab绘制动态图,并保存成gif格式,首先生成数据,然后逐步将数据添加到动态曲线中,利用pause设置一些时间间隔就完成了

文章图片
#matlab#开发语言
matlab设置不同颜色的柱状图

需要先设置FaceColor为'flat'.然后更改你想要修改的柱状图的第几个柱子的RGB值即可。

#信息可视化#matlab
粒子群算法(PSO)优化BP神经网络:从原理到实战

本文提出了一种基于粒子群优化(PSO)算法优化BP神经网络权重的方法,解决了传统BP神经网络易陷入局部最优、初始值敏感等问题。通过将神经网络权重映射为粒子位置,以损失函数作为适应度,实现了全局优化搜索。实验结果表明,PSO-BP在回归任务中比标准BP神经网络训练集MSE降低96.4%,测试集MSE降低95.6%。文章详细介绍了算法原理、Python实现(包含BPNN和PSO核心类)及混合优化策略,

文章图片
#神经网络#人工智能#深度学习
    共 24 条
  • 1
  • 2
  • 3
  • 请选择