logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek-R1-0528 模型最新发布:编程推理能力跃升

2025年5月28日,深度求索正式发布开源推理模型DeepSeek-R1-0528,在编程能力、复杂推理和长时思考等核心指标上实现重大突破。该模型基于660B参数的MoE架构优化,通过动态路由策略提升推理速度至26token/s,并实现30-60分钟的连续推理能力。在代码生成和数学推理任务中表现优异,接近商业顶级模型水平。采用MIT许可证开源策略,同步发布6个蒸馏版本,显著降低企业应用成本。其创新

#DeepSeek#AI
DeepSeek为何能低算力实现高性能模型?

在人工智能领域,在有限算力条件下实现高性能模型一直是研究热点。Deepseek 通过一系列创新技术,成功打造出低算力成本高性能的模型,为该领域带来新的突破,下面将详细介绍其实现方式。

#人工智能#pytorch#python +1
大模型最新面试题系列:微调篇之微调框架(一)

克隆仓库创建虚拟环境安装依赖pip install modelscope -U # 国内用户推荐命令行训练(示例)YAML配置文件(以为例)### model### methodstage: sft### train。

#人工智能#面试
大模型最新面试题系列:微调篇之微调基础知识

本文是大模型面试系列中微调篇的基础知识部分,重点介绍大模型微调技术中的一些常用算法,数据标注方法,微调参数设置等内容,旨在帮助读者快速掌握大模型微调的技术技术。

#面试#人工智能
AI技术圈最新技术速览【2025年8月】

2025年8月,全球AI技术加速演进,呈现多元化发展态势。OpenAI推出双轨战略,发布推理旗舰GPT-5和非监督学习模型GPT-4.5;谷歌升级Gemini 2.5系列,强化多模态能力;微软测试自研模型MAI-1,寻求技术独立性;Cohere发布企业级翻译模型,强调数据安全。开源社区也取得突破,oLLM库实现低成本长上下文推理。这些进展表明,AI正从通用模型竞争转向多元化生态,推动技术向应用场景

文章图片
#人工智能#DeepSeek
大模型最新面试题系列:微调篇之微调框架(三)

在PyTorch中,可以使用来实现cosine decay with warmup。

#人工智能#面试
手把手教你部署QWQ模型,开启高效推理之旅

在大语言模型蓬勃发展的当下,掌握模型的本地部署与调用技术,对于开发者深入探索模型性能、实现个性化应用至关重要。本文将以QWQ-32B模型为例,详细阐述其部署与调用的全流程,为大家提供一份全面且具有实操性的技术指南。

大模型最新面试题系列:训练篇之训练优化算法

本文主要介绍了大模型训练过程中的一些训练优化技巧

文章图片
#人工智能#面试#pytorch +1
大模型最新面试题系列:训练篇之分布式训练

模型并行显存最优,但通信开销最大;数据并行显存压力大但通信简单;流水线并行适合长模型,需平衡气泡与显存。

#语言模型#面试#人工智能 +1
大模型最新面试题系列:模型部署(二)

通过修改中的generate# 原有代码...# 添加自定义处理逻辑custom_output = process_chunk(chunk) # 自定义处理函数在加载模型时,某些模型可能会依赖于一些自定义的代码逻辑。例如,一些模型使用了特殊的架构或者自定义的前向传播方法,这些代码并不是库中默认支持的。当你使用参数时,vLLM 会允许从远程源加载并执行这些自定义代码。这样就能让 vLLM 顺利加载和

#人工智能#面试
    共 36 条
  • 1
  • 2
  • 3
  • 4
  • 请选择