logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

哪种并行方式会出现bubble问题,怎么解决

数据并行是最直观的并行方式,适合数据量大且模型较小场景,设备各自完整模型,性能受限于梯度同步通信和单设备内存。模型并行适合超大模型,通过切分模型参数解决内存瓶颈,但需要复杂的设备间通信。张量并行是模型并行的细粒度版本,拆分具体张量运算,适合细致计算加速,通信和实现更复杂。流水线并行解决模型层次超长带来的内存和计算压力,串行执行模型层,存在阶段等待(bubble)问题,调度复杂。专家并行专为MoE架

#人工智能#算法#机器学习
震惊!强化学习训练后,大模型推理“天花板”反而降低了?清华研究揭示RLVR局限性

•••Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang (清华大学 LeapLab, 上海交通大学)••问题A:RL提升了找到正确路径的效率;•问题B:RL可能丢失基础模型中存在的正确路径,导致探索范围缩小。• 右图:随着RL训练进行,pass@1(平均性能)提升,但pa

#人工智能#深度学习#机器学习
效率飙升 10 倍!目前最流行的国产DeepSeek 如何 “一键” 全自动写代码

更让人眼前一亮的是,其API的使用成本极为亲民,每 500 万 tokens 仅仅只需 10 元,而且为助力新用户轻松迈出探索的第一步,还大方地赠送 10 元初始余额,这无疑极大地消除了新手入门的顾虑,降低了尝试的门槛。1、新建 Python 文件夹:在 VScode 中,点击 “文件” 菜单,选择 “新建文件”,将文件命名为 “test202501.py”(当然,你也可以根据实际需求命名),此时

#人工智能
字节音效生成模型来了,一键生成大片感音效!已上线即梦

SeedFoley 实现了视频内容与音频生成的深度融合,能够精确提取视频帧级视觉信息,通过分析多帧画面信息,精准识别视频中的发声主体及动作场景。无论是节奏感强烈的音乐瞬间,还是电影中的紧张情节,都能精准卡点,营造出身临其境的逼真体验;另外,SeedFoley 可智能区分动作音效和环境音效,显著提升视频的叙事张力和情感传递效率。

#人工智能
Qwen 的模型结构是怎么样的,相比于 LLaMA,DeepSeek 有什么区别

以上差异体现了不同模型在架构设计和应用目标上的针对性,需根据具体需求选择。混合专家(Mixture-of-Experts, MoE)Qwen(通义千问)由阿里巴巴达摩院开发,基于。,结合共享专家(Shared Expert)Qwen 2.5支持128k tokens。LLaMA、Baichuan等模型。动态激活任务相关参数以提高效率。中文语料为主,兼顾多语言数据。人类反馈强化学习(RLHF)Dee

Nomic AI 发布开源多模态嵌入模型,多模态RAG正当时!

Nomic 的模型通过统一处理文本和图像信息,能够更全面地理解文档内容。该技术的应用价值主要体现在增强处理复杂文档(如包含图表、图像的 PDF 和技术报告)的 RAG(检索增强生成)系统。通过更准确地理解和检索包含视觉信息的文档片段,可以显著提升信息检索的准确性和相关性,为金融分析、科研文献回顾、技术支持等领域带来更智能的解决方案。Nomic AI 近日发布了 Nomic Embed Multim

#人工智能
突然爆火的国产AI产品! 人手一个APP的时代真的来了!码上飞(codeFlying

接下来,将产品的模块划分之后,就是业务流程的构建,不同模块是怎么进行交互的,以及这个页面下可以进行哪些活动,比如需求提交这块吧,划分不同的页面,在需要提交页面就说明这个执行的业务流程,只不过可能太完善,需要自然语言进行完善。就比如说吧,作为AI自媒体博主,会遇到各种各样的开发需求,如何便捷的做一个小程序,嵌入到公众号后台,收集用户的需求,然后及时的告知我,最好可以自动入社群,还能把社群的一些资料展

#人工智能
详细说明Qwen3中动态RoPE,以及怎么支持长序列的

实验显示在32K长度任务中,相比传统RoPE方案可提升长程依赖捕捉能力42%,同时降低位置编码计算开销28%。YARN(Yet Another RoPE Extension):实现4倍序列长度扩展。基础频率扩展:将传统RoPE的基频从10,000提升至1,000,000。| 最大上下文长度 | 4,096 | 32,768 || 技术指标 | Qwen2.5 | Qwen3 || 长文本推理速度

#python#开发语言
加入Lovart,成为智能视觉创作的「造梦师」!

调度GPT-4o、Gemini、Kling 等多模型,一站式 All-in-One 生成,不跳出画布。支持分层交付,输出PNG/JPG/SVG等格式,满足设计师从创意到成品的全流程。全自动意图拆解、任务规划、批量执行、设计交付,一次生成多达40张设计图。内置可视化任务链+无边画布+专业微调工具,支持图层、蒙版、文字等精修。上海Office:上海市徐汇区云视路1号星云1号大厦14楼1402。北京Of

#人工智能#数据结构
    共 199 条
  • 1
  • 2
  • 3
  • 20
  • 请选择