logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

拆解 SD 3.5 架构:MoE 模型如何撑起 Stable Diffusion 2025 的速度革命

典型实现中,每个 token 仅激活 2-4 个专家网络,计算公式为: [ y = \sum_{i=1}^n G(x)_i \cdot E_i(x) ] 其中 ( G(x) ) 是门控函数,( E_i ) 表示第 i 个专家网络。路由网络基于输入数据的特性实时计算权重分配,实现计算资源的按需分配。光流补偿算法采用改进的 RAFT 架构,时延控制在 8ms 以内。SD 3.5 采用三级量化策略:专家

#架构
【AI 智能体】拆解 Coze 配置:AI 数字人视频生成智能体的参数调优技巧

Coze平台的AI数字人视频生成功能依赖多模块协同,参数调优需从角色设定、对话逻辑、视觉呈现三个维度切入。参数进行细节优化,迭代次数2-3次效果最佳。参数调节,推荐值120-150ms。当生成时长超过30秒的视频时,需启用。控制,数值范围1-10,日常对话设为6,专业播报需提升至8。的值域应保持在0.65-0.78之间,低于0.6会产生跳话题现象。建议设置为3-5轮对话缓存,超过7轮会导致响应延迟

#人工智能
垂直领域小模型与通用大模型协同:金融风控场景的效能提升实践​

垂直领域小模型(如金融风控专用模型)聚焦于高精度细分任务,通用大模型(如GPT-4、PaLM)提供泛化能力和语义理解。通过垂直与通用模型的协同,金融风控系统既能应对长尾案例(如新型网络诈骗),又能保持核心业务的高效稳定处理。

#flume
DSA 与 MLA 协同优化:DeepSeek-V3.2-Exp“共享 + 压缩 + 稀疏” 三重逻辑

W_{\text{down}} \in \mathbb{R}^{d \times r}$和$W_{\text{up}} \in \mathbb{R}^{r \times d}$为可学习参数,$r \ll d$实现参数压缩。其中$\tilde{M}$为动态生成的稀疏掩码矩阵,$d_k$为注意力头维度。:动态稀疏注意力减少70%冗余计算,FLOPs降低同时保持90%以上原始性能。:通过低秩分解(MLA

#架构#docker#容器
显存决定上限!2025 SD Docker 硬件推荐清单(含优化技巧)

Stable Diffusion(SD)的性能与显存直接相关,不同模型和分辨率对显存的要求差异显著:--gpus allNCCL。

#docker#容器#运维
从 0 到 1:VSCode Copilot 魔改接入智谱 GLM-4.6,延伸至任意大模型

在 VSCode 设置中配置自定义 API 端点,将默认的 Copilot 服务地址替换为 GLM-4.6 的 API 地址。需提供有效的 API 密钥,并在请求头中添加鉴权参数。通过中间层代理转发请求,统一处理不同模型的输入输出格式。使用 Python 编写一个简单的 FastAPI 服务,将 Copilot 的请求转换为目标模型所需的格式。对于需要同时测试多个模型的场景,可在代理服务中实现路由

#vscode#copilot#ide
基于 Docker 的 WhisperLiveKit 本地部署:容器化部署实战教程

确保系统已安装 Docker 和 Docker Compose。推荐使用 Linux 发行版或 macOS 作为宿主系统,Windows 需启用 WSL2 支持。官方镜像通常托管在 Docker Hub 或 GitHub Container Registry。

#docker#容器#运维
每步有说明!阿里云 DASHSCOPE_API_KEY 获取 + 环境变量配置手册

以下是针对阿里云 DashScope API Key(DASHSCOPE_API_KEY)的获取和环境变量配置的详细手册。本手册将逐步说明整个过程,每一步都配有清晰说明,确保您能轻松操作。阿里云 DashScope 是一个大模型服务平台,API Key 用于身份验证和访问其服务。配置环境变量后,您可以在代码中安全地使用该密钥,避免硬编码风险。

#阿里云#数据库#云计算
透视 Flutter 渲染原理:Widget、Element 与 RenderObject 的关联

Flutter 的渲染流程基于三层核心结构:Widget 是配置描述,Element 是实际实例,RenderObject 负责布局和绘制。Widget 作为不可变配置,Element 作为桥梁,RenderObject 最终完成视觉渲染。RenderObject 处理布局、绘制和点击测试等底层操作,是实际影响屏幕像素的实体。其工作流程分为布局(Layout)、绘制(Painting)和合成(Co

#flutter
中文文档理解实测:昇腾 NPU 下 Llama 3.2 3B 与 1B 英文性能

实测表明,在昇腾 NPU 上,Llama 3.2 1B 模型在英文文档理解中提供更快的响应,而 3B 模型则提供更高准确性。

    共 15 条
  • 1
  • 2
  • 请选择