logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

在ec2上部署qwen-image模型

本文介绍了在AWS GPU环境下部署Qwen-Image模型的实践过程。测试环境采用4块A10G显卡(24GB显存),使用Docker容器和Kubernetes部署。尝试了两种推理方式:通过diffusers库直接推理时遇到单卡显存不足问题(需20GB以上显存),而ComfyUI方案通过FP8量化模型减少了显存需求,成功在单卡上完成推理(约38秒/图)。实验表明,Qwen-Image模型对显存要求

文章图片
#AI
agentscope记忆模块使用和部署agent-memory-server记忆服务

本文介绍了AI Agent记忆系统的概念与实现方式。记忆系统分为短期记忆和长期记忆:短期记忆参与模型推理,需要上下文管理策略(如压缩、摘要);长期记忆从短期记忆抽取,通过检索辅助推理,通常由独立组件实现(如Mem0、Zep)。文章对比了不同框架的记忆实现,包括AgentScope的会话级短期记忆和跨会话长期记忆,以及AWS Strands框架的Mem0集成。还介绍了通过agent-memory-s

文章图片
#AI
使用cline集成aws的mcp服务和搜索功能

文章摘要: 本文介绍了如何在VSCode中使用Cline工具集成AWS相关服务,通过配置MCP服务器实现多种功能。重点包括:1)通过LiteLLM封装自部署模型以降低成本;2)配置文档查询服务用于知识检索;3)集成AWS API服务用于资源管理;4)使用计费管理服务监控成本;5)特定领域工具如IAM策略分析。提供了不同场景的JSON配置模板,包括在线文档助手、资源检索、成本管理等典型用例配置方案,

文章图片
#aws#云计算
learning ray之ray强化学习/超参调优和数据处理

当然,Ray还提供了更高级的库,比如RLLib,它提供了更丰富的强化学习算法和模型,可以处理更复杂的场景。这个类包含了游戏的关键信息:寻觅者的当前位置seeker,目标的位置goal,以及寻觅者可以执行的动作空间action_space和它能观察到的状态空间observation_space。这个过程会涉及到智能体的移动、状态的观察、奖励的获取,以及最终的决策。Simulation类的rollou

文章图片
#python
图解gpt之Seq2Seq架构与序列到序列模型

我们开始构建神经网络模型了。import torch.nn as nn # 导入 torch.nn 库# 定义编码器类,继承自 nn.Moduleself.hidden_size = hidden_size # 设置隐藏层大小self.embedding = nn.Embedding(input_size, hidden_size) # 创建词嵌入层self.rnn = nn.RNN(hidden

文章图片
在ec2上部署CosyVoice2模型

本文介绍了基于Qwen-Agent项目的CosyVoice2 TTS模型部署过程。测试环境采用AWS g5.4xlarge实例和Ubuntu 24.04系统,通过Docker容器隔离运行环境。重点解决了vllm 0.9.0版本与Python 3.12的兼容性问题,通过conda创建Python 3.10虚拟环境成功运行。文章详细演示了零样本语音克隆、说话人特征保存复用、细粒度控制标记使用以及指令驱

文章图片
通过agentscope在EKS部署远程沙盒和代理应用

AgentScope Runtime是一个面向AI Agent的全栈运行时,提供安全沙箱环境和高效部署能力。核心功能包括: 沙箱工具服务:通过Docker容器提供隔离的执行环境,支持文件系统操作、浏览器自动化等功能,使用WebSocket和CDP协议实现交互。 运行时管理服务(runtime-sandbox-server):集中管理沙箱容器,支持动态创建、预热池和多种后端(Docker/k8s等)

文章图片
#AI
在ec2上部署Qwen2.5omini和Qwen3omini模型

Qwen多模态大模型技术解析 通义千问团队推出的Qwen2.5-Omni和Qwen3-Omni系列模型实现了文本、图像、音频、视频四模态统一建模,支持端到端多模态交互。Qwen2.5-Omni突破音视频同步与流式生成技术,可通过Docker快速部署;Qwen3-Omni采用MoE架构,建议使用vLLM加速推理,其30B版本支持跨模态输入输出,并针对音频描述任务优化。实测显示模型能准确解析混合模态指

文章图片
#AI
图解gpt之Transformer架构与设计原理

Transformer架构彻底革新了自然语言处理范式,其核心在于并行计算的注意力机制而非传统的序列处理方式。该模型由编码器和解码器组成:编码器通过多头自注意力机制提取输入序列特征,解码器则结合编码器信息和自身生成序列逐步输出结果。关键创新包括位置编码解决并行处理的位置感知问题,残差连接和层归一化稳定深层网络训练,以及自注意力机制捕捉长距离依赖关系。这种架构催生了BERT、GPT等突破性模型,成为现

文章图片
#transformer#深度学习
在ec2上部署qwen3VL2B模型

本文介绍了在AWS EC2 g5.4xlarge实例上部署Qwen3-VL-2B-Instruct模型的环境配置过程。首先安装NVIDIA驱动和CUDA工具包,遭遇了内核版本不兼容问题,最终采用apt方式安装。随后配置容器运行时支持,选择Qwen官方和vllm 0.11镜像,通过挂载模型目录启动容器。文中详细说明了镜像选择考量、依赖安装调整以及vllm引擎的启动参数优化,包括显存控制、并行设置等关

文章图片
#语言模型
    共 27 条
  • 1
  • 2
  • 3
  • 请选择