周生123 个人主页

@shishangzhiyoum

周生123

2025-10-18 13:39:01 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Stable Diffusion 模型剪枝：通道剪枝与层剪枝结合降低模型体积（70% 压缩率）

压缩率定义为： $$ \text{压缩率} = \frac{\text{原始体积} - \text{剪枝后体积}}{\text{原始体积}} \times 100% $$ 目标是 70% 压缩率，这要求剪枝后体积仅为原始的 30%。Stable Diffusion 模型（基于扩散过程）通常体积庞大（例如，原始模型大小约为 5GB），通过结合通道剪枝和层剪枝，可以显著降低体积，实现高达 70% 的压

#剪枝 #算法

Chroma 本地版检索相似度阈值配置实践

在向量数据库应用中，相似度阈值用于控制检索结果的精度：只返回相似度分数高于指定值的项目，避免不相关结果。Chroma 是一个开源的本地向量数据库，支持高效相似度检索。本实践指南将逐步介绍如何在 Chroma 本地版中配置相似度阈值，包括环境设置、代码实现和注意事项。所有步骤基于真实可靠的操作，使用 Python 示例。通过本实践，您可以高效配置 Chroma 的相似度阈值，提升检索质量。实际应用中

#grafana #prometheus #ssl +1

多模态数据库：支持文本、图像、向量的混合存储方案

多模态数据库是一种能够存储和查询多种数据类型（如文本、图像和向量）的数据库系统。混合存储方案的核心在于高效整合不同模态的数据，支持跨模态搜索（例如，用文本搜索相关图像）。以下我将逐步解释混合存储方案的设计原则、关键技术实现，并提供代码示例。以下是一个简化示例，使用Python和FAISS库（用于向量索引）演示如何存储和查询文本、图像和向量。总之，多模态数据库的混合存储方案通过向量化统一表示，结合高

#数据库

图切割优化实测：昇腾 NPU 下 Llama 3.2 双模型推理性能

图切割优化针对模型的计算图进行分割，将大模型分解为可并行处理的子图。核心思想是减少数据依赖，最大化硬件并行度。在昇腾 NPU 上，这能利用其多核架构（如达芬奇核心）和高效内存带宽。优化公式可表示为： $$ \text{优化后延迟} = \min\left( \sum_{i=1}^{k} t_i \right) $$ 其中，$t_i$ 是子图 $i$ 的执行时间，$k$ 是切割后的子图数量。切割点选

#人工智能

Llama-2-7b 昇腾部署：六大场景性能基准核心指标拆解

Llama-2-7b需通过昇腾AI处理器（如Ascend 910）的NPU加速，需使用CANN（Compute Architecture for Neural Networks）工具链进行模型转换。昇腾平台在WattcoreTM架构下表现出色，Llama-2-7b推理的能效比达3.2 tokens/Joule，较同类GPU方案提升20%。注：以上数据基于CANN 6.3.R1版本及Llama-2-

#人工智能

图切割优化实测：昇腾 NPU 下 Llama 3.2 双模型推理性能

#人工智能

图切割优化实测：昇腾 NPU 下 Llama 3.2 双模型推理性能

#人工智能

多模态数据库：支持文本、图像、向量的混合存储方案

#数据库

AI + 自动驾驶：目标检测与路径规划算法入门实战

本指南提供了目标检测（YOLO）和路径规划（A*）的入门实战，包括原理解释和可运行代码。通过这些基础，您可以逐步探索更高级算法（如Faster R-CNN或RRT*）。深入学习：阅读论文《YOLOv3: An Incremental Improvement》或《A Formal Basis for the Heuristic Determination of Minimum Cost Paths》

#人工智能 #自动驾驶 #目标检测

到底了