logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Git分支合并实战指南:从feature到master,一文搞定全流程!

摘要:本文详细介绍了Git分支合并的标准流程,以feature/webaudioapi合并到master为例。内容包括7个关键步骤:检查状态→切换master→拉取最新代码→合并分支→解决冲突(如有)→推送远程→验证结果。重点强调了合并前的测试、同步主干的必要性及冲突处理技巧,并附有常用命令速查表。通过这套规范操作,开发者可以避免常见合并错误,确保代码安全集成。文末还提供了注意事项和互动邀请,适合

#git
从零开始部署本地大模型:Ollama 完整安装、注册与后台运行指南

本文详细介绍了在Linux环境下安装和配置Ollama本地大模型服务的完整流程。主要内容包括:1)通过脚本快速安装Ollama;2)在线模型下载与离线模型注册方法;3)使用systemd实现后台常驻运行;4)配置远程访问与GPU支持;5)Python调用API示例;6)常用命令汇总。文章还提供了保持模型常驻内存的技巧和定时任务设置,适用于AI开发者和运维工程师快速搭建稳定的大模型服务环境。从基础安

Qwen3 大模型实战:使用 vLLM 部署与函数调用(Function Call)全攻略

本文详细介绍了如何从零开始部署和使用Qwen3-8B大语言模型。主要内容包括:1) 使用vLLM框架进行多GPU高效部署的完整脚本和参数说明;2) 通过OpenAI兼容接口与模型交互的Python示例;3) 函数调用的实战应用,展示如何定义工具和调用外部API;4) 结合LangChain构建高级应用的方法。文章强调了Qwen3-8B在推理、工具使用方面的优势,并提供了完整的代码示例。最后展望了Q

手把手教你配置Dify+火山引擎大模型:3步实现AI应用落地

本研究聚焦AI大模型在低代码平台中的集成与应用,以Dify与火山引擎的结合为例,提出一种高效配置方法。通过分析模型调用接口、参数优化策略及性能评估指标,验证了该方案在企业级应用场景中的可行性。实验结果表明,相较于传统开发模式,本方法可将部署效率提升60%以上,同时保持98.2%的推理准确率。研究进一步揭示了密钥管理、上下文长度限制等关键配置参数对模型性能的影响机制,为AI工程化落地提供了可复用的技

文章图片
#火山引擎#人工智能
Cursor:AI编程时代的革命性IDE,让开发效率飙升10倍的秘密!

Cursor 是一款基于 VS Code 二次开发的 AI 原生编程工具,通过深度集成 GPT-4、Claude 3.5 等先进大模型,重新定义了编程体验。

文章图片
#ide
如何让 Ollama 模型始终驻留显存?高效调用 AI 推理服务的秘诀!

本文介绍如何通过Ollama的keep_alive参数优化本地大语言模型部署效率。默认模型5分钟自动卸载导致重复加载损耗性能,可通过API参数(如"24h"或"infinite")或环境变量OLLAMA_KEEP_ALIVE实现模型常驻显存。详细说明Linux系统下systemd服务的配置方法,并提醒注意显存容量与多模型场景的资源管理。该方案可显著减少加载延

#人工智能
A卡 vs H卡,你真的了解它们的区别吗?一篇讲透英伟达数据中心GPU的选型逻辑!

本文深入解析了英伟达A系列(如A100、A800)与H系列(如H100、H800)GPU的核心差异,涵盖架构演进、性能对比和适用场景。A系列基于Ampere架构,适合中小型AI模型训练和高密度推理任务;H系列基于更先进的Hopper架构,显存带宽更高,适合超大规模AI模型训练和高性能推理。H100在显存带宽和Tensor Core性能上显著优于A100,而H800则是H100的出口替代版本。文章还

文章图片
#人工智能
A卡 vs H卡,你真的了解它们的区别吗?一篇讲透英伟达数据中心GPU的选型逻辑!

本文深入解析了英伟达A系列(如A100、A800)与H系列(如H100、H800)GPU的核心差异,涵盖架构演进、性能对比和适用场景。A系列基于Ampere架构,适合中小型AI模型训练和高密度推理任务;H系列基于更先进的Hopper架构,显存带宽更高,适合超大规模AI模型训练和高性能推理。H100在显存带宽和Tensor Core性能上显著优于A100,而H800则是H100的出口替代版本。文章还

文章图片
#人工智能
RAG中向量召回怎么做

在检索增强生成(Retrieval-Augmented Generation, RAG)框架中,向量召回是一个关键步骤,它涉及到从一个大规模的文档库或知识库中检索与查询最相关的片段。RAG 结合了信息检索和语言模型的能力,通过首先检索相关文档片段,然后将这些片段作为上下文输入到语言模型中来生成最终的回答。。

文章图片
#RAG
DeepSeek开源周第二弹:DeepEP如何用RDMA+FP8让MoE模型飞起来?

作为首个开源EP通信库,通过软硬件协同优化,将节点内通信带宽压榨至158GB/s(接近NVLink极限),跨节点RDMA延迟降至46GB/s,成为大模型训练/推理的“通信加速器”。DeepEP已支持FP8/BF16混合精度,计划2025Q3推出多卡并行优化版本,并与DeepSeek-V3/R1模型生态深度集成。通过动态位图压缩和流水线优化,FP8格式使显存占用减少50%,同时保持92%的注意力精度

文章图片
    共 56 条
  • 1
  • 2
  • 3
  • 6
  • 请选择