logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI编程:乘法竖式计算演示web应用

✅乘法竖式动画演示:清晰展示乘法竖式的计算步骤✅自定义数字输入:支持输入任意数进行计算✅播放控制:提供播放、暂停、重置功能✅速度调节:支持0.5x到3x的速度调节✅随机数生成:一键生成随机的乘数和被乘数。

文章图片
AI编程:乘法竖式计算演示web应用

✅乘法竖式动画演示:清晰展示乘法竖式的计算步骤✅自定义数字输入:支持输入任意数进行计算✅播放控制:提供播放、暂停、重置功能✅速度调节:支持0.5x到3x的速度调节✅随机数生成:一键生成随机的乘数和被乘数。

文章图片
使用 Vanna + Ollama + ChromaDB,实现“自然语言查询“/ChatBI

Vanna AI 本质是一个通过向量检索 + LLM 推理构建的可训练、可执行、可可视化的自然语义 SQL 助手。基于用户数据自定义训练 RAG拥有自动反馈学习机制支持多模型、向量库、数据库向业务人员提供图形化呈现选项严控数据隐私,全部在用户端执行通过这段脚本,我们体验了 Vanna AI 从RAG 训练 → LLM 生成 SQL → 自动可视化的完整闭环。数据分析同学再也不用手敲长 SQL,业务

文章图片
Prefill Decode分离部署大模型(dynamo框架)

NVIDIA Dynamo 是一个高吞吐量、低延迟的推理框架,旨在为多节点分布式环境中的生成式 AI 和推理模型提供服务。Dynamo 设计为与推理引擎无关(支持 TRT-LLM、vLLM、SGLang)

文章图片
探索HTTP流式返回:Python实战与Ollama本地模型测试

Ollama 将模型权重、配置和数据打包成一个单一的包(通过Modelfile管理)。它简化了模型的下载、部署和管理过程。

文章图片
#http#python#网络协议
triton+tensorrt-llm后端部署LLM服务

参考TensorRT-LLM 是 NVIDIA 推出的一个开源库,旨在利用 TensorRT 深度学习编译器优化和加速大型语言模型(LLMs)的推理性能。它专为开发者设计,支持在多 GPU 环境中高效运行 LLMs。

文章图片
基于 MCP 协议的 LLM 工具调用

在 MCP(Model Context Protocol)中,tool和MCP 中的 tool是定义在 MCP 服务器上的功能模块,通过 MCP 协议暴露给客户端。具有封装性、可发现性和异步性等特点。是 LLM 调用外部函数的能力,增强了模型的能力,使其能够借助外部资源解决问题。特点包括增强模型能力、动态交互、参数传递与结果处理等。二者关系MCP 中的 tool 是具体的工具实现,function

在 vLLM 中优雅地中断推理:同步与异步实战

本文探讨了在vLLM推理服务中实现GPU计算即时停止的方法。作者通过三种方式验证了停止生成的效果:1) 同步HTTP请求,2) 异步HTTP请求(httpx.AsyncClient),3) OpenAI官方SDK调用。实验表明,当用户点击停止按钮时,vLLM后台确实会终止计算并释放GPU资源,日志中会显示"Aborted request"记录。值得注意的是,是否显式调用resp

文章图片
#http
使用triton部署OCR服务(一)

NVIDIA Triton Inference Server 是一个开源软件,专为简化和加速在生产环境中部署深度学习模型的过程而设计。它支持多种深度学习框架(如 TensorFlow、PyTorch、ONNX 等)的模型,并能够在 GPU、CPU 以及 AWS、GCP 和 Azure 上提供的各种硬件平台上运行。主要功能多框架支持:支持包括 TensorFlow、PyTorch、ONNX、Open

文章图片
    共 90 条
  • 1
  • 2
  • 3
  • 9
  • 请选择