logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

linux系统ollama监听0.0.0.0:11434示例

docker应用如dify访问本地主机部署的ollama,base_url不管配"http://localhost:11434",还是"http://host_ip:11434"都会报错。2)docker容器访问http://host_ip:11434,虽然是主机服务,但ollama默认不绑定0.0.0.0:11434,docker容器同样找不到部署在主机的ollama。linux系统ollama

#linux#服务器#人工智能
python通过ollama sdk阻塞和流式调用ollama模型示例

假设机器已经安装ollama工具,并且已经下载好了ollama模型。这里我们使用qwen3:8b模型。1 安装ollama pip。2 运行ollama示例程序。

#python#开发语言#linux +1
llama.cpp reranking源码分析

llama.cpp是广泛使用的模型量化工具,支持16、8、4甚至2位的模型量化,降低模型存储占用,提高运行效率。另外,针对reranker计算中query和instruct重复计算问题,采用自定义注意力掩码方式,在推理过程中共享query和instruct部分,仅计算documents部分。这里通过阅读llama.cpp reranking源码,分析llama.cpp运行reranker的方式,探

基于deepseek的文本解析 - 超长文本的md结构化

然而,不管是langchain还是llamaindex提供的文本分割工具,很难直接对非结构化文本进行准确的语义分割,很多原来连续的内容都被分割在不同块中。deepseek完成本次解析后,将deepseek解析生成的结构化md作为already_parsed输入,将下次待解析非结构化的若干页文档作为waiting_parsed输入。这里尝试基于deepseek,将pdf解析后的非结构化文本转化为结构

#人工智能#nlp
llama.cpp gguf主要量化方法

2)重要性矩阵,利用重要性矩阵对权重进行分组,评估每个权重或组的重要性程度,对重要的权重使用更精细和码本或更高的量化精度,对不太重要的权重使用更粗略的码本或更低的量化精度。不仅对权重进行量化,还对尺度因子block_scale和零点block_minimum再次进行量化,实现层次化的量化。这类量化方法还有一些特别后缀,比如M、S、XS、XXS,表示的是码本的精细程度,码本越小,模型的压缩率越大。Q

#算法#人工智能#机器学习
基于ollama运行27b gemma3解决ffmpeg命令生成问题

google开源的LLM模型gemma3,提供了1B、4B、12B、27B多个版本,特别是27B版本,被认为除Deepseek R1外性能最好的开源模型。这里尝试运行ollama 27B,并解决ffmpeg命令生成问题。

#人工智能
多轮对话长上下文-增量摘要和结构化摘要示例

摘要能极大节省 Token,但会丢失细节。这里的建议是分阶段实施。具体为增量摘要、结构化摘要、反思式摘要。增量摘要是指维护一个summary变量。比如,每满 5 轮对话,调用轻量级模型,如 GPT-4o-mini 或本地 7B 模型,将新产生的“5 轮对话”和“旧摘要” 合并生成一个新摘要。如此,对话上下文不会随着总轮数的增加而线性增加,能控制在一个相对合理的范围内。在摘要过程中,LLM为节约字数

#microsoft#数据库#服务器
mac m1安装大模型工具vllm

在App Store更新macOS和XCoder,依据XCoder版本号安装command line tools。大部分情况git clone会失败,所以直接下载vllm的release版本,这里下载0.92,链接如下。参考vllm官网文档,vllm对apple m1平台mac os, xcoder, clang有如下要求。需注意的是以上操作要在mac自带终端下完成,在iterm下会遇到编译问题。

#macos
docker ollama部署轻量级嵌入模型 - EmbeddingGemma

EmbeddingGemma是google发布的轻量级文本嵌入和生成模型,包括embeddinggemma文本嵌入模型和 gemma3n:e2b文本生成模型。EmbeddingGemma适合低延迟、高吞吐量场景,例如智能手机、物联网设备的实时文本处理。

#数据分析#人工智能
从架构角度对比gemma3 vs qwen3

gemma3和qwen3是当前最新最优秀的开源大模型,gemma3提供了1B、4B、12B、27B多个版本,其27B量化版支持在一个GPU部署,支持140多种语言。qwen3提供了4B, 8B, 14B, 30B MoE, 32B, 235B MoE等,32B版本支持单GPU部署,支持100多种语言。

#架构#人工智能
    共 265 条
  • 1
  • 2
  • 3
  • 27
  • 请选择