logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

flash attention计算过程的探索和学习

目前(25.9.22)HBM依然是AI热点之一,如下图所示,在GPU存储体系中HBM还不是最快的,最快的SRAM仅20MB左右,其次才是HBM有40GB~90GB,然后是系统内存,可轻松扩展到TB级。对于attention类模型,由于处理的序列很长,20M SRAM不能容纳一个完整的v=qk运算,所以需要引入中间变量暂存当前分块计算过程,在整个计算过程中,分块可能需要多次换入SRAM和从SRAM换

#人工智能#数据分析
基于deepseek的文本解析 - 超长文本的md结构化

然而,不管是langchain还是llamaindex提供的文本分割工具,很难直接对非结构化文本进行准确的语义分割,很多原来连续的内容都被分割在不同块中。deepseek完成本次解析后,将deepseek解析生成的结构化md作为already_parsed输入,将下次待解析非结构化的若干页文档作为waiting_parsed输入。这里尝试基于deepseek,将pdf解析后的非结构化文本转化为结构

#人工智能#nlp
DeepSpeed - 超大LLM分布式训练框架 & ZeRO技术

技术,在多GPU 缓存模型参数、梯度和优化器状态的方式抽象为多个等级,以适应不同LLM的训练需求。DeepSpeed是微软开发的开源训练框架,在大规模集群训练千亿、万亿规模参数的大模型。2)支持训练、推理、压缩、科学赋能等领域,推动从训练到部署的全栈方案。3)适合拥有大规模GPU集群的机构。

#人工智能#nlp
DeepSpeed - 超大LLM分布式训练框架 & ZeRO技术

技术,在多GPU 缓存模型参数、梯度和优化器状态的方式抽象为多个等级,以适应不同LLM的训练需求。DeepSpeed是微软开发的开源训练框架,在大规模集群训练千亿、万亿规模参数的大模型。2)支持训练、推理、压缩、科学赋能等领域,推动从训练到部署的全栈方案。3)适合拥有大规模GPU集群的机构。

#人工智能#nlp
LLM Coder - 最新开源编程大模型和Agent工具调研

这里收集和整理2025年最新开源的编程大模型。DeepSeek-Coder系列训练数据量达到2万亿tokens,87%为代码,13%为英文和中文语料。DeepSeek-Coder提供1B到33B规模版本,30B、33B 和 34B 考虑量化需要约20GB显存。

#人工智能
LLM Coder - 最新开源编程大模型和Agent工具调研

这里收集和整理2025年最新开源的编程大模型。DeepSeek-Coder系列训练数据量达到2万亿tokens,87%为代码,13%为英文和中文语料。DeepSeek-Coder提供1B到33B规模版本,30B、33B 和 34B 考虑量化需要约20GB显存。

#人工智能
如何基于Ollama小模型运行LightRAG

LightRAG是基于GraphRAG的改进RAG方案,旨在通过双层检索,在最小化计算开销同时增强检索信息的全面性。检索效率更高,并且与GraphRAG相比,在效果和速度之间实现了更好平衡。

#大数据#知识图谱#人工智能
基于GraphRAG+Ollama验证知识图谱和检索增强融合

之前介绍了知识图谱与检索增强的融合探索GraphRAG这里尝试在CPU环境,基于GraphRAG+Ollama,验证GraphRAG构建知识图谱和查询过程。

#知识图谱#人工智能#数据分析
OneAPI-通过OpenAI API访问所有大模型

OneAPI是OpenAI接口的管理、分发系统,支持如阿里、百度、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问、360 智脑以及腾讯混元等国内大部分的大模型。程序中一般使用oneapi表示OneAPI,这里沿用这种习惯也使用oneapi。

#oneapi#数据分析#人工智能 +1
OneAPI-通过OpenAI API访问所有大模型

OneAPI是OpenAI接口的管理、分发系统,支持如阿里、百度、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问、360 智脑以及腾讯混元等国内大部分的大模型。程序中一般使用oneapi表示OneAPI,这里沿用这种习惯也使用oneapi。

#oneapi#数据分析#人工智能 +1
    共 57 条
  • 1
  • 2
  • 3
  • 6
  • 请选择