
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
目前(25.9.22)HBM依然是AI热点之一,如下图所示,在GPU存储体系中HBM还不是最快的,最快的SRAM仅20MB左右,其次才是HBM有40GB~90GB,然后是系统内存,可轻松扩展到TB级。对于attention类模型,由于处理的序列很长,20M SRAM不能容纳一个完整的v=qk运算,所以需要引入中间变量暂存当前分块计算过程,在整个计算过程中,分块可能需要多次换入SRAM和从SRAM换
然而,不管是langchain还是llamaindex提供的文本分割工具,很难直接对非结构化文本进行准确的语义分割,很多原来连续的内容都被分割在不同块中。deepseek完成本次解析后,将deepseek解析生成的结构化md作为already_parsed输入,将下次待解析非结构化的若干页文档作为waiting_parsed输入。这里尝试基于deepseek,将pdf解析后的非结构化文本转化为结构
技术,在多GPU 缓存模型参数、梯度和优化器状态的方式抽象为多个等级,以适应不同LLM的训练需求。DeepSpeed是微软开发的开源训练框架,在大规模集群训练千亿、万亿规模参数的大模型。2)支持训练、推理、压缩、科学赋能等领域,推动从训练到部署的全栈方案。3)适合拥有大规模GPU集群的机构。
技术,在多GPU 缓存模型参数、梯度和优化器状态的方式抽象为多个等级,以适应不同LLM的训练需求。DeepSpeed是微软开发的开源训练框架,在大规模集群训练千亿、万亿规模参数的大模型。2)支持训练、推理、压缩、科学赋能等领域,推动从训练到部署的全栈方案。3)适合拥有大规模GPU集群的机构。
这里收集和整理2025年最新开源的编程大模型。DeepSeek-Coder系列训练数据量达到2万亿tokens,87%为代码,13%为英文和中文语料。DeepSeek-Coder提供1B到33B规模版本,30B、33B 和 34B 考虑量化需要约20GB显存。
这里收集和整理2025年最新开源的编程大模型。DeepSeek-Coder系列训练数据量达到2万亿tokens,87%为代码,13%为英文和中文语料。DeepSeek-Coder提供1B到33B规模版本,30B、33B 和 34B 考虑量化需要约20GB显存。
LightRAG是基于GraphRAG的改进RAG方案,旨在通过双层检索,在最小化计算开销同时增强检索信息的全面性。检索效率更高,并且与GraphRAG相比,在效果和速度之间实现了更好平衡。
之前介绍了知识图谱与检索增强的融合探索GraphRAG这里尝试在CPU环境,基于GraphRAG+Ollama,验证GraphRAG构建知识图谱和查询过程。
OneAPI是OpenAI接口的管理、分发系统,支持如阿里、百度、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问、360 智脑以及腾讯混元等国内大部分的大模型。程序中一般使用oneapi表示OneAPI,这里沿用这种习惯也使用oneapi。
OneAPI是OpenAI接口的管理、分发系统,支持如阿里、百度、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问、360 智脑以及腾讯混元等国内大部分的大模型。程序中一般使用oneapi表示OneAPI,这里沿用这种习惯也使用oneapi。