logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于docker-compose安装APISIX及配置示例

本文基于docker-compose安装APISIX的详细步骤,并给出配置及使用示例并将安装过程中的问题进行了梳理总结

文章图片
数据仓库系列:星型模型和雪花型模型

在实际工作中多维分析的商业智能解决方案,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。星型模型星型模型:是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称

#数据仓库
大数据文件格式对比:Parquet 与ORC 对比

目前两者都作为Apache的顶级项目来进行维护,但是无论是设计的思路还是合理性都是ORCFile更为优秀.但是或许是因为背后所主导的力量不同,毕竟是出身名门,在各个存储系统的支持上,和实际的运用之中,Parquet还是占了很大的优势Apache ORCORC(OptimizedRC File)存储源自于RC(RecordColumnar File)这种存储格式,RC是一种列式存储引擎,对schem

大模型(LLM)的量化技术Quantization原理学习

在自然语言处理领域,大型语言模型(LLM)在自然语言处理领域的应用越来越广泛。然而,随着模型规模的增大,计算和存储资源的需求也急剧增加。为了降低计算和存储开销,同时保持模型的性能,LLM大模型的量化技术应运而生本文记录针对量化技术原理的学习

文章图片
如何下载huggingface或modelscope上的大模型或数据集

如何下载huggingface或modelscope上的大模型或数据集

文章图片
大模型之SORA技术学习

Sora改变AI认知方式,开启走向【世界模拟器】的史诗级的漫漫征途,才是未来暴风眼,真正的重点。但Sora并没有理解整个世界和诸多物理细节,常识及定律,而是根据GPT语义解释能力、丰富的联想和丰富度,基于海量的视频库,抄写视频片段并猜视频下一帧,并使用Diffusion、GAN(对抗式生成网络技术)将多个视频片段混合在一起,产生稳定且连续的短视频。

文章图片
#AI
LLM-大模型演化分支树、GPT派发展阶段及训练流程图、Infini-Transformer说明

LLM-大模型演化分支树、GPT派发展阶段及训练流程图、Infini-Transformer说明

文章图片
#transformer
大模型(LLM)的token学习记录-I

在 LLM 中,token代表模型可以理解和生成的最小意义单位,是 LLM 进行处理的最小单元。根据所使用的特定标记化【Tokenization】方案,token可以表示单词、单词的一部分,甚至只表示字符。采用的方案由模型的类型和大小决定token被赋予数值或标识符,并按序列或向量排列,并被输入或从模型中输出,是模型的语言构件。模型理解这些token之间的统计关系,并擅长做token的接龙toke

文章图片
大模型(LLM)的训练语料信息汇总

大模型的训练,大规模的语料是很重要的大型语言模型在许多自然语言处理任务上取得了显著进展,研究人员正在转向越来越大的文本语料库进行训练大多数基于Transformer的大型语言模型 (LLM) 都依赖于英文维基百科和Common Crawl、C4、Github的4个大型数据集。这几个数据集是最常用的,基本上大部分大模型训练过程都会使用到,其中CommonCrawl的数据集比较大,而wiki Pedi

文章图片
AI--调用百度OCR文字识别API进行图片文字识别

OCR文字识别百度文字识别OCR提供多场景、多语种、高精度的文字检测与识别服务,多项ICDAR指标居世界第一。广泛适用于远程身份认证、文档电子化、金融保险、法律政务、财税报销、快递物流、交通出行、教育培训等场景,让应用看图识字,提升输入效率,优化用户体验,为企业降本增效。如何调用创建应用在百度智能云 控制台 创建一个应用每个应用都有产生独有的AppID、API Key、Secret Key安装ba

文章图片
#文字识别#百度#python
    共 69 条
  • 1
  • 2
  • 3
  • 7
  • 请选择