logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

邻近搜索(Annoy HNSW LSH KD tree)

大纲Annoy:Approximate Nearest Neighbors Oh YeahHNSW:Hierarchcal Navigable Small World graphsKD Tree:K dimentional TreeLSH:Locality Sensitive HashingAnnoyAnnoy 是 Spotify 开源的高维空间求近似最近邻的库,在 Spotify使用它进行音乐推

mac M系列芯片安装chatGLM3-6b模型

mac电脑安装chatglm3模型,无须翻墙,M芯片

文章图片
1.4 机器学习工作流程

1.4 机器学习工作流程学习目标目标了解机器学习的定义了解机器学习的工作流程应用无1 什么是机器学习机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。2 机器学习工作流程机器学习工作流程总结1.获取数据2.数据基本处理3.特征工程4.机器学习(模型训练)5.模型评估2.1 获取到的数据集介绍数据简介在数据集中一般:一行数据我们称为一个样本一列数据我们...

#机器学习
文章图片
使用布隆过滤器的flink十亿级数据实时过滤实践一

百亿级数据实时过滤,布隆过滤器,scala实现,flink广播状态使用,BroadcastProcessFunction

文章图片
#flink#大数据
pyspark sparkStreaming

1、sparkStreaming概述1.1 SparkStreaming是什么它是一个可扩展,高吞吐具有容错性的流式计算框架吞吐量:单位时间内成功传输数据的数量之前我们接触的spark-core和spark-sql都是处理属于离线批处理任务,数据一般都是在固定位置上,通常我们写好一个脚本,每天定时去处理数据,计算,保存数据结果。这类任务通常是T+1(一天一个任务),对实时性要求不高。[外链图片转存

#python#kafka#spark
hive数据类型及转换

hive 数据类型 及数据类型转换

#hive#hadoop#big data
暂无文章信息