logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

TPC-C 、TPC-H、TPC-DS和SSB测试基准(Benchmark)介绍

TPC是一个非盈利组织,致力于定义事务处理和数据库benchmark,其提供了面向不同应用场景的多种Benchmark: https://www.tpc.org/information/benchmarks5.asp下图是对几个主要的benchmark的汇总:接下来,我们着重介绍一上最广泛讨论的四种Benchmark.面向OLTP测试,也就是测试关系型数据库的数据集。面向OLTP测试,也就是测试分

Python笔记 · 鸭子类型 / Duck Typing

既然程序能成功运行,就说明鸭子类型的示例代码能够通过Python的(运行期)类型检查。在Python中,由于它的“动态”特性,导致变量的类型随时可以变化,在这样的前提下,如果你是Python解释器的设计者,要怎么进行“类型检查”呢?你只能让Python解释器放宽“类型检查”的条件:只要在当前的上下文中(例如一个函数体内),调用方对这个类型所期望的属性和方法它都有,那它就是那个“正确的”类型。如果换

文章图片
#python#开发语言
virtualenv系列 (3) · 创建虚拟环境

本文我正式进入Virtualenv的使用环节。注:本文操作环境是Windows系统!注意:如果本地安装了多套Python系统环境,我们并不需要在每一套环境上都安装virtualenv,因为Virtualenv可以-p参数来设定Python解释器的路径,通过给出的解释器路径就能定位整个Python安装环境,进而可以复制相关文件,构造基于该版本的虚拟环境。所以,通常在系统默认的Python环境下安装一

#python#virtualenv#windows
Hudi COW表的数据膨胀(清除历史版本)问题

本文要讨论的是这样一个问题:使用Hudi的COW表时,有一个很明显的现象:当表中有大量的更新数据写入时,落地的parquet文件往往总大小往往要double,每写入一次就会double一次,对于数据体量非常大,且每次都有大量更新的数据来说,不禁会让人担心:这种数据膨胀是否会快速耗尽存储资源?有没有可以克制的方法?其实,这并不是一个问题,而是Hudi表的正常表现,我们先从原理上来看一下产生这个问题背

文章图片
#大数据
编译 TPC-DS ( dsdgen / dsqgen ) 生成测试数据和查询语句

TPC所有Benchmark工具包的下载地址是https://www.tpc.org/tpc_documents_current_versions/current_specifications5.asp , TPC-DS当前最新版本是3.2.0,下载前需要填写真实的邮箱地址,因为下载连接是通过邮件发送的。将下载好的安装包上传到Linux服务器,并解压安装包

文章图片
多分类问题的处理策略和评估手段

多分类问题基本都是建立在二分类问题基础之上的,简单说就是:将多分类问题拆解成多个二分类问题去解决,具体来说,通常有两种策略:One-Versus-The-Rest (OvR) 也叫 One-Versus-All(OvA):即每一个类别和所有其他类别做一次二分类,全部类别都做完后,就等于实现了多分类。一个有N种分类的问题使用此策略需要进行N次二分类处理 One-Versus-One(OvO)即每一个

文章图片
#分类#sklearn
Virtualenv or Anaconda?Python虚拟环境最佳实践

最近同时在Window和Linux上交替使用Virtualenv和Anaconda,期间一直在思考两种工具哪一个更好?是否可以统一使用其中一个完成所有Python项目的环境构建?两者共存,机器学习项目优先选择Conda,其他类型项目视情况而定,可能多数会以Virtualenv为主;使用更轻量的Miniconda替代Anaconda;依然在本地安装并建立系统级Python环境 (与Virtualen

文章图片
#virtualenv
Apache Kafka 基于 S3 的数据导出、导入、备份、还原、迁移方案

在系统升级或迁移时,用户常常需要将一个 Kafka 集群中的数据导出(备份),然后在新集群或另一个集群中再将数据导入(还原)。通常,Kafka集群间的数据复制和同步多采用 Kafka MirrorMaker,但是,在某些场景中,受环境限制,两个于 Kafka 集群之间的网络可能无法连通,亦或是需要将 Kafka 的数据沉淀为文件存储以备他用。此时,基于 Kafka Connect S3 Sourc

文章图片
#kafka#迁移
Flink:维表 Join 难点和技术方案汇总

目前看,Flink 的 “维表 Join” 主要就三种实现方式,叫法可能会有细微差别,以下是我是用更直白的语言总结的称谓:直连外部数据库进行关联;将维表加载到内存中关联;基于维表变更日志的关联。这些 Join 方案具体会使用到 Flink 的 Lookup Join、Temporal Join 等相关机制,所以在研究维表 Join 方案前,应先补齐这部分的知识,具体可参考本文末给出的本博客相关系列

文章图片
#flink
Sklearn超参调优手段:网格搜索(Grid Search)和随机搜索(Randomized Search)

超参调优是“模型调优”(Model Tuning)阶段最主要的工作,是直接影响模型最终效果的关键步骤,然而,超参调优本身却是一项非常低级且枯燥的工作,因为它的策略就是:不断变换参数值,一轮一轮地去“试”,直到找出结果最好的一组参数。显然,这个过程是可以通过编程封装成自动化的工作,而不是靠蛮力手动去一遍一遍的测试。为此,Sklearn提供了多种(自动化)超参调优方法(官方文档),其中网格搜索(Gri

文章图片
#sklearn
    共 48 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择