logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【机器学习】建模流程及思路

1. 业务沟通与业务确认(1)哪些数据(2)想做什么事情(3)之前是怎么做的(4)之前有什么不满意的地方(5)能不能用机器学习方法来做(6)如何转换机器学习问题以及优先级(*)(7)训练出来的模型怎么用(8)期望达到什么样的效果(确定业务目标)2. 业务问题转换机器学习问题(1)是否可以用机器学习方法来做(2)如何设计开发节奏(3)最终产品的检...

#机器学习
【自然语言处理】情绪识别

情绪识别,其实就是多分类。 构造特征工程。混淆矩阵来分析分类错误数据。

#自然语言处理
【计算引擎】OLAP之争:kylin、impala、druid、presto、clickhouse

文章目录1. 即席查询2. Kylin2.1 架构2.2 原理2.3 Cube构建优化3. Impala3.1 架构3.2 优化4. Druid4.1 架构4.2 数据结构4.2.1 DataSource4.2.2 Segment结构5. Presto5.1 架构5.2 数据源6. ClickHouse6.1 特性6.2 架构7.总结1. 即席查询即席查询是用户根据自己的要求,灵活的选择查询条件,

#kylin#clickhouse
【计算引擎】Flink要点总结

文章目录1. 什么是Flink?2. Flink的组件栈3. Flink集群运行时的角色及其作用4. Flink分区策略5. Flink容错机制6. Flink计算资源的调度是如何实现的?1. 什么是Flink?Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink 提供了诸多高抽象层的 API 以

#大数据#flink
【计算引擎】spark笔记-实时计算

Spark StreamingSPark Streaming是Spark中一个组件,基于Spark Core进行构建,用于对流式进行处理,类似于Storm。Spark Streaming能够和Spark Core、Spark SQL来进行混合编程。Spark Streaming我们主要关注:Spark Streaming 能接受什么数据? kafka、flume、HDFS、Twitte...

#spark#kafka
到底了