
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1、技术一面(电话)Q1:厦门数据调度的项目Q2:爬虫是如何进行的Q3:如何定义高效、准确、低成本Q4:介绍OOM、内存泄露Q5:内存可提升的空间Q6:对这个部门的理解Q7:数仓如何分层、为什么要分层2、技术二面(电话)Q1:厦门数据调度的项目Q2:伴随同行项目Q3:讲讲你做大数据的优势Q4:挑战在哪里Q5:讲讲你的优点Q6:讲讲你对《阿里:大数据之路》这本书的理解Q7:对于未来的规划怎么样3、技
(1)去掉方差较小的特征方差阈值(VarianceThreshold)是特征选择的一个简单方法,去掉那些方差没有达到阈值的特征。默认情况下,删除零方差的特征,例如那些只有一个值的样本。假设我们有一个有布尔特征的数据集,然后我们想去掉那些超过80%的样本都是0(或者1)的特征。布尔特征是伯努利随机变量,方差为 p(1-p)。from sklearn.feature_selection import
1、问题介绍AVI文件打开之后只有音频,没有视频2、解决方案下载LAV解码器,下载地址LAV Filters,然后利用Windows自带的视频播放器Windows media player即可正常播放
1、概念解释归并排序是递归算法, 思路是将数据表持续分裂为两半, 对两半分别进行归并排序递归的基本结束条件是:数据表仅有1个数据项,自然是排好序的;缩小规模:将数据表分裂为相等的两半,规模减为原来的二分之一;调用自身:将两半分别调用自身排序,然后将分别排好序的两半进行归并,得到排好序的数据表2、代码实现方法一:def mergeSort(alist):print("Splitting ",alis
1、引入很多问题都可转化为图, 利用图算法解决,例如早餐吃薄煎饼的过程,以动作为顶点,以先后次序为有向边,问题是对整个过程而言,如果一个人独自做,所有动作的先后次序?从加料开始?还是从加热烤盘开始?2、分析从工作流程图得到工作次序排列的算法,称为“拓扑排序”,拓扑排序处理一个DAG, 输出顶点的线性序列,使得两个顶点v,w,如果G中有(v,w)边,在线性序列中v就出现在w之前。拓扑排序广泛应用在依
ORC(OptimizedRC File)也是 Apache 的顶级项目,也是自描述的列存储,源自于RC(RecordColumnar File),主要是在 Hive 中使用,支持数据压缩、索引功能、update 操作、ACID 操作、支持复杂类型等,其查询性能相对 Parquet 略有优势。orc文件有如下结构:block,stripe,row_group,stream,index data,R
技术面Q1:对大数据技术有一定的了解,讲讲你都学了什么Q2:写SPARK过程中遇到的问题Q3:HDFS调节过参数吗Q4:学校里面有参加一些项目吗Q5:如果项目中与其他同事出现分歧过后,你会怎么做Q6:求学过程中,让你影响最深刻的一件事Q7:你怎么管理时间的Q8:如何释放压力Q9:三个优点、一个缺点Q10:介意加班吗HR面Q1:自我介绍Q2:印象最深的事情Q3:支教的资金来源Q4:城市选择,深圳、北
1、技术一面Q1:根据实习经历介绍自己的技能积累和成长Q2:介绍最有收获的一次项目A2:抖音OOM问题的解决Q3:本科阶段有哪些难忘的事情A3:支教Q4:支教的钱怎么获取的Q5:俄罗斯方块Q6:冒泡排序Q7:RPC协议的字典序列Q8:递归算法中,递归深度比较深的时候,怎么解决Q9:无限个网页,受限于内存和可查看网页的限制,设计一种数据结构来存储Q10:如果给你一套全新的代码,你会如何学习,让自己更
1.Spark的并行度指的是什么?spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度!当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致你分配下去的资源都浪费掉了。同时并行运行,还可以让每个task要处理的数量变少(很简单的原理。合理设置并行度,可以充分利用集群资源,减少每个task处理数据量,而增
ORC(OptimizedRC File)也是 Apache 的顶级项目,也是自描述的列存储,源自于RC(RecordColumnar File),主要是在 Hive 中使用,支持数据压缩、索引功能、update 操作、ACID 操作、支持复杂类型等,其查询性能相对 Parquet 略有优势。orc文件有如下结构:block,stripe,row_group,stream,index data,R







