LaiYoung1022 个人主页

@weixin_44704985

LaiYoung1022

2022-12-17 16:58:00 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

2022-阿里-大数据研发工程师-秋招面经

1、技术一面（电话）Q1：厦门数据调度的项目Q2：爬虫是如何进行的Q3：如何定义高效、准确、低成本Q4：介绍OOM、内存泄露Q5：内存可提升的空间Q6：对这个部门的理解Q7：数仓如何分层、为什么要分层2、技术二面（电话）Q1：厦门数据调度的项目Q2：伴随同行项目Q3：讲讲你做大数据的优势Q4：挑战在哪里Q5：讲讲你的优点Q6：讲讲你对《阿里：大数据之路》这本书的理解Q7：对于未来的规划怎么样3、技

【Python学习】sklearn Feature selection(特征选择)

（1）去掉方差较小的特征方差阈值（VarianceThreshold）是特征选择的一个简单方法，去掉那些方差没有达到阈值的特征。默认情况下，删除零方差的特征，例如那些只有一个值的样本。假设我们有一个有布尔特征的数据集，然后我们想去掉那些超过80%的样本都是0（或者1）的特征。布尔特征是伯努利随机变量，方差为 p(1-p)。from sklearn.feature_selection import

#python #机器学习 #sklearn

【经验分享】AVI文件打开只有音频无视频的解决方案

1、问题介绍AVI文件打开之后只有音频，没有视频2、解决方案下载LAV解码器，下载地址LAV Filters，然后利用Windows自带的视频播放器Windows media player即可正常播放

【数据结构与算法python】归并排序算法的python实现

1、概念解释归并排序是递归算法，思路是将数据表持续分裂为两半，对两半分别进行归并排序递归的基本结束条件是：数据表仅有1个数据项，自然是排好序的；缩小规模：将数据表分裂为相等的两半，规模减为原来的二分之一；调用自身：将两半分别调用自身排序，然后将分别排好序的两半进行归并，得到排好序的数据表2、代码实现方法一：def mergeSort(alist):print("Splitting ",alis

#数据结构与算法 #python #排序算法

【数据结构与算法python】拓扑排序算法-DFS算法

1、引入很多问题都可转化为图，利用图算法解决,例如早餐吃薄煎饼的过程,以动作为顶点，以先后次序为有向边,问题是对整个过程而言,如果一个人独自做，所有动作的先后次序？从加料开始？还是从加热烤盘开始？2、分析从工作流程图得到工作次序排列的算法，称为“拓扑排序”，拓扑排序处理一个DAG，输出顶点的线性序列，使得两个顶点v,w，如果G中有(v,w)边，在线性序列中v就出现在w之前。拓扑排序广泛应用在依

#数据结构与算法 #python

【大数据】ORC数据格式

ORC（OptimizedRC File）也是 Apache 的顶级项目，也是自描述的列存储，源自于RC（RecordColumnar File），主要是在 Hive 中使用，支持数据压缩、索引功能、update 操作、ACID 操作、支持复杂类型等，其查询性能相对 Parquet 略有优势。orc文件有如下结构：block,stripe,row_group,stream,index data,R

#大数据

2022-VIVO-大数据研发工程师-秋招面经

技术面Q1：对大数据技术有一定的了解，讲讲你都学了什么Q2：写SPARK过程中遇到的问题Q3：HDFS调节过参数吗Q4：学校里面有参加一些项目吗Q5：如果项目中与其他同事出现分歧过后，你会怎么做Q6：求学过程中，让你影响最深刻的一件事Q7：你怎么管理时间的Q8：如何释放压力Q9：三个优点、一个缺点Q10：介意加班吗HR面Q1：自我介绍Q2：印象最深的事情Q3：支教的资金来源Q4：城市选择，深圳、北

2022-华为-大数据研发工程师-秋招面经

1、技术一面Q1：根据实习经历介绍自己的技能积累和成长Q2：介绍最有收获的一次项目A2：抖音OOM问题的解决Q3：本科阶段有哪些难忘的事情A3：支教Q4：支教的钱怎么获取的Q5：俄罗斯方块Q6：冒泡排序Q7：RPC协议的字典序列Q8：递归算法中，递归深度比较深的时候，怎么解决Q9：无限个网页，受限于内存和可查看网页的限制，设计一种数据结构来存储Q10：如果给你一套全新的代码，你会如何学习，让自己更

#华为

【大数据】spark Yarn的使用（4） - 任务并行度参数设置

1.Spark的并行度指的是什么？spark作业中，各个stage的task的数量，也就代表了spark作业在各个阶段stage的并行度！当分配完所能分配的最大资源了，然后对应资源去调节程序的并行度，如果并行度没有与资源相匹配，那么导致你分配下去的资源都浪费掉了。同时并行运行，还可以让每个task要处理的数量变少（很简单的原理。合理设置并行度，可以充分利用集群资源，减少每个task处理数据量，而增

#大数据 #hadoop #spark

【大数据】ORC数据格式

#大数据

共 18 条

请选择