logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据开发面试重点【2023届秋招总结】

我本硕都是双非计算机专业,从研一下开始学习大数据开发的相关知识,从找实习到秋招,我投递过100+公司,拿到了10+的offer,包括滴滴、字节、蚂蚁、携程、蔚来、去哪儿等大厂。经过无数场的面试,不断总结,终于摸清了面试官到底喜欢问哪些问题。今天把自己总结的一些内容分享给大家,欢迎大家补充讨论!!!ps:这里仅提供了部分大数据开发面试的相关内容1. MapReduce的原理map阶段:首先通过Inp

文章图片
#大数据#面试#java +1
【大数据开发必看】项目一 电信客服

电信客服需求: 统计每天、每月以及每年的每个人的通话次数及时长项目架构:生产数据(ProduceLog)随机生成电话号(主被叫)随机生成通话建立时间随机生成通话时长(30min内)生成日志写入文件,2条/sflume(exec-kafka)Source:exec,监听生成数据Channel:MemoryChannelSink:KafkaSinkkafka(消息队列)控制台消费者测试IDEA消费者直

#java#hadoop#spark +2
微信大数据推荐算法比赛

2021中国高校计算机大赛-微信大数据挑战赛Baseline本次比赛基于脱敏和采样后的数据信息,对于给定的一定数量到访过微信视频号“热门推荐”的用户,根据这些用户在视频号内的历史n天的行为数据,通过算法在测试集上预测出这些用户对于不同视频内容的互动行为(包括点赞、点击头像、收藏、转发等)的发生概率。本次比赛以多个行为预测结果的加权uAUC值进行评分。大赛官方网站:https://algo.weix

#hadoop#自然语言处理#tensorflow +1
【大数据开发必看】Hadoop重点

Hadoop重点内容1. 入门大数据主要解决的是存储和计算问题数据单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB…2006年,hadoop诞生Hadoop运行模式:本地模式,伪分布式模式,完全分布式模式当namenode和datanode一直起不起来(或者起来一会就挂掉):最可能的原因:格式化namenode的时候,没有删除data和log文件夹,这会导致namenode和

#hadoop#spark#hdfs +1
【爆火的图神经网络模型】GCN/GraphSAGE/GAT

Graph Network1. GCN节点特征的更新公式:H(l+1)=σ(D~−12A~D~−12H(l)W(l))H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right)H(l+1)=σ(D~−21​A~D~−21​H(l)W(l))其中 D~

#自然语言处理#深度学习#机器学习 +1
【大数据开发必看】ELK入门及实战

ELK 学习笔记很多人不知道ELK是什么,先说一下ELK指什么,E表示Elasticsearch,L表示Logstash,K表示Kibana在发展的过程中,又有了Beats的加入,这个时候就不再使用ELK去命名,而是Elastic Stack先简单介绍一下他们的作用分别是什么,这样我们才能知道为什么要学习这些技术Elasticsearch:分布式搜索引擎,还有存储数据Logstash:收集日志,分

#大数据#elasticsearch#数据库 +1
【爆火的图神经网络模型】GCN/GraphSAGE/GAT

Graph Network1. GCN节点特征的更新公式:H(l+1)=σ(D~−12A~D~−12H(l)W(l))H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right)H(l+1)=σ(D~−21​A~D~−21​H(l)W(l))其中 D~

#自然语言处理#深度学习#机器学习 +1
史上最全的2023最新大数据面试笔记【200+页,10w+字】

简介:我本硕都是双非计算机专业,研二开始学习大数据开发的相关知识,从找实习到秋招,投递过100+公司,拿到过的offer,包括滴滴、字节、蚂蚁、携程、蔚来、去哪儿等大厂,现在已经签约。依稀还记得刚开始找工作,从零开始准备八股文的时候,心情超级浮躁,不知道该准备哪些内容(大数据组件实在太多了!!!在找工作的整个过程中,有了和面试官无数次交锋的机会,终于总结出了一份最强大数据面试笔记,非常好用!!!最

文章图片
#面试#hadoop#大数据 +1
知识图谱之NELL数据集简介

1 NELL数据集简介来源:NELL1.1 目录结构train_tasks.jsondev_tasks.jsontest_tasks.jsonent2idsrelation2idspath_graphe1rel_e2.jsonrel2candidates.json1.2 对应文件的解释训练集:每个关系所在的三元组的数量在50到500之间51个关系验证集:每个关系所在的三元组的数量在50到500之间

#自然语言处理#pytorch#机器学习 +2
【大数据开发必看】项目一 电信客服

电信客服需求: 统计每天、每月以及每年的每个人的通话次数及时长项目架构:生产数据(ProduceLog)随机生成电话号(主被叫)随机生成通话建立时间随机生成通话时长(30min内)生成日志写入文件,2条/sflume(exec-kafka)Source:exec,监听生成数据Channel:MemoryChannelSink:KafkaSinkkafka(消息队列)控制台消费者测试IDEA消费者直

#java#hadoop#spark +2
    共 16 条
  • 1
  • 2
  • 请选择