
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
基本情况末流985软件工程专业夏令营排名14/405(3.5%),预推免排名11/405(2.7%)国家级数模水赛(亚太小美等)水奖若干,数模国赛省二,蓝桥省三,数学竞赛省赛省二,其他省级水赛(互联网+等)若干,市赛校赛若干等省级大创英语四级560+,六级540+参加情况夏令营按照时间顺序:南开大学计算机天津大学计算机南京大学软件工程同济大学软件工程大连理工软件工程北京理工大学计算机中科院软件所国
Hadoop变成熟的一个原因正是HDFS高可用的出现。简介什么是HDFSHDFS(Hadoop Distributed File System):Hadoop分布式文件系统,目前是Apache Hadoop的核心子项目。在开源大数据技术体系中,它的地位无可替代。设计目标需要运行在大量廉价商用机器上(需要容错机制)简单一致性模型(不能并发不能随机):一次写入多次读取,支持追加写,但不允许并发写和随机
MapReduce简介MapReduce是一个面向离线批处理的分布式计算框架。离线:对时间不敏感,慢慢算批处理:数据攒一批,处理一批(相对于流处理)分布式编程模型:MapReduce程序被分为Map(映射)阶段和Reduce(化简)阶段特点:计算跟着数据走良好的扩展性:计算能力随着节点数增加,近似线性增长高容错状态监控适合海量数据的离线批处理降低了分布式编程的门槛使用场景:对时间不敏感,非流式数据
满足ACID(原子性、一致性、隔离性、持久性)的一组操作,可以被称为一个事务。随着计算机系统的发展,越来越多的采用分布式的架构来对外提供服务,但是,不同的机器的处理性能、存储性能、网络状态等各有不同,让分布式集群始终对外提供可用的一致性服务一直是需要处理的问题。为了保证数据变更请求在整个分布式环境下正确地执行,不会导致部分服务器暂时崩溃导致整个集群提供的服务和数据不再相同,在整个分布式系统处理数据

背景介绍批处理与流处理:批处理是进行批量处理从图上可以看出,它具有调度延时和处理延时。流处理是进行流式处理它更能满足低延时的需求。场景的批处理框架有MapReduce、Spark Core、Inceptor(Nucleon)、Flink Dataset 等。流式计算框架包括:基于事件驱动(Event-driven)的Storm Core(攒一小批处理)、Flink DataStream、Slips
YARN简介YARN由来Hadoop 1.x中的MapReduce存在先天缺陷,身兼两职:计算框架(称职)和资源管理系统(不称职);JobTracker同时管理资源和作业,负担重开销大;资源描述模型过于简单等问题。什么是YARNYARN(Yet Another Resource Negotiator):另一种资源管理器。是一个分布式通用资源管理系统。设计目标:聚焦资源管理、通用(适用各种计算框架)
对于YARN的介绍,可以参考之前的文章:大数据理论与实践4 分布式资源管理系统YARNRM高可用ResourceManager (RM) 负责跟踪集群中的资源,并调度应用程序
对于YARN的介绍,可以参考之前的文章:大数据理论与实践4 分布式资源管理系统YARNRM高可用ResourceManager (RM) 负责跟踪集群中的资源,并调度应用程序
隧道技术 Tunneling网络隧道技术(Tunneling)指的是利用一种网络协议来传输另一种网络协议,它主要利用网络隧道协议来实现这种功能。简单来说,使用隧道技术可以理解为,在一些网络链路中使用汽车运输载荷,在一些网络链路中使用渡轮运输载荷,汽车无法行驶在水上,但是可以把整个汽车封装在轮渡中进行运输。例如如上图所示,某网络拓扑分布在北京Region和上海Region,可以使用隧道技术将物理上不
问题背景异常检测:假如你要进行一个飞机引擎异常检测,需要检测新生产的发动机是否正常。使用的feature为产热,震动程度等等。如下图,我们可以很直观的看出异常检测的思想:那些远离主体分布的点,我们就把它们当作异常点来处理。在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该组数据的可能性就越低。这种方法称为密度估计,表达如下:...