Spark处理数据出现大量GC导致处理性能变慢的原因及解决方案

Spark应用程序处理的大数据多是运行于JVM上的，经常要面对GC优化问题。下面给出由于Linux系统原因导致的GC耗时异常的处理方式：打开Spark的GC日志，在spark-env.sh文件中的SPARK_JAVA_OPTS参数上添加-verbose:gc-XX:+PrintGCDetails-XX:+PrintGCTimeStamps如果每次GC回收的量基本相同，但是在某一时间点，耗时异常大，

bzxb1188

3017人浏览 · 2020-12-18 21:11:01

bzxb1188 · 2020-12-18 21:11:01 发布

Spark应用程序处理的大数据多是运行于JVM上的，经常要面对GC优化问题。下面给出由于Linux系统原因导致的GC耗时异常的处理方式：

打开Spark的GC日志，在spark-env.sh文件中的SPARK_JAVA_OPTS参数上添加 -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps

如果每次GC回收的量基本相同，但是在某一时间点，耗时异常大，这种情况下，有两种可能：

1、GC收集对象所在内存被swap了

2、GC线程进入IO等待状态，因为系统IO繁忙

这两种情况可以由GC日志的/user/sys/real的值得pattern来识别，如果为Low user time,high system time,long GC pause说明数据内存被swap了，如果是Low user time,low system time,long GC pause说明GC线程进入IO等待状态。

处理方式：

对于情况1，确保JVM内存不被swap，可以启动参数-XX:+AlwaysPreTouch执行sysctl -w vm.swappiness=0 禁用swap

对于情况2，均匀系统IO负载，可以通过执行

sysctl -w vm.dirty_writeback_cenisecs=500

sysctl -w vm.dirty_expire_centisecs=500来实现

Linux

更多推荐

网卡速率和双工模式的配置

http://linux.chinaitlab.com/system/792187.html1、mii-tool 配置网络设备协商方式的工具； 1.1 mii-tool 介绍； mii-tool - view, manipulate media-independent interface status （mii-tool 是查看，管理介质的网络接口的状态）

Linux

Linux虚拟文件系统之文件系统卸载（sys_umount())

Linux中卸载文件系统由umount系统调用实现，入口函数为sys_umount()。较于文件系统的安装较为简单，下面是具体的实现。1. /*sys_umont系统调用*/2. SYSCALL_DEFINE2(umount, char __user *, name, int, flags)3. {4.struct path path;

Linux

Linux系统下超级终端Minicom的使用方法（例如：连接交换机，路由器等）转http://baike.baidu.com/view/2911642.htm?fr=ala0_1

Linux系统下超级终端Minicom的使用方法 　　Linux下的Minicom的功能与下的超级终端功能相似，适于在通过超级终端对设备的管理以及对嵌入操作系统的升级，现写出Minicom的使用手册： 　　1．启动minicom 　　以root权限登录系统 　　使用命令 　　minicom –s 则minicom启动，屏

Linux

所有评论(0)

查看更多评论

bzxb1188

@bzxb1188

已为社区贡献1条内容