Apache POI 是用Java编写的免费开源的跨平台的 Java API,Apache POI提供API给Java对Microsoft Office格式档案读和写的功能。POI组件可以提供Java操作Microsoft Office的API,导出格式为Office 2003时POI调用的HSSF包,导出格式为Office 2007时,调用XSSF包,而SXSSF包是POI3.8版本之上对XSSF的一个扩展,用于大数据量的导出,实际应用中可有效避免内存溢出的问题。

注:Excel2003(xls文件)支持每个工作表中最多有 65536 行和 256列,而Excel 2007(xlsx文件)支持每个工作表中最多有 1,048,576 行和 16,384 列。

以下介绍使用SXSSF方式导出大数据Excel文件的方法。

//获取数据(导出缓存文件)
public void getCdateExcel() {
                try {
                    int pageSize=1000;//设置每批次写入的缓存行数
                    Workbook workbook = new SXSSFWorkbook(pageSize);
                    Sheet sh=workbook.createSheet();
                    int rownum=0;
                    //查询所有数据,此处若数据量过大,可能导致List对象内存溢出,需要使用多批次查询方式来限制每次仅查询部分数据,分多次查询结束最后write输出文件
                    List<Object> list=getList();
                    for(int i=0;i<list.size();i++){
                        rownum++;
                        Row row = sh.createRow(rownum);
                        Cell cell = row.createCell(0);
                        cell.setCellValue(list(i).get("c1"));
                        cell = row.createCell(1);
                        cell.setCellValue(list(i).get("c2"));
                        //每1000条刷新数据写入到硬盘
                        if(rownum % pageSize== 0){
                            ((SXSSFSheet)sh).flushRows();
                       }
                    }

                    //将上述数据输出到硬盘文件中
                    FileOutputStream out=new FileOutputStream("test.xlsx");
                    workbook.write(out);
                    out.close();
                } catch (Exception e) {
                    //
                }
    }

示例说明

1.flushRows方法可以将达到行数的数据通过文件流输出到硬盘文件,并清空了缓存,避免大数据占用内存导致内存溢出的问题。

2.若查询到的数据过大可能会导致List队列中new对象剧增,导致JAVA创建对象内存溢出。此时需要将查询机制调整一下,一次性查询全部改为每次仅查询比如1000条数据。

3.不管单次还是分批次,最后一段代码中的write都会输出到硬盘,生成xlsx文件。

Logo

大数据从业者之家,一起探索大数据的无限可能!

更多推荐