检测压缩包并处理的Linux脚本（解压、批量修改文件名、导入）分析

iamlaosong文邮件结算数据压缩包由工作人员不定时从结算系统下载再FTP到指定的目录，所以我需要一个脚本，每天定时（用crontab）检测是否有上传的压缩包，如果有，则解压、截短文件名，导入数据库。之所以要截短文件名，是因为下载的压缩包中的文件名除了含有结算日期和类型外，还包括生成时间及序列号，而这一部分我是不需要的（没有规律和意义），所以要截去，以便于导入程序处理。压缩包分两种：使用费..

宋哥

3723人浏览 · 2017-02-15 17:59:24

宋哥 · 2017-02-15 17:59:24 发布

iamlaosong文

邮件结算数据压缩包由工作人员不定时从结算系统下载再FTP到指定的目录，所以我需要一个脚本，每天定时（用crontab）检测是否有上传的压缩包，如果有，则解压、截短文件名，导入数据库。之所以要截短文件名，是因为下载的压缩包中的文件名除了含有结算日期和类型外，还包括生成时间及序列号，而这一部分我是不需要的（没有规律和意义），所以要截去，以便于导入程序处理。压缩包分两种：使用费和补偿费，每个压缩包有6个文件，分别是出口分拣、进口分拣、航空、陆运、转运和投递。下面是脚本并解释几个关键点：

#timing job：unzip & import costs datafile by iamlaosong 20170215  
#!/bin/sh

BAKDIR=/home/oracle/ems_suan
BINDIR=/home/oracle/bin/sdpt_js
#OPDATE=`date -d '-1 day' +%Y%m%d`

cd ${BAKDIR}
# OPDATE=today - seq
for i in $(seq 45 -1 7)
do
  OPDATE=`date -d "-$i day" +%Y%m%d` 
  echo ${OPDATE}
  # process SYF zipfile
  zipfile=${OPDATE}*SYF*.zip
  if [ -f ${zipfile} ]; then
    unzip ${zipfile}
    for tfile in ${OPDATE}*SYF*.txt
    do
      tshort=${tfile%SYF*.txt}SYF.txt
      if [ ${tfile} != ${tshort} ]; then
        mv ${tfile} ${tshort}
      fi
    done
    [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE}
    rename _NBCL _ ${OPDATE}*SYF.txt
    mv ${OPDATE}*SYF.txt ${OPDATE}
    mv ${zipfile} all_zip
    cd ${BINDIR}
    ./jsimp.sh ${OPDATE} SYF >/dev/null
    cd ${BAKDIR}
  fi
  # process BCF zipfile
  zipfile=${OPDATE}*BCF*.zip
  if [ -f ${zipfile} ]; then
    unzip ${zipfile}
    for tfile in ${OPDATE}*BCF*.txt
    do
      tshort=${tfile%BCF*.txt}BCF.txt
      if [ ${tfile} != ${tshort} ]; then
        mv ${tfile} ${tshort}
      fi
    done
    [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE}
    rename _NBCL _ ${OPDATE}*BCF.txt
    mv ${OPDATE}*BCF.txt ${OPDATE}
    mv ${zipfile} all_zip
    cd ${BINDIR}
    ./jsimp.sh ${OPDATE} BCF >/dev/null
    cd ${BAKDIR}
  fi
done

1、for i in $(seq 45 -1 7)

产生一个45到7的序列，用于产生距当天多少天的日期，以便检测那个日期的压缩包是否存在。

2、tshort=${tfile%SYF*.txt}SYF.txt

产生一个短文件名，将多余的不确定部分截掉，详细见Linux中如何批量截短文件名
3、rename _NBCL _ ${OPDATE}*SYF.txt

批量修改文件名，将文件名中的部分字符改成其它字符，见linux下批量修改文件名，本例是为了去掉一些字符。

4、zipfile=${OPDATE}*SYF*.zip

这个赋值有点意思，如果文件存在，其中的通配符“*”会转换成相应的字符，如果不存在，则将“*”直接赋给变量。

5、导入程序执行较慢，如果上传的压缩包过多，就会发生头天脚本还没结束，第二天又会定时启动一个新的脚本，为避免此事的发生，脚本前面应该加一段检测代码，如果有导入进程，则退出处理，代码如下：

sdpt=$(ps -ef|grep sdpt_js)
sdpt=${sdpt#*./}
if [ ${sdpt:0:7}="sdpt_js" ]; then
  echo The import program is running.
  exit
fi

其中${sdpt#*./}是截取“./”后面的字符串，而${sdpt:0:7}则是取前7个字符，如果是“sdpt_js”就退出处理。

6、 [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE}

这是两个连续的命令，前一个是检测目录是否存在，后一个是创建目录。“&&”的意思是前一个命令如果执行成功，就执行后一个命令，本例中就是如果目录不存在（注意其中的感叹号表示“非”）就创建目录。类似的还有“||”，表示前一个命令如果执行不成功，就执行后一个命令，所以，这个代码也可以写成：

cd ${OPDATE} || mkdir -p ${OPDATE}

==============================================

实际应用过程中发现根据序列生成日期的方式检测压缩文件并处理存在一个缺陷，就是有时压缩包上传的时间太迟了，导致文件不在序列生成的日期范围，压缩文件处理不到，还需要人工处理，所以需要改进处理办法。考虑到文件名中含有日期，现在改为直接检测压缩文件，提取文件名称中的日期，然后进行处理，这样就和上传日期无关了。

脚本如下：

#timing job：unzip & import costs datafile by iamlaosong 20170623  
#!/bin/sh

sdpt=$(ps -ef|grep sdpt_js)
sdpt=${sdpt#*./}
if [ "${sdpt:0:7}" = "sdpt_js" ]; then
  echo The import program is running.
  exit
fi

. /home/oracle/.bash_profile
BAKDIR=/home/oracle/ems_suan
BINDIR=/home/oracle/bin/sdpt_js
#OPDATE=`date -d '-1 day' +%Y%m%d`

cd ${BAKDIR}
for zipfile in *.zip
do
  OPDATE="${zipfile:0:8}" 
  echo ${OPDATE}
  # process SYF zipfile
  if [[ ${zipfile} =~ "SYF" ]]; then
    echo  ${zipfile}
#    read -p "SYF file: press enter to continue..." var
    unzip ${zipfile}
    for tfile in ${OPDATE}*SYF*.txt
    do
      tshort=${tfile%SYF*.txt}SYF.txt
      if [ ${tfile} != ${tshort} ]; then
        mv ${tfile} ${tshort}
      fi
    done
    [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE}
    rename _NBCL _ ${OPDATE}*SYF.txt
#    read -p "SYF file: press enter to continue..." var
    mv ${OPDATE}*SYF.txt ${OPDATE}
    mv ${zipfile} all_zip
    cd ${BINDIR}
    ./jsimp.sh ${OPDATE} SYF >/dev/null
    cd ${BAKDIR}
  fi
  # process BCF zipfile
  if [[ ${zipfile} =~ "BCF" ]]; then
    echo  ${zipfile}
#    read -p "BCF file: press enter to continue..." var
    unzip ${zipfile}
    for tfile in ${OPDATE}*BCF*.txt
    do
      tshort=${tfile%BCF*.txt}BCF.txt
      if [ ${tfile} != ${tshort} ]; then
        mv ${tfile} ${tshort}
      fi
    done
    [ ! -d ${OPDATE} ] && mkdir -p ${OPDATE}
    rename _NBCL _ ${OPDATE}*BCF.txt
#    read -p "BCF file: press enter to continue..." var
    mv ${OPDATE}*BCF.txt ${OPDATE}
    mv ${zipfile} all_zip
    cd ${BINDIR}
    ./jsimp.sh ${OPDATE} BCF >/dev/null
   cd ${BAKDIR}
  fi
done

"[[ ]]" 判断命令，比单个中括号更通用，支持字符串的模式匹配，使用=~操作符时甚至支持shell的正则表达式。
"=~"正则式匹配符号，利用它可以判断左边的字符串是否包含右边的字符串。

附：shell中单中括号与双中括号的区别

1.单括号TEST命令要对变量进行单词分离，当变量值包含空白符时，要用引号将变量括起来；而双括号的TEST命令不会对变量进行单词分离。

以下情况分为变量为单个单词，含有空格的词组。

[root@www yansan]# echo $name

hello

[root@www yansan]# [ $name = "hello" ]

[root@www yansan]# echo $?

[root@www yansan]# [[ $name = "hello" ]]

[root@www yansan]# echo $?

[root@www yansan]#

得出结论，因为变量只有一个单词嘛，单双括号的单词分离都没有影响到这个变量了。

[root@www yansan]# echo $name1

hello world

[root@www yansan]# [ $name1 = "hello world" ]

-bash: [: too many arguments

[root@www yansan]# echo $?

[root@www yansan]# [ "$name1" = "hello world" ]

[root@www yansan]# echo $?

[root@www yansan]# [[ $name1 = "hello world" ]]

[root@www yansan]# echo $?

[root@www yansan]#

这次变量是一个词组了，带空格那种了。当我们要测试时，结果发现BASH回应参数太多了，这是怎么回事呢？原来是单引号TEST命令对变量进行单词分离了，结果也就变成了

[ hello world = "hello world" ]，多了那个字符串hello，成了字符串world和字符串hello world之间的比较了。因此如果在单括号的TEST命令中的变量含有空格，但它还得和字符串比较，那就必须给变量加个双引号了，这时它就不会发生错误了。而在下面的双括号的TEST命令中，即使变量含有空格又何妨，因为它不能对变量单词进行分离嘛。

2．单方括号的TEST命令，通常用内置的TEST命令来测试表达式的值，TEST命令也被链接到方括号上。这样，既可以使用单独的TEST命令，也可以通过把表达式用单方括号括起来，来测试表达式的值。

[root@www yansan]# ll abc

-rw-r--r-- 1 root root 0 Sep 24 08:59 abc

[root@www yansan]# test -r abc ; echo $?

[root@www yansan]# [ -r abc ] ; echo $?

[root@www yansan]#

3.单括号的TEST命令不对SHELL元字符进行扩展的，而双括号TEST命令则会对SHELL元字符进行扩展的了。

[root@www yansan]# name=tom

[root@www yansan]# [ $name = t?? ]

[root@www yansan]# echo $?

[root@www yansan]# [[ $name = t?? ]]

[root@www yansan]# echo $?

[root@www yansan]#

4.在双括号的TEST命令当中，如果一个字符串（不管含不含有空格）仅仅是在表达式中作为一个普通字符串，而不是一个模式的一部分，则它也必须用引号括起来。

我的理解是如果一个字符串值（右边那个的了）不加双引号，那这个字符串就是模式来的，如果它里面有含有SHELL元字符，BASH会对它进行扩展。如果字符串加了双引号，那它就是一个很普通的字符串的，即便字符串里面里面含有特殊字符，也就是当普通内容来处理。

[root@www yansan]# echo $name

tom

[root@www yansan]# echo $name1

tomm

[root@www yansan]# [[ $name = tom ]]

[root@www yansan]# echo $?

[root@www yansan]# [[ $name = tom? ]]

[root@www yansan]# echo $?

[root@www yansan]# [[ $name1 = tom ]]

[root@www yansan]# echo $?

[root@www yansan]# [[ $name1 = tom? ]]

[root@www yansan]# echo $?

[root@www yansan]#

[root@www yansan]# [[ $name = "tom" ]]

[root@www yansan]# echo $?

[root@www yansan]# [[ $name = "tom?" ]]

[root@www yansan]# echo $?

[root@www yansan]# [[ $name1 = "tom" ]]

[root@www yansan]# echo $?

[root@www yansan]# [[ $name1 = "tom?" ]]

[root@www yansan]# echo $?

5 [ express1 –a express2 ] 这是放在单括号的TEST命令中的，因为单的不支持元字符扩展，因此就只能叫做表达式了，它们可以组合构成逻辑测试的，不过与或非使用( -a –o !)的形式。

[root@www yansan]# ll mm

-r--r--r-- 2 root root 644 Sep 24 08:48 mm

[root@www yansan]# [ -r mm -a -x mm ]

[root@www yansan]# echo $?

[root@www yansan]#

[[pattern1 –a pattern1]] 这是放在双括号TEST命令中的，因为单条式子可以支持元字符嘛，所以可以叫做模式表达式了，也就可以用于复合逻辑了，不过与非或使用（&& || !）的形式了。

[root@www yansan]# echo $name
tom
[root@www yansan]# [[ $name = [tT]om && $name = t?? ]]
[root@www yansan]# echo $?
0
[root@www yansan]#

Linux

更多推荐

Linux虚拟文件系统之文件系统卸载（sys_umount())

Linux中卸载文件系统由umount系统调用实现，入口函数为sys_umount()。较于文件系统的安装较为简单，下面是具体的实现。1. /*sys_umont系统调用*/2. SYSCALL_DEFINE2(umount, char __user *, name, int, flags)3. {4.struct path path;

Linux

网卡速率和双工模式的配置

http://linux.chinaitlab.com/system/792187.html1、mii-tool 配置网络设备协商方式的工具； 1.1 mii-tool 介绍； mii-tool - view, manipulate media-independent interface status （mii-tool 是查看，管理介质的网络接口的状态）

Linux

Linux系统下超级终端Minicom的使用方法（例如：连接交换机，路由器等）转http://baike.baidu.com/view/2911642.htm?fr=ala0_1

Linux系统下超级终端Minicom的使用方法 　　Linux下的Minicom的功能与下的超级终端功能相似，适于在通过超级终端对设备的管理以及对嵌入操作系统的升级，现写出Minicom的使用手册： 　　1．启动minicom 　　以root权限登录系统 　　使用命令 　　minicom –s 则minicom启动，屏

Linux

所有评论(0)

查看更多评论

宋哥

@iamlaosong

已为社区贡献2条内容