问题:解析一串多部分数据

我有一个字符串(base64 在这里解码),看起来像这样:

----------------------------212550847697339237761929
Content-Disposition: form-data; name="preferred_name"; filename="file1.rtf"
Content-Type: application/rtf

{\rtf1\ansi\ansicpg1252\cocoartf1504\cocoasubrtf830
{\fonttbl\f0\fswiss\fcharset0 Helvetica;}
{\colortbl;\red255\green255\blue255;}
{\*\expandedcolortbl;;}
\margl1440\margr1440\vieww10800\viewh8400\viewkind0
\pard\tx720\tx1440\tx2160\tx2880\tx3600\tx4320\tx5040\tx5760\tx6480\tx7200\tx7920\tx8640\pardirnatural\partightenfactor0

\f0\fs24 \cf0 testing123FILE1}
----------------------------212550847697339237761929
Content-Disposition: form-data; name="to_process"; filename="file2.rtf"
Content-Type: application/rtf

{\rtf1\ansi\ansicpg1252\cocoartf1504\cocoasubrtf830
{\fonttbl\f0\fswiss\fcharset0 Helvetica;}
{\colortbl;\red255\green255\blue255;}
{\*\expandedcolortbl;;}
\margl1440\margr1440\vieww10800\viewh8400\viewkind0
\pard\tx720\tx1440\tx2160\tx2880\tx3600\tx4320\tx5040\tx5760\tx6480\tx7200\tx7920\tx8640\pardirnatural\partightenfactor0

\f0\fs24 \cf0 testing123FILE212341234}
----------------------------212550847697339237761929--

我在一个简单的网页上生成此文件,该网页通过 API 网关的 PUT 请求将几个文件上传到 AWS Lambda 脚本。需要注意的是,我从 API Gateway 得到的是一个 Base64 字符串,然后我将其解码为上面的字符串。

上面的字符串是我的 Lambda 脚本从 API 网关接收的数据。 我想要做的是解析这个字符串,以便检索包含在 Python 2.7 中的数据。 我已经尝试了cgi类并使用cgi.parse_multipart()方法,但是,我找不到将字符串到所需的参数。有小费吗?

解答

评论:它是否健壮且符合规范?

只要您的数据遵循此前提条件:

  • 第一行是边界

  • 以下标头以行终止

  • 每个消息部分都以边界结束


评论:如果内容像 JPEG 流一样是二进制的怎么办?

这很可能会中断,因为使用了 String 方法,并且读取内容使用的是.readline(),它取决于 New Line

因此从 BASE64 到decode再到unpackMultipart 是错误的方法!


评论:如果有重用公共库的版本

如果您能够提供您的数据作为标准 MIME 消息,您可以使用以下内容:

import email
msg = email.message_from_string(mimeHeader+data)
print('is_multipart:{}'.format(msg.is_multipart()))

for part in msg.walk():
    if part.get_content_maintype() == 'multipart':
        continue

    filename = part.get_filename()
    payload = part.get_payload(decode=True)
    print('{} filename:{}\n{}'.format(part.get_content_type(), filename, payload))

输出:

is_multipart:真

应用程序/rtf 文件名:file1.rtf

b'{ tf1\x07nsi\x07nsicpg1252\cocoartf1504\cocoasubrtf830

{\x0conttbl\x0c0\x0cswiss\x0ccharset0'...(为简洁起见,省略)

应用程序/rtf 文件名:file2.rtf

b'{ tf1\x07nsi\x07nsicpg1252\cocoartf1504\cocoasubrtf830

{\x0conttbl\x0c0\x0cswiss\x0ccharset0'...(为简洁起见,省略)


问题:解析一串多部分数据

纯 Python 解决方案,例如:

import re, io
with io.StringIO(data) as fh:
    parts = []
    part_line = []
    part_fname = None
    new_part = None
    robj = re.compile('.+filename=\"(.+)\"')

    while True:
        line = fh.readline()
        if not line: break

        if not new_part:
            new_part = line[:-1]

        if line.startswith(new_part):
            if part_line:
                parts.append({'filename':part_fname, 'content':''.join(part_line)})
                part_line = []

            while line and line != '\n':
                _match = robj.match(line)
                if _match: part_fname = _match.groups()[0]
                line = fh.readline()
        else:
            part_line.append(line)

for part in parts:
    print(part)

输出:

{'文件名':'file1.rtf','内容':'{ tf1\x07nsi\x07nsicpg1252\cocoartf1504\cocoasubrtf830

...(为简洁起见省略)

{'文件名':'file2.rtf','内容':'{ tf1\x07nsi\x07nsicpg1252\cocoartf1504\cocoasubrtf830

...(为简洁起见省略)

用 Python 测试:3.4.2

Logo

Python社区为您提供最前沿的新闻资讯和知识内容

更多推荐