在python中过滤掉某些字节

Mangs

61人浏览 · 2022-08-20 17:04:14

Mangs · 2022-08-20 17:04:14 发布

回答问题

我在我的 python 程序中收到此错误:ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters

这个问题random text from /dev/random raise an error in lxml: All strings must be XML compatible: Unicode or ASCII, no NULL bytes解释了这个问题。

解决方案是过滤掉某些字节,但我对如何去做这件事感到困惑。

有什么帮助吗?

编辑:抱歉,如果我没有提供有关该问题的足够信息。字符串数据来自外部 api 查询,我无法控制数据的格式。

Answers

正如对链接问题的回答所说,XML 标准将有效字符定义为:

Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

将其翻译成 Python:

def valid_xml_char_ordinal(c):
    codepoint = ord(c)
    # conditions ordered by presumed frequency
    return (
        0x20 <= codepoint <= 0xD7FF or
        codepoint in (0x9, 0xA, 0xD) or
        0xE000 <= codepoint <= 0xFFFD or
        0x10000 <= codepoint <= 0x10FFFF
        )

然后,您可以根据需要使用该功能,例如

cleaned_string = ''.join(c for c in input_string if valid_xml_char_ordinal(c))

Python

Python社区为您提供最前沿的新闻资讯和知识内容

更多推荐

求助！为什么用InsCode部署会出现无限重定向？

Python

如何重塑熊猫。系列

问题:如何重塑熊猫。系列在我看来,它就像 pandas.Series 中的一个错误。 a = pd.Series([1,2,3,4]) b = a.reshape(2,2) b b 有类型 Series 但无法显示,最后一条语句给出异常,非常冗长,最后一行是“TypeError: %d format: a number is required, not numpy.ndarray”。 b.sha

Python

在哪里可以找到有关 Keras 中默认权重初始化器的文档? [复制]

问题:在哪里可以找到有关 Keras 中默认权重初始化器的文档? [复制] 我刚刚在这里](https://keras.io/initializers/)中阅读了有关[中的 Keras 权重初始化器的信息。在文档中,只介绍了不同的初始化程序。如: model.add(Dense(64, kernel_initializer='random_normal')) 当我没有指定kernel_initia