腾讯云表格识别Python-SDK使用

一、安装tencentcloud-sdk-pythonPS C:\WINDOWS\system32> pip install tencentcloud-sdk-pythonCollecting tencentcloud-sdk-pythonDownloading https://files.pythonhosted.org/packages/cb/ee/e21ccba2b6a5...

繁梦溪

2869人浏览 · 2019-05-30 19:46:25

繁梦溪 · 2019-05-30 19:46:25 发布

一、安装tencentcloud-sdk-python

PS C:\WINDOWS\system32> pip install tencentcloud-sdk-python
Collecting tencentcloud-sdk-python
  Downloading https://files.pythonhosted.org/packages/cb/ee/e21ccba2b6a56295fdee9f6cb12f62536afe5e242d97b7e3dac5fec13421/tencentcloud_sdk_python-3.0.69-py2.py3-none-any.whl (817kB)
     |████████████████████████████████| 819kB 13kB/s
Installing collected packages: tencentcloud-sdk-python
Successfully installed tencentcloud-sdk-python-3.0.69

二、文字识别相关接口

接口名称	接口功能
ArithmeticOCR	算式识别
EnglishOCR	英文识别
GeneralAccurateOCR	通用印刷体识别（高精度版）
GeneralBasicOCR	通用印刷体识别
GeneralFastOCR	通用印刷体识别（高速版）
IDCardOCR	身份证识别
TableOCR	表格识别
VinOCR	车辆VIN码识别
WaybillOCR	运单识别

https://cloud.tencent.com/document/product/866/33515

三、表格识别

3.1、接口描述

接口请求域名： ocr.tencentcloudapi.com 。

本接口支持图片内表格文档的检测和识别，返回每个单元格的文字内容，支持将识别结果保存为 Excel 格式。

默认接口请求频率限制：10次/秒。

3.2、输入参数

以下请求参数列表仅列出了接口请求参数和部分公共参数，完整公共参数列表见公共请求参数。

参数名称	必选	类型	描述
Action	是	String	公共参数，本接口取值：TableOCR
Version	是	String	公共参数，本接口取值：2018-11-19
Region	是	String	公共参数，详见产品支持的地域列表。
ImageBase64	否	String	图片的 Base64 值。支持的图片格式：PNG、JPG、JPEG，暂不支持 GIF 格式。支持的图片大小：所下载图片经Base64编码后不超过 3M。图片下载时间不超过 3 秒。图片的 ImageUrl、ImageBase64 必须提供一个，如果都提供，只使用 ImageUrl。
ImageUrl	否	String	图片的 Url 地址。支持的图片格式：PNG、JPG、JPEG，暂不支持 GIF 格式。支持的图片大小：所下载图片经 Base64 编码后不超过 3M。图片下载时间不超过 3 秒。图片存储于腾讯云的 Url 可保障更高的下载速度和稳定性，建议图片存储于腾讯云。非腾讯云存储的 Url 速度和稳定性可能受一定影响。

3.3、输出参数

参数名称	类型	描述
TextDetections	Array of TextTable	检测到的文本信息，具体内容请点击左侧链接。
Data	String	Base64 编码后的 Excel 数据。
RequestId	String	唯一请求 ID，每次请求都会返回。定位问题时需要提供该次请求的 RequestId。

https://cloud.tencent.com/document/api/866/34936

四、Python示例

#文字识别1000次/月
import base64
def imgget(path):
    with open(path,"rb") as f:#转为二进制格式
        base64_data = base64.b64encode(f.read())#使用base64进行加密
    return base64_data.decode('utf-8')

from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentcloud.common.profile.http_profile import HttpProfile
from tencentcloud.common.exception.tencent_cloud_sdk_exception import TencentCloudSDKException 
from tencentcloud.ocr.v20181119 import ocr_client, models 
try: 
    cred = credential.Credential("个人SecretId", "个人SecretKey") 
    httpProfile = HttpProfile()
    httpProfile.endpoint = "ocr.tencentcloudapi.com"

    clientProfile = ClientProfile()
    clientProfile.httpProfile = httpProfile
    client = ocr_client.OcrClient(cred, "ap-guangzhou", clientProfile) 

    req = models.TableOCRRequest()
    
    params=imgget(path)
    req.ImageBase64=str(params)
    #req.from_json_string(params)

    resp = client.TableOCR(req) 
    print(resp.to_json_string()) 

except TencentCloudSDKException as err: 
    print(err)

#print(resp.Data) #Base64 编码后的 Excel 数据
data=base64.b64decode(resp.Data)
#文件保存函数
def save(data,name):
    path=name
    with open(path,"wb")as f:
        f.write(data)
    f.close
print(data)
name='腾讯云表格识别结果.xlsx'
save(data,name)