遇到的问题

使用服务器下载Huggingface的数据集,显示ConnectionError: Couldn’t reach ‘Salesforce/dialogstudio’ on the Hub (ConnectionError)

具体代码如下:

dataset = load_dataset("Salesforce/dialogstudio", "TweetSumm")

具体报错信息如下:

 1451         raise ConnectionError(f"Couldn't reach '{path}' on the Hub ({type(e).__name__})")
   1452     elif "404" in str(e):
   1453         msg = f"Dataset '{path}' doesn't exist on the Hub"

ConnectionError: Couldn't reach 'Salesforce/dialogstudio' on the Hub (ConnectionError)

解决方法

这是因为服务器连接不上huggingface,也就是服务器不能上外 网,下载不了数据集。那么解决方法是什么呢?

使用本地电脑先将数据集下载到本地,然后手动上传到服务器上。

本地电脑运行:

from datasets import Dataset, load_dataset, load_from_disk
dataset = load_dataset("Salesforce/dialogstudio", "TweetSumm")
dataset.save_to_disk("dataset/Salesforce/dialogstudio") # 保存到该目录下
dataset

使用save_to_disk将数据集保存到本地磁盘,然后将dataset文件夹上传到服务器,上传到服务器代码的相同路径下。

我的服务器举例如下:
在这里插入图片描述

服务器电脑运行:

from datasets import Dataset, load_dataset, load_from_disk
# dataset = load_dataset("Salesforce/dialogstudio", "TweetSumm")
dataset = load_from_disk("dataset/Salesforce/dialogstudio")
dataset

使用load_from_disk从磁盘导入数据集。

参考

[1] https://blog.csdn.net/weixin_44942303/article/details/129859895

Logo

鸿蒙生态一站式服务平台。

更多推荐