回答问题

我用几个蜘蛛创建了一个 Scrapy 项目来爬取一些网站。现在我想使用 TOR 来:

1.对被爬取的服务器隐藏我的ip;

2.将我的请求关联到不同的ip,模拟不同用户的访问。

我已经阅读了一些关于此的信息,例如:using tor with scrapy framework,How to connect to https site with Scrapy via Polipo over TOR?

这些链接的答案对我没有帮助。为了使 Scrapy 与 TOR 一起正常工作,我应该采取哪些步骤?

编辑1:

考虑到答案 1,我从安装 TOR 开始。当我使用 Windows 时,我下载了 TOR Expert Bundle (https://www.torproject.org/dist/torbrowser/5.0.1/tor-win32-0.2.6.10.zip) 并阅读了关于如何将 TOR 配置为中继(https://www.torproject.org/docs/tor-doc-windows.html.en)。不幸的是,关于如何在 Windows 上执行此操作的信息很少或有任何信息。如果我解压缩下载的存档并运行文件 Tor\Tor.exe 没有任何反应。但是,我可以在任务管理器中看到实例化了一个新进程。我不知道从这里开始的最佳方式是什么。

Answers

经过大量研究,我找到了一种方法来设置我的 Scrapy 项目以在 Windows 操作系统上使用 TOR:

  1. 下载 TOR Expert Bundle for Windows (1) 并将文件解压缩到一个文件夹(例如 \tor-win32-0.2.6.10)。

  2. 最新的 TOR Windows 版本没有图形用户界面 (2)。可能只能通过配置文件和 cmd 命令设置 TOR,但对我来说,最好的选择是使用 Vidalia。下载它 (3) 并将文件解压缩到一个文件夹(例如 vidalia-standalone-0.2.21-win32)。运行“启动 Vidalia.exe”并转到“设置”。在“常规”选项卡上,将 Vidalia 指向 TOR (\tor-win32-0.2.6.10\Tor\tor.exe)。

  3. 检查“高级”选项卡和“Tor 配置文件”部分的 torrc 文件。我配置了下一个端口:

控制端口 9151 袜子端口 9050

  1. 单击 Vidalia 控制面板 UI 上的启动 Tor。经过一些处理后,您应该在状态上看到“已连接到 Tor 网络!”消息。

  2. 下载 Polipo 代理 (4) 并将文件解压缩到一个文件夹(例如 polipo-1.1.0-win32)。在链接 5 上阅读有关此代理的信息。

  3. 编辑文件 config.sample 并在其中添加下一行(例如,在文件的开头):

socksParentProxy u003d "localhost:9050" socksProxyType u003d socks5 diskCacheRoot u003d ""

7.通过cmd启动Polipo。转到解压缩文件的文件夹,然后输入下一个命令“polipo.exe -c config.sample”。

  1. 现在你已经启动并运行了 Polipo 和 TOR。 Polipo 将使用 SOCKS 协议通过端口 9050 将任何请求重定向到 TOR。 Polipo 将接收任何 HTTP 请求以通过端口 8123 重定向。

  2. 现在您可以按照教程“Torifying Scrapy Project On Ubuntu”(6)的其余部分进行操作。继续本教程解释如何测试 TOR/Polipo 通信的步骤。

链接:

1.https://www.torproject.org/download/download.html.en

2.https://tor.stackexchange.com/questions/6496/tor-expert-bundle-on-windows-no-installation-instructions

3.https://people.torproject.org/~erinn/vidalia-standalone-bundles/

4.http://www.pps.univ-paris-diderot.fr/~jch/software/files/polipo/

5.http://www.pps.univ-paris-diderot.fr/~jch/software/polipo/tor.html

6.http://blog.privatenode.in/torifying-scrapy-project-on-ubuntu

Logo

Python社区为您提供最前沿的新闻资讯和知识内容

更多推荐