C# .NET:抓取动态(JS)网站

Mangs

3人浏览 · 2022-09-24 20:08:23

Mangs · 2022-09-24 20:08:23 发布

问题:C# .NET:抓取动态(JS)网站

经过几个小时的失败,我来到了这里。我需要抓取一个动态生成的网页(使用 Vue.JS 制作,但我不想分享链接)。

我尝试了多种方法(1,2,3)。他们都没有在这个网页上工作。

最有希望的解决方案是使用 Selenium 和 PhantomJS。我这样尝试过,但我不确定为什么它甚至不适用于 Google:

private void button1_Click(object sender, EventArgs e) {
        PhantomJSDriverService service = PhantomJSDriverService.CreateDefaultService();
        service.IgnoreSslErrors = true;
        service.LoadImages = false;
        service.ProxyType = "none";

        var driver = new PhantomJSDriver(service); // I also tried: new PhantomJSDriver();
        driver.Manage().Timeouts().PageLoad = TimeSpan.FromSeconds(10);
        driver.Url = "https://google.com";
        driver.Navigate();

        var source = driver.PageSource;
        textBox1.AppendText(source);
}

不工作:

在此处输入图像描述

我也尝试使用 WebBrowser 控件,但页面从未完全加载:

(**编辑:**我发现 WebBrowser 只是实例化 IE,在尝试在独立的 IE 浏览器中打开目标网站后,网页也永远不会完全加载,所以在 WebView 中看到相同的行为是有意义的。我想我由于这个事实,我绑定到 Selenium&PhantomJS。)

在此处输入图像描述

当然,这不应该那么复杂。如何正确地做到这一点?

解答

如果你需要抓取一个网站,你可以使用 ScrapySharp 抓取框架。您可以将其作为 nuget 添加到项目中。https://www.nuget.org/packages/ScrapySharp/

安装包 ScrapySharp -版本 2.6.2

它具有许多有用的属性来访问页面上的不同元素。例如,要访问页面的整个 HTML,您可以使用以下内容:

        ScrapingBrowser Browser = new ScrapingBrowser();
        WebPage PageResult = Browser.NavigateToPage(new Uri("http://www.example-site.com"));
        HtmlNode rawHTML = PageResult.Html;
        Console.WriteLine(rawHTML.InnerHtml);
        Console.ReadLine();

Python

Python社区为您提供最前沿的新闻资讯和知识内容

更多推荐

求助！为什么用InsCode部署会出现无限重定向？

Python

如何重塑熊猫。系列

问题:如何重塑熊猫。系列在我看来,它就像 pandas.Series 中的一个错误。 a = pd.Series([1,2,3,4]) b = a.reshape(2,2) b b 有类型 Series 但无法显示,最后一条语句给出异常,非常冗长,最后一行是“TypeError: %d format: a number is required, not numpy.ndarray”。 b.sha

Python

在哪里可以找到有关 Keras 中默认权重初始化器的文档? [复制]

问题:在哪里可以找到有关 Keras 中默认权重初始化器的文档? [复制] 我刚刚在这里](https://keras.io/initializers/)中阅读了有关[中的 Keras 权重初始化器的信息。在文档中,只介绍了不同的初始化程序。如: model.add(Dense(64, kernel_initializer='random_normal')) 当我没有指定kernel_initia