用Rust抓取网页数据

李明 coding到灯火阑珊

在本文中，我们将学习通过使用Rust进行网页数据抓取，文末有完整代码。

我们将使用Rust reqwest和scraper这两个流行的库来抓取网站数据，我们将稍微讨论一下这些库。在本文的最后，你将对Rust的工作原理以及如何将其用于网络数据抓取有一个基本的概念。

设置先决条件

首先，我们创建一个rust项目：

cargo new rust_tutorial

然后我们必须安装两个Rust库，这两个库将在本教程中使用。

reqwest：它将用于与主机网站建立HTTP连接。
scraper：它将用于选择DOM元素和解析HTML。

将它们添加到Cargo.toml文件中：

[dependencies]reqwest = "0.10.8"scraper = "0.12.0"tokio = { version = "1.25.0", features = ["full"] }

0.10.8和0.12.0都是库的最新版本。现在终于可以在项目文件src/main.rs中访问它们了。

抓取什么？

我们将从“books.toscrape.com”网站页面上抓取每本书的书名和价格。

这个过程很简单。首先，我们将检查chrome以确定这些元素在DOM中的确切位置，然后我们将使用scraper库来解析它们。

抓取单个图书数据

让我们一步一步地抓取书名和价格。首先，必须确定DOM元素的位置。

正如你在上面所看到的，图书标题是存储在标题属性内的一个标签。现在让我们看看价格存储在哪里。

价格存储在类price_color的标记下。现在，让我们用rust编写代码并提取数据。

第一步是在src/main.rs中导入所有相关库。

use reqwest::Client;
use scraper::{Html, Selector};

使用reqwest，我们将建立到主机网站的HTTP连接，使用scraper库，我们将解析HTML内容，我们将通过reqwest库发出GET请求。

现在，我们必须创建一个客户端，用于使用reqwest发送连接请求。

let client = Client::new();

最后，我们将使用上面创建的客户端将GET请求发送到目标URL。

let res = client.get("http://books.toscrape.com/").send().await?;

这里我们使用mut修饰符将值绑定到变量。这提高了代码的可读性，一旦你在将来改变了这个值，你可能不得不改变代码的其他部分。

因此，一旦请求发送，你将得到HTML格式的响应。但是你必须使用.text().unwrap()从res变量中提取HTML字符串。

let body = res.text().await?;

这里res.text().unwrap()将返回一个HTML字符串，我们将该字符串存储在body变量中。

现在，我们有了一个字符串，通过它可以提取我们想要的所有数据。在使用scraper库之前，我们必须使用Html::parse_document将此字符串转换为scraper::Html对象。

let document = Html::parse_document(&body);

现在，这个对象可以用于选择元素和导航到所需的元素。

首先，让我们为书名创建一个选择器。我们将使用Selector::parse函数创建一个scraper::Selector对象。

let book_title_selector = Selector::parse("h3 > a").unwrap();

现在可以使用该对象从HTML文档中选择元素。我们已经将h3 > a作为参数传递给解析函数。这是我们感兴趣的CSS元素选择器。H3 > a意味着它将选择所有的a标签，它们是H3标签的子标签。

正如你上图中看到的，目标a标记是h3标记的子标记。因此，我们在上面的代码中使用了h3 > a。

由于有很多的书，我们将使用for循环遍历所有的书。

for book_title in document.select(&book_title_selector) {
    let title = book_title.text().collect::<Vec<_>>();
    println!("Title: {}", title[0]);
}

select方法将为我们提供与选择器book_title_selector匹配的元素列表。然后遍历该列表以找到title属性并最终打印它。

这里Vec<_>>表示一个动态大小的数组。它是一个向量，你可以通过它在向量中的位置访问任何元素。

下一步也是最后一步是提取价格。

let book_price_selector = Selector::parse(".price_color").unwrap();

我们再次使用Selector::parse函数创建scraper::Selector对象。如上所述，价格存储在price_color类下。我们把这个作为CSS选择器传递给了parse函数。

然后，我们将再次使用for循环，就像我们上面所做的那样，遍历所有price元素。

for book_price in document.select(&book_price_selector) {
    let price = book_price.text().collect::<Vec<_>>();
    println!("Price: {}", price[0]);
}

一旦你找到匹配的选择器，它将获得文本并打印到控制台上。

最后，我们完成了可以从目标URL提取标题和价格的代码。现在，一旦你保存这个并使用cargo run运行代码，你将得到类似这样的输出。

Title: A Light in the ...Title: Tipping the VelvetTitle: SoumissionTitle: Sharp ObjectsTitle: Sapiens: A Brief History ...Title: The Requiem RedTitle: The Dirty Little Secrets ...Title: The Coming Woman: A ...Title: The Boys in the ...Title: The Black MariaTitle: Starving Hearts (Triangular Trade ...Title: Shakespeare's SonnetsTitle: Set Me FreeTitle: Scott Pilgrim's Precious Little ...Title: Rip it Up and ...Title: Our Band Could Be ...Title: OlioTitle: Mesaerion: The Best Science ...Title: Libertarianism for BeginnersTitle: It's Only the HimalayasPrice: £51.77Price: £53.74Price: £50.10Price: £47.82Price: £54.23Price: £22.65Price: £33.34Price: £17.93Price: £22.60Price: £52.15Price: £13.99Price: £20.66Price: £17.46Price: £52.29Price: £35.02Price: £57.25Price: £23.88Price: £37.59Price: £51.33Price: £45.17

完整代码

你可以对代码进行更多更改，以提取其他信息，如星级、图书图像等。可以使用相同的技术，首先检查和查找元素的位置，然后使用Selector函数提取它们。

use reqwest::Client;
use scraper::{Html, Selector};

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
   // Create a new client
    let client = Client::new();

    // Send a GET request to the website
    let res = client.get("http://books.toscrape.com/")
        .send().await?;

    // Extract the HTML from the response
    let body = res.text().await?;

    // Parse the HTML into a document
    let document = Html::parse_document(&body);

    // Create a selector for the book titles
    let book_title_selector = Selector::parse("h3 > a").unwrap();

    // Iterate over the book titles
    for book_title in document.select(&book_title_selector) {
        let title = book_title.text().collect::<Vec<_>>();
        println!("Title: {}", title[0]);
    }

    // Create a selector for the book prices
    let book_price_selector = Selector::parse(".price_color").unwrap();

    // Iterate over the book prices
    for book_price in document.select(&book_price_selector) {
        let price = book_price.text().collect::<Vec<_>>();
        println!("Price: {}", price[0]);
    }

    Ok(())
}

总结

我们学习了Rust如何用于网页抓取。使用Rust，你也可以抓取许多其他动态网站。即使在上面的代码中，你也可以做一些更改来抓取图像和评级。这肯定会提高你的使用Rust进行网络抓取的技能。

继续滑动看下一个