集蜂云

解决方案

资源中心

如何快速采集新闻数据

集蜂云 / 2024-05-21 10:32

本文介绍了如何快速采集新闻数据，免配置 xpath 采集，简单易用。

集蜂云平台提供一个通用的网页采集器，能够让用户简单、快速地进行新闻类数据的采集。

网页采集器是一个通用的、易于使用的数据采集工具，专为提取互联网上的信息设计。它能自动访问指定的网站，智能提取或根据用户配置的规则提取所需数据，如文本（标题、正文、作者、发布时间、关键词）、图片、链接等。提取的数据存储在数据集中，从中可以导出为各种格式，例如 JSON、XML 或 CSV。

下面演示如果使用网页采集器来采集政府公告信息。

首先，从市场上选择网页采集器，如图所示：

网页采集器

配置需要采集的新闻链接，最好是列表页的链接。

网页采集器

如果需要精确的采集模块区域，则需要配置内容链接提取规则，配置方法如下：

网页采集器

蓝色区域就是要采集的区域，然后复制 xpath 到内容链接提取规则输入框里即可。

对于大部分的新闻网页，使用智能提取，就能够自动提取到标题、正文、作者、发布时间、关键词等要素信息。

网页采集器

如果智能提取无法精确提取需要的信息，同样支持配置 xpath 规则进行采集。

网页采集器还可以配置启用使用 Chrome浏览器进行采集，降低被反爬的风险。

配置好后，点击立即运行，在数据中查看采集到的数据：

网页采集器

可以将配置保存成任务，设置定时采集。

配置任务

导航目录