logo

如何快速采集新闻数据

集蜂云 / 2024-05-21 10:32
本文介绍了如何快速采集新闻数据,免配置 xpath 采集,简单易用。

集蜂云平台提供一个通用的网页采集器,能够让用户简单、快速地进行新闻类数据的采集。

网页采集器是一个通用的、易于使用的数据采集工具,专为提取互联网上的信息设计。它能自动访问指定的网站,智能提取或根据用户配置的规则提取所需数据,如文本(标题、正文、作者、发布时间、关键词)、图片、链接等。提取的数据存储在数据集中,从中可以导出为各种格式, 例如 JSON、XML 或 CSV。

下面演示如果使用网页采集器来采集政府公告信息。

选择网页采集器

首先,从市场上选择网页采集器,如图所示:

网页采集器

配置采集的新闻链接

配置需要采集的新闻链接,最好是列表页的链接。

网页采集器

如果需要精确的采集模块区域,则需要配置内容链接提取规则,配置方法如下:

网页采集器

蓝色区域就是要采集的区域,然后复制 xpath 到内容链接提取规则输入框里即可。

配置解析

对于大部分的新闻网页,使用智能提取,就能够自动提取到标题、正文、作者、发布时间、关键词等要素信息。

网页采集器

如果智能提取无法精确提取需要的信息,同样支持配置 xpath 规则进行采集。

网页采集器还可以配置启用使用 Chrome浏览器进行采集,降低被反爬的风险。

查看数据

配置好后,点击立即运行,在数据中查看采集到的数据:

网页采集器

设置定时采集

可以将配置保存成任务,设置定时采集。

配置任务

导航目录