集蜂云平台提供一个通用的网页采集器,能够让用户简单、快速地进行新闻类数据的采集。
网页采集器是一个通用的、易于使用的数据采集工具,专为提取互联网上的信息设计。它能自动访问指定的网站,智能提取或根据用户配置的规则提取所需数据,如文本(标题、正文、作者、发布时间、关键词)、图片、链接等。提取的数据存储在数据集中,从中可以导出为各种格式, 例如 JSON、XML 或 CSV。
下面演示如果使用网页采集器来采集政府公告信息。
首先,从市场上选择网页采集器,如图所示:
配置需要采集的新闻链接,最好是列表页的链接。
如果需要精确的采集模块区域,则需要配置内容链接提取规则,配置方法如下:
蓝色区域就是要采集的区域,然后复制 xpath 到内容链接提取规则输入框里即可。
对于大部分的新闻网页,使用智能提取,就能够自动提取到标题、正文、作者、发布时间、关键词等要素信息。
如果智能提取无法精确提取需要的信息,同样支持配置 xpath 规则进行采集。
网页采集器还可以配置启用使用 Chrome浏览器进行采集,降低被反爬的风险。
配置好后,点击立即运行,在数据中查看采集到的数据:
可以将配置保存成任务,设置定时采集。