集蜂云 Doc Help

数据集

beeize-sdk-python是专为在beeize平台开发者设计的官方库。它主要提供了数据集、文件集、请求集的读写功能,且特定的存储路径帮助开发者与用户实现统一管理使用,能够更高效地构建和维护他们的网络爬虫项目。。

使用说明

为了能够在本地开发网络爬虫,平台提供的存储服务在本地文件系统上进行了模拟。

存储内容从爬虫的主文件夹中加载,并保存到该文件夹。每种存储类型都存储在自己的子文件夹中,例如数据集存储在 storage/datasets 文件夹中。

每个存储又存放在以存储命名的文件夹中,如果是默认存储,则命名为 default 。例如,名为 my-queue的请求队列将被存储在 storage/request_queues/my-queue 文件夹中。

每个数据集项目、键值存储记录或请求队列中的请求,都存储在存储文件夹中的自己的文件里。数据集项目和请求队列请求总是 JSON 文件,键值存储记录可以是任何文件类型,基于其内容类型。

数据存储

SDK 提供了一个简单的接口来存储抓取的数据,无论是单个数据项还是批量数据,都可以轻松存入指定的数据库或存储系统中。

若要将数据写入数据集,可以使用 scraper.push_data() 方法。

存储采集结果

from beeize.scraper import Scraper scraper = Scraper() for i in range(10): data = {'number': i} scraper.push_data(data)

云平台展示-数据集

数据集1.png
Last modified: 16 十月 2024