数据集

beeize-sdk-python是专为在beeize平台开发者设计的官方库。它主要提供了数据集、文件集、请求集的读写功能，且特定的存储路径帮助开发者与用户实现统一管理使用，能够更高效地构建和维护他们的网络爬虫项目。。

使用说明

为了能够在本地开发网络爬虫，平台提供的存储服务在本地文件系统上进行了模拟。

存储内容从爬虫的主文件夹中加载，并保存到该文件夹。每种存储类型都存储在自己的子文件夹中，例如数据集存储在 storage/datasets 文件夹中。

每个存储又存放在以存储命名的文件夹中，如果是默认存储，则命名为 default 。例如，名为 my-queue的请求队列将被存储在 storage/request_queues/my-queue 文件夹中。

每个数据集项目、键值存储记录或请求队列中的请求，都存储在存储文件夹中的自己的文件里。数据集项目和请求队列请求总是 JSON 文件，键值存储记录可以是任何文件类型，基于其内容类型。

SDK 提供了一个简单的接口来存储抓取的数据，无论是单个数据项还是批量数据，都可以轻松存入指定的数据库或存储系统中。

若要将数据写入数据集，可以使用 scraper.push_data() 方法。

from beeize.scraper import Scraper
scraper = Scraper()
for i in range(10):
    data = {'number': i}
    scraper.push_data(data)

Last modified: 16 十月 2024