数据集
beeize-sdk-python是专为在beeize平台开发者设计的官方库。它主要提供了数据集、文件集、请求集的读写功能,且特定的存储路径帮助开发者与用户实现统一管理使用,能够更高效地构建和维护他们的网络爬虫项目。。
使用说明
为了能够在本地开发网络爬虫,平台提供的存储服务在本地文件系统上进行了模拟。
存储内容从爬虫的主文件夹中加载,并保存到该文件夹。每种存储类型都存储在自己的子文件夹中,例如数据集存储在 storage/datasets
文件夹中。
每个存储又存放在以存储命名的文件夹中,如果是默认存储,则命名为 default
。例如,名为 my-queue
的请求队列将被存储在 storage/request_queues/my-queue
文件夹中。
每个数据集项目、键值存储记录或请求队列中的请求,都存储在存储文件夹中的自己的文件里。数据集项目和请求队列请求总是 JSON 文件,键值存储记录可以是任何文件类型,基于其内容类型。
数据存储
SDK 提供了一个简单的接口来存储抓取的数据,无论是单个数据项还是批量数据,都可以轻松存入指定的数据库或存储系统中。
若要将数据写入数据集,可以使用 scraper.push_data()
方法。
存储采集结果
from beeize.scraper import Scraper
scraper = Scraper()
for i in range(10):
data = {'number': i}
scraper.push_data(data)
云平台展示-数据集
Last modified: 16 十月 2024