logo

如何发布自己的采集器

集蜂云 / 2024-05-30 08:32
本文介绍了如何使用集蜂云平台,来构建自己的采集器。

集蜂云是一个可以让开发者在上面构建、部署、运行、发布采集器的数据采集云平台。基于集蜂云平台,开发在只需要关注爬虫业务,而无需考虑运行日志、三方集成、海量任务调度、数据存储、监控告警等平台能力,为采集器提供稳定的运行环境。

下面介绍如何发布自己的采集器。

准备工作

1、首先,注册一个集蜂云账号,注册地址。 2、准备一个 gitee 账号,可以将代码传到 gitee。

熟悉 sdk、输入与输出

首先熟悉平台的 sdk、输入与输出规范,预计二十分钟能够快速上手。

熟悉SDK:先熟悉下beeize-sdk-pyhton,sdk 提供对数据的写入、读取、环境变量获取等操作的封装。

定义输入:平台会根据输入(input_schema.json)的定义,将用户输入的参数转换为爬虫运行时的环境变量,开发者可以读取环境变量来获取输入参数。

定义输出输出由开发者自己定义,平台根据定义进行可视化展示。

编写 Dockerfile:集蜂云平台的采集器是基于 docker 运行的,需要把采集器打包成 docker 镜像。

创建采集器

1、登录集蜂云账号,点击菜单采集器,点击右上角发布按钮。 点击发布按钮

2、选择Gitee(当前只支持 gitee),并授权。

3、选择采集器的代码所在仓库。 选择代码仓库

4、这个时候,就创建好了采集器。下面可以点击构建,去打包采集器。

构建采集器

构建过程中,可以查看构建的日志。

构建成功后,检查平台是否正确获取到了 input_schema.jsonoutput_schema.json

检查输入输出

运行

构建成功后,点击输入标签页,根据定义的输入参数,去尝试一下采集器是否正常工作。

运行采集器

发布到市场【可选项】

最后,构建的采集器如果想提供给更多用户使用,可以发布到市场。点击设置标签,给采集器添加图标、描述和分类,也可以设定价格。这样,让你的技术为更多用户带来便利。

设置采集器

导航目录