Commit 1ee440cc authored by 子恒's avatar 子恒

修改项目文档

parent 72cf8bc4
Pipeline #316 canceled with stages
# tf-data
# hb-data
## 天风数据解析入库
## hb数据解析入库
从data-upload项目中将数据上传到obs,数据路径规则为obs://csvdatas/tfzq/fundAuto/20160108/20160108_fundAuto_detail.csv
20160108: 数据日期
fundAuto: 数据大类
detail: 数据小类,若某大类数据下仅有一种数据则没有此项
上传记录会存储至redis中,通过记录时间戳获取增量redis中记录,根据redis记录的值可以提取数据内容同步到数据库
从hb-datas数据库将数据提取至fd-data,然后通过校验发布至vision_product
### 代码结构
- db:数据库类
- sync:数据同步任务
- data_check:数据审核
- fund_auto:基金数据任务
- industry:行业数据任务
- publish:数据发布
- fd_manager_factor.py:数据大类下仅有一种数据的情况
- utillities:工具类
### 开发流程
1. TF的数据大多以一个项目的形式出现,针对一组新的任务在sync下新建一个package
2. 在package中新建base_xxx_sync.py,代码继承sync/base_sync.py
3. 所有任务需要保留4个参数
- tmstamp:任务起始时间点
2. 在sync中新建{表名}.py,代码继承sync/base_sync.py
3. 所有任务需要保留2个参数
- rebuild:是否重建表
- update:强制刷新tmstamp之后的数据
- schedule:自动获取上次更新的tmstamp,并刷新后面数据
- update:自动获取上次更新的tmstamp,并刷新后面数据
### 注意
......@@ -35,4 +26,3 @@ detail: 数据小类,若某大类数据下仅有一种数据则没有此项
2. is_verify有三种状态,0:新增,1:已审核,2:数据更新未审核
3. flag有两种状态,1:数据有效,null:数据删除,所有数据均采用逻辑删除
4. 所有数据同步到生产库后,进行审核流程,审核完成后再将数据同步到发布库
\ No newline at end of file
5. 所有数据均有_data_time字段,用于记录数据批次时间,且是每批数据的唯一标识,当数据重新发布时根据此字段删除库中已有数据
\ No newline at end of file
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment