关于更正《大数据ETL技术中的数据抽取方法》
2021年02月22日 13:24:08 · 本文共 508 字阅读时间约 1分钟 · 3,207 次浏览本文是对《大数据ETL技术中的数据抽取方法》的更正补充说明,其中有一些不必要的操作可以省略。
原文中第一次对比求出了 CuB 和 CuA 两个补集,第二次拉取真实数据进行二次比对,根据在实际生产环境汇总应用时发现,在第二次比对中拉取原文数据是可以省略的,所以更正了上一篇文章的ETL操作步奏。
第一步:抽取数据 哈希 Hash
在第一步抽取数据 哈希 Hash 时,就应该传入业务主键,例如:id 或者 身份证号,在求 哈希 Hash 时直接带入:
SELECT 身份证, hash(其他字段们) FROM table;
将得到两端的 身份证, hash 两个集合 A、B,将两个集合使用 hash 进行比对,求出 CuB 和 CuA 两个补集。
第二步:根据业务标识求补集和交集
在第一步求出 CuB 和 CuA 两个补集,再将两个补集求交集和补集,这个时候不用 hash,而是用业务标识:身份证号,此时得到的交集就是冲突数据,身份证号一直但数据不一致,两个补集还是各自的补集。
所以我们就得到了三个集合:CuB、CuA、冲突集合
第三步:将三个集合向下传递给对应的处理服务
CuB 和 CuA 两个补集可以直接拉取数据进行交换,冲突集合可以根据用户设置来选择:显示冲突等待用户决策、A覆盖B或者B覆盖A。
关于效率提升局部敏感哈希请移步:《大数据ETL技术中对数据进行局部哈希对比优化对比速度》
商业用途请联系作者获得授权。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.renfei.net/posts/1003454
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.renfei.net/posts/1003454
相关推荐
猜你还喜欢这些内容,不妨试试阅读一下
评论与留言
以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。
热评文章
- 前后端分离项目接口数据加密的秘钥交换逻辑(RSA、AES)
- OmniGraffle 激活/破解 密钥/密匙/Key/License
- Redis 未授权访问漏洞分析 cleanfda 脚本复现漏洞挖矿
- CleanMyMac X 破解版 [TNT] 4.6.0
- OmniPlan 激活/破解 密钥/密匙/Key/License
- 人大金仓 KingbaseES V8 R3 安装包、驱动包和 License 下载地址
- Parallels Desktop For Mac 16.0.1.48911 破解版 [TNT]
- Parallels Desktop For Mac 15.1.4.47270 破解版 [TNT]
- Sound Control 破解版 2.4.2
- 向谷歌搜索引擎主动推送网页的教程 Google Indexing API 接口实现
热文排行
- 博客完全迁移上阿里云,我所使用的阿里云架构
- 微软确认Windows 10存在bug 部分电脑升级后被冻结
- 大佬们在说的AQS,到底啥是个AQS(AbstractQueuedSynchronizer)同步队列
- 比特币(BTC)钱包客户端区块链数据同步慢,区块链数据离线下载
- Java中说的CAS(compare and swap)是个啥
- 小心免费主题!那些WordPress主题后门,一招拥有管理员权限
- 强烈谴责[wamae.win]恶意反向代理我站并篡改我站网页
- 讨论下Java中的volatile和JMM(Java Memory Model)Java内存模型
- 新版个人网站 NEILREN4J 上线并开源程序源码
- 我站近期遭受到恶意不友好访问攻击公告