友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com
推荐产品经理必知必会①:数据处理
21
0
近七日浏览最多
最新文章
策略产品经理如何对数据进行处理?这篇文章里,作者做了方法介绍以及相应的内容梳理,一起来看看吧。
在正式介绍推荐策略之前,我们需要了解推荐策略产品经理如何对数据进行处理,一切策略都离不开数据。重点在于:
电商领域常见的7张离线Hive表:
切片表:按照时间分区,将每天的新数据放在一个独立的时间分区里,例如:7月1日与7月2日的不同。
增量表:汇总所有数据,新增数据直接在原始表内添加,不增加新分区,订单表与卖点数据均是增量表,因为其需要选择某个时段or历史所有数据,直接截取即可,如果存在不同分区,截取就会很麻烦。
ETL(extract-transform-load,抽取——转换——加载):从底层数据表抽取数据,然后再清洗加工,最终得到上层表,这一过程不断进行。
不同类型的数据需要转化为同一量纲才能进行比较,需要归一化/标准化,本质上是一种线性变换(缩放+平移)。(归一化≠标准化)
1. 归一化Min-Max(最小最大值)归一化(最常用的方式):
x* = ( x − min ) / ( max − min )
归一化后的数值处于[0,1]之间,实际数据中存在无解释度的极大(小)值,故需要挑选合适的最大(小)值。
适用场景:数据分布集中。
均值归一化:
x* = ( x − mean ) / ( max − min )
归一化后的数值处于[-1,1]之间
适用场景:数据存在极值,但在业务视角这一极值是合理的。
Log对数函数归一化:
归一化后的数值处于[0,1]之间,非线性的归一化方式,缩小数据间的差距,使之分布均衡。
适用场景:样本数据跨度大,头部极值出现频率相对高。
2. 标准化归一化/标准化可以消除不同数据之间量纲差异巨大带来的无可比拟性:
以上介绍的数据处理方法在策略产品工作中会经常用到,一定要熟悉哦!
本文由 @策略产品经理规划 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com