在绘制桑基图的案例中(通过绘制桑基图描述员工发展与保留),我们选用了描述员工在三年间的职级晋升和离职情况的场景。这里记录一下数据集的构造过程。
数据集构造中模拟的参数依常识设定,请勿作为真实数据和结论参考。如有雷同,纯属巧合。
这里巧用 np.random.rand()
生成在 0-1 之间正态分布的随机数,来模拟某个离职率下的在职和离职情况。后面涉及到比例的模拟也是类似的处理。
Employee ID | Year 0 | Year 1 | Year 2 | Year 3 |
---|---|---|---|---|
E0001 | Level 1 入职 | Level 1 在职 | Level 2 在职 | Level 2 在职 |
E0002 | Level 1 入职 | Level 1 在职 | Level 1 在职 | Level 2 在职 |
E0003 | Level 1 入职 | Level 1 在职 | Level 1 在职 | Level 1 在职 |
E0004 | Level 1 入职 | Level 1 在职 | Level 1 在职 | Level 1 离职 |
E0005 | Level 1 入职 | Level 1 在职 | Level 2 在职 | Level 3 在职 |
E0006 | Level 1 入职 | Level 1 在职 | Level 2 在职 | Level 3 在职 |
E0007 | Level 1 入职 | Level 1 在职 | Level 1 离职 | 已离职 |
E0008 | Level 1 入职 | Level 1 在职 | Level 1 在职 | Level 1 离职 |
E0009 | Level 1 入职 | Level 1 在职 | Level 2 在职 | Level 2 离职 |
E0010 | Level 1 入职 | Level 1 在职 | Level 1 离职 | 已离职 |
在构造中,其实第2-3年的数据生成逻辑是基本一致的,可以进一步抽象成一个函数。执行后效果是一样的,但代码更简洁。