面向商务智能的人力资源数据仓库设计与实现(2)
3.2.3 数据存储对象
从数据源抽取的存放在数据仓库PSA中的原始业务数据只是简单的拷贝,不能直接使用,数据存储对象(DSO)提供了前期的数据清洗和转换。DSO仍然是二维表结构,存储明细数据,支持关键值的覆盖和合计。为了将业务数据的一条记录从最初的“日历年/月”和“人员编号”两个特征扩展到包含“公司代码”、“组织单位”、“员工组”、“员工子组”等特征,转换规则先后使用了两层DSO结构,如图2和图3所示。图2的转换规则从数据源0HR_PA_0至第一层DSO,其中关键值“员工人数”直接设置为常数1,因为一条员工记录就对应一名员工。图3中增加的特征来源于读取的员工主数据,读取的依据是人员编号和日历年/月的联合主键,这种特征属性的时间相关性是人力资源业务的鲜明特点。比如某个员工在某个时间段属于某个组织单位,在另一个时间段完全可能属于不同的组织单位,其他特征的情况类似。因此必须是人员编号和日历年/月的联合主键才能惟一确定具体特征值。
再者可以看出第二层DSO通过读取主数据使得二维表冗余度大大增加,数据仓库的这种设计方法和关系数据库设计模式大相径庭,却为将平面二维数据加载到多维信息立方体奠定了良好的基础。
3.2.4 信息立方体
InfoCube是根据最终用户请求塑造的多维扩展星形结构,是最主要的用于报表的模型。它通过关联多张二维平面表实现多维结构,支持快速而高效的直接数据存取。InfoCube中心是事实表,如图4所示,由时间维、公司组织维、岗位维和员工维的id和关键值“员工人数”构成。在事实表周围是维表,每个维表结构由事先指定的若干特征维度sid组成,维表记录数等于特征维度记录数的笛卡尔积。主数据表不在InfoCube中,它们通过sid表和维度表关联。
4 关键技术
4.1 增量传输
从数据源抽数到PSA的方式根据数据量的多少分为两种。一种是全量抽数,既每次都将可用的数据全部抽取,已抽的数据会重复抽取,这种方式适用于数据量较小的情况;另一种方式是增量抽取,只抽取上次抽完后增删改过的数据,已抽的数据不会再次抽取,这种方式适用于大数据量的情况。人事数据仓库的数据源如人事管理和培训活动管理使用全量抽数,时间管理和工资核算使用增量抽数。这里需注意,因为人事涉及的增量数据源使用附加镜像(ADD),第一层DSO关键值转换规则不能是覆盖只能是合计。此外,尽管采用全量抽数的人事数据源的数据量相比后勤和财务等模块的数据量为小,但是实际项目中仍然有可能很庞大,用户不愿意接受每次低效的重复抽数,可以采用“假增量”的抽取模式,既只抽取距今一个时间段的数据,规定用户超过该时间段的数据不能增删和修改。该时间段内的数据其实还是全量抽取,但是也仅抽取这个时间段的数据量,如此大大降低了从业务系统抽数的负载。
4.2 性能优化
数据仓库中信息立方体蕴含的多维度海量数据使得实时查询成为奢望,一般情况是滞后若干时间获取统计数据。可以主要从以下两个方面考虑加快查询速度。
⑴ 建立聚集。聚集是数据仓库经常使用的性能优化方法,是以空间换时间的方法。对信息立方体的数据按照指定的子集进行数据汇总,汇总数据存放在不同的独立事实表中,根据常用的查询种类,一个基本事实表可以设置多个聚集事实表。在报表运行中,系统自动根据报表的查询维度找到最合适也就是数据量最少的聚集事实表读取数据。由于数据量的减少,降低了报表的运行时间。
⑵ 使用虚拟信息提供者。可以利用BI中的各种虚拟的信息提供者来把不同的数据对象,如DSO或信息立方体的数据融合在一个虚拟的信息提供者中。在信息立方体中存放基于关键指标的聚集数据,在数据存储对象中存放详细的业务数据。通过追溯的功能,可以浏览不同阶层的聚集或明细数据。这样的设计保证了汇总数据与详细数据的一致性,提高了数据访问的效率,降低了数据的冗余。
5 结束语
目前数据仓库技术已趋成熟,许多产品供应商推出了商品化软件,包括ORACLE、IBM、MICROSOFT、SAS、TERADATA、SAP等。由于国外企业率先使用ERP系统且更早注重基于数据的分析和企业管理决策的支持,因此数据仓库产品被广泛应用于国外企业的数据管理领域。比较而言,国内企业对于数据仓库的需求和建设仍处于起步时期,且侧重点在于应用,既如何选择合适的国际化产品并结合自身业务环境特点二次开发构造合适的数据仓库,为数据挖掘和商务智能提供便利条件。此外,能够极大提升查询性能的内存计算技术[4]开始崭露头角,这将是下阶段商务智能领域发展的方向。
参考文献:
[1] 邬锦雯.人力资源管理信息化[M].清华大学出版社,2006.
[2] William H.Inmon.Building the Data Warehouse[M]. USA:Wiley,2007.
[3] 陈永杰.SAP商务智能完全解决方案[M].机械工业出版社, 2008.
[4] HANA中国社区[EB/OL].http://www.hanainchina.net/.
期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。
【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
投稿辅导服务咨询与期刊合作加盟
陆老师联系QQ:
蒋老师联系QQ:
刘老师联系QQ:
联系电话:18015016272
17327192284
投稿辅导投稿邮箱:zgqkk365@126.com
期刊推荐
- 《课程教育研究》 旬刊 国家级
- 《网络空间安全》(信息安全与技术)月刊 国
- 《价值工程》旬刊 国家级 科技统计源期刊
- 《高教论坛》 月刊 省级
- 《法制与社会》旬刊 省级
- 《中国教育学刊》月刊 14版北大核心
- 《语文建设》 旬刊 14版北大核心
- 《中国绿色画报》 月刊 国家级
- 《社科纵横》季刊 社科类优秀期刊
- 《求索》月刊 14版北大核心期刊
- 《财会月刊》旬刊 14版北大核心
- 《艺术品鉴》 月刊 省级
- 《中华建设》月刊 国家级 建设类优秀期刊
- 《教学与管理》旬刊 北大核心
- 《当代经济》 旬刊 省级
- 《新课程研究》旬刊 省级 教育类优秀学术期
- 《文教资料》 旬刊 省级
- 《学术界》 月刊 双核心
- 《吉林教育》旬刊 省级 教育类学术期刊
- 《中国农业资源与区划》 月刊 14版北大核心
- 《继续教育研究》月刊 北大核心期刊
- 《财经界(学术版)》半月刊 国家级
- 《电影评介》半月刊 14版北大核心
- 《公路交通科技》 月刊 北大核心
- 《新闻传播》月刊 省级 新闻类优秀期刊