数据仓库的相关知识有哪些
法律援助事情要从一封信讲起,去年年底,中国人民财产保险公司信息技术部总经理赵-军接到了2003年国际计算机CHP(Computer-worldHonorsProgram)大赛主席委员会执行董事DanielMorrow先生的亲笔信,告之“**财险新一代综合业务处理系统”从50多个国家和地区的500多家参赛企业中脱颖而出,荣获美国“计算机世界荣誉奖”提名,顺利进入决赛。不要小看了这个荣誉,国内金融机构只有招商银行曾经入围过。
“获奖是对企业过去一年中信息化建设的肯定,但是按照惯例,获奖企业都会接下来的一年忙得不亦乐乎”,Daniel的信尾赠言又把赵-军从喜悦拉回了现实……
令人紧张的预言
事实上,赵-军已经忙的不亦乐乎了,做完核心系统之后,紧接着新型数据仓库构建就上马了。无独有偶,招商银行自从2002年获CHP大奖之后,也是马不停蹄地投入了后台数据库的改造项目。
为什么把精力放到数据仓库上呢?原因是业务系统的发展很大程度上受制于后台数据结构,对金融机构来讲,在加入WTO之初就嚷嚷的很凶的“银行客户分级服务”、“保险费率细分”、“风险定价”等一系列服务都受牵制。
比如在2003年初,保监会放开了车险费率,一时间各家保险公司纷纷公布了自己的收费明细,可是细看下来,大家的费率又几乎趋同,比如在个性保费上,各家公司都有一条,就是女性驾驶
员比男性保费下浮20%,但据业内人士介绍,这仅仅是各家公司凭经验作出的判断,对于女性的年龄、教育及家庭背景的差异并没有区别对待。
而美国的保险公司则是,一位女性,30岁,大学文化,有一个小孩,没有赔偿记录,可以享受最多50%的保费优惠。人家的逻辑就是,受过高等教育的客户要比没有受过高等教育的客户风险低,有孩子的女性责任心要比一般人高,岁数大的人开快车的可能性要小,没有赔偿记录说明驾驶行为规范。不要以为这只是简单推论,它可是基于成千上万件保单分析的结果。
目前国内各家保险公司显然还不能提供如此精细的费率评估,因为他们现阶段还不能对客户的数据进行有效的分析利用,换句话说技术水平达不到。
“芭蕾”的领舞者
面对金融机构WTO保护期即将过时,各家公司都非常着急,希望能够在最短的时间内把数据仓库项目做好。在这方面,人保成了第一个吃螃蟹的公司。
赵-军形象地描绘到,要想让公司能够灵活地应对市场变化,方法只有一个,就是对应用系统和后台数据库重新设计,反映到市场上来,就是采取非常灵活的价格手段,让人保这头“大象”跳“芭蕾”。当然,系统重做对于一家保险公司来说无异于大换血,而且就人保现在的经验来看,单独完成这项任务也是很困难的。为此,人保选择了与IBM公司开展合作,希望借用IBM的经验来完成前后台系统的改造。
指挥人保这个大公司跳芭蕾并不容易,除了机构、人员的因素外,信息系统本身也有很多限制。因为过去人保一直采用的是以保单为中心的业务系统和数据库,这虽然在操作上占了一些便宜(主要是效率较高),但是在数据存储上并不科学。
直接的反应就是,如果被保险人买了多张保单,那么在数据库中这个人就会多次出现,在日后数据抽取分析的时候,就会遇到困难。另外,由于应用系统能够收集的数据项目较少,因此开展分析往往意义不大。
为此,IBM向人保推荐了IAA(保险应用架构,InsuranceApplicationArchitecture)和IIW(保险信息仓库,InsuranceInformationWarehouse)两个数据模型,前者是保险公司的核心业务系统架构,后者是数据库架构。IAA与IIW是IBM从90年开始,和全球40多个发起公司合作开发的,包括了财产险、寿险、再保险等保险应用模型,现今全球有近140个用户在基于这个模型开发产品。
当然,即便有IBM的帮助,要把整个企业数据库和应用系统替换掉也是不可取的,系统迁移的风险不谈,仅仅是数据的导入也已经十分复杂。为此,人保决定,先对数据分析的关键——IIW进行试点。
人保的想法是,选择一个技术和条件比较好的省会城市做试点,这个城市既要业务多样,又要保单量中等,这样对于试验是比较客观的。经过一个月的仔细比较,最终这个艰巨的任务就落到了人间天-堂——浙江杭州。
杭州城下游临安雷锋塔中寻白娘
西湖水边晓月照梅家坞中龙井香
杭州确实是一个美不胜收的地方,但
是作为本次IIW项目的参与人,张-平(化名)此刻并没有心情游山玩水,因为在他面前,还有太多太多的挑战要克服。
500万的压力
张-平来到**浙江分公司后,主要的任务就是先协助员工把IIW建立起来,此后再把**浙江分公司的所有的数据取出来,然后按照IIW的数据结构进行转换存储,建立一个标准的信息仓库,最后在此基础上建立两个小的数据集市,进行数据分析试验。整个试点项目耗资500万元人民币。
在此有必要给不熟悉的读者对数据仓库的概念作一个简要介绍。顾名思义,数据仓库(DataWarehouse)就是一个仓库,里面分门别类存放了一个公司所有的数据。光有仓库是不能进行数据分析的,因为仓库中的数据是海量的,如果要对某种信息进行分析,比如客户信息,就要从仓库中抽取所有与客户有关的信息,拿出来建立一个集市(DataMarket),这样才能保证分析的效率。这些集市在分析完成后可以保留也可以删除。
不过张-平也坦言,IIW是一个很大的架构,而且相当复杂,基本上囊括了财产险、寿险、再保险等所有内容,在国内还没有实施的经验,因此他感到压力很大。