首页 -> 2008年第3期

关联规则挖掘在电信业务交叉销售研究中的应用

作者:黄玉萍




  [摘 要]在电信行业不同的业务产生不同的费用,业务之间的相关关系可以通过费用来表现。通过费用之间的关系分析不同增值业务之间的相关关系,为相关业务交叉销售打下基础。
  [关键词]关联规则 交叉销售
  
  现阶段电信业务面临同质化竞争的市场压力,市场竞争的规模、范围和激烈程度是前所未有的,价格、优惠或赠送话务量仍旧是吸引客户的主要竞争手段,电信资费有进一步下滑的趋势,离网率居高不下;伴随着消费者在日常生活的方方面面都开始享受更加个性化、互动式的服务的时候,价格战不仅不能提升客户的忠诚度,反而导致获取客户的成本更加高昂,同时也促使大量的客户对资费的下降抱有很大的预期;用户可以很容易地比较竞争对手给予他们的优惠,并最终导致逐渐习惯于得到更高的折扣或优惠而因此转网。因此,研究不同增值业务之间销售的相关关系,准确、及时地进行经营决策,对相关性强的增值业务进行交叉销售,以提高销售额,必须充分获取并利用相关的数据信息对决策过程进行辅助支持。近几年迅速发展起来的数据挖掘技术就是实现这一目标的重要手段。
  
  (一)数据挖掘概述
  
  数据挖掘是根据企业的既定业务目标和存在的问题,对大量的业务数据进行探索,揭示其中隐藏的规律,并将其模型化,指导并应用于企业的实际经营。数据挖掘是建立在数据仓库基础上的高层应用,但数据挖掘跟数据仓库的其他一些应用如OLAP分析、预定义报表和即席查询等有很大的区别。后三者通常是用户根据已知的情况对所关心的业务指标进行分析;而前者则是在业务问题和目标明确但考察的问题不清楚时,对数据进行探索,揭示隐藏其中的规律性,进而将其模型化。数据挖掘是一个循环往复的过程,通常涉及数据准备、建立模型、评估和解释模型、运用和巩固模型等步骤。
  1.数据准备:数据准备工作包括数据的选择(选择相关和合适的数据)、探索(了解数据分布情况和异常数据等)、修正(包括缺失数据的插值等)和变换(离散值数据与连续值数据的相互转换,数据的分组分类,数据项的计算组合等)。
  2.建立模型:选取数据挖掘工具提供的算法并应用于准备好的数据,选取相应参数,生成模型。
  3.评估和解释模型:对模型进行比较和评估,生成一个相对最优模型,并对此模型用业务语言加以解释。
  4.运用和巩固模型:对模型在实际应用中的表现进行监控,如果模型表现不好,则对模型作进一步的考察和修正,以反映业务运作规律的变化。
  
  (二)数据挖掘中关联规则描述
  
  设I={i1,i2…,im}为所有项目的集合,设A是一个由项目构成的集合,称为项集。事务T是一个项目子集,每一个事务具有唯一的事务标识Tid。事务T包含项集A,当且仅当AT。如果项集A中包含k个项目,则称其为k项集。D为事务数据库,项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度(support)。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。
  关联规则就是形如XY的逻辑蕴含关系,其中XI,YI且XY=Φ,X称作规则的前件,Y是结果,对于关联规则XY,存在支持度和信任度。
  支持度是指规则中所出现模式的频率,如果事务数据库有s%的事务包含XY,则称关联规则XY在D中的支持度为s%,实际上,可以表示为概率P(XY),即support(XY)= P(XY)。信任度是指蕴含的强度,即事务D中c%的包含X的交易同时包含XY。若X的支持度是support(x),规则的信任度为即为:support(XY)/support(X),这是一个条件概率P(Y|X),即confidence(XY)= P(Y|X)。
  关联规则就是支持度和信任度分别满足用户给定阈值的规则。
  
  (三)关联规则应用实例
  
  从11月g网有增值业务收费项的客户中随机抽取2万客户,用关联分析进行建模,业务分析结果如下表1:
  
  说明:关联数指有多少项业务进行关联;支持度指同时满足两个条件的概率;置信度指在第一个条件出现的前提下,第二个条件出现的概率;客户数指满足置信度条件下的用户数;Lift(改善度)指置信度/第二个条件出现的概率的比值;规则指发生关联的增值业务的关联关系。
  
  (四)结果分析
  
  在序号为3的行中可以看到,规则为H15 ==> H9 & H4 时,lift值1.34,置信度25.36,即产生网关费用的用户中有25.36%的用户同时开通“短信”和“炫铃”业务,是自然条件下同时开通短信和炫铃业务的1.34倍。
  在序号为6的行中,规则H4 & H15 ==> H9时,lift值1.15,即“炫铃”与“网关”同时产生的条件下带动“短信包月”的发生是自然条件下的1.15倍。
  
  (五)存在的问题
  
  1.数据质量和完备性。国内电信运营商现有的、面向事务的数据在质量、完整性和一致性上存在许多问题,必须投入大量的精力去进行数据的抽取、净化和处理。此外,业务问题的相关数据有时难以全面收集。例如客户信用是客户价值评估中的关键因素,但由于国内未建立完善的信用体系,无法根据现有客户数据建立优质的信用评价模型,从而导致客户价值模型有效性的降低。
  2.应用周期。数据挖掘存在一个较长的应用周期。技术本身不能给使用者解决任何问题,只能从数据中把一些潜在的情况呈现到使用者面前,由使用者采取相应措施。数据挖掘应用的有效方法是:从一个较小的、关键的问题出发,建立起相对有效的模型,并通过应用实践不断检验和完善模型,逐步替使用者解决问题。
  
  参考文献:
  [1]Jiawei Han,Micheline Kamber.范明,孟小峰等(译).数据挖掘概念与技术[M].北京:机械工业出版社,2001,(8).
  [2]李雄飞,李军.数据挖掘与知识发现[M].北京:高等教育出版社,2003,(11).
  [3]王芳,王万森.关系数据库中关联规则挖掘的一种高效算法[J].微机发展,2004,(9):20-22.