相异度计算 用通俗的话说,相异度就是两个东西差别有多大。 在数学上对相异度的定义指的是:设,其中X,Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为:,其中R为实数域,也就是说相异度是两个元素对实数域的一个映射,所映射的实数定量表示两个元素的相异度。 在计算不同元素的相异度上我们采用欧几里得距离来作为相异度,其意义就是两个元素在欧氏空间中的集合距离,因为其直观易懂且可解释性强,被广泛用于标识两个标量元素的相异度。
欧几里得距离的定义如下
在真实应用中,经常会出现元素项的取值 RCS 数据库 问题,取值范围大的属性对距离的影响高于取值范围小的属性,比如在RFM模型的属性中,的取值往往要远大于F的取值,这样不利于真实反映真实的相异度,为了解决这个问题,一般要对属性值进行规格化。 规格化的意思就是将各个属性值按比例映射到相同的取值区间通常将各个属性均映射到[,]区间,这样是为了平衡各个属性对距离的影响。 映射公式为: 表示所有元素项中i个属性的最大值和最小值,x是集合中的一个属性指标。
聚类算法 把近两年内
还有订购记录的客户设定为一个元素集合D,其中每个元素 客允许与客户和潜在客户 有个具有可观察的属性:R近度、F频度、M值度。 元素集合D按照K-mens聚类算法把他分为个聚类子集: 把集合D中每一个元素客户的RFM属性进行规格化,是基于按照映射公式把各个属性均映射到[,]区间的结果; 对集合的各个属性进行加权处理,加权属性权重H法确定的权向量中对应的权重,加权后的集合; 从集合中随机选取K个元素k ,作为作为k个簇的各自的中心; 到k个簇中心的相异度按照欧几里得距离度量,将这些元素分别划归到相异度最低的簇; 根据聚类结果,重新计算k个簇各自的中心
计算方法是取簇中所有
元素各自维度的算术平均数; 将集合中全部元素 CA 细胞数 按照新的中心重新聚类; 重复第步,直到聚类结果跟最近一次的聚类结果一致,不再变化; 输出最终的聚类结果; .、划分客户类别 不同的层级聚合揭示不同层级的客户在行为上的特性以及变化倾向,划分客户类别方法如: 计算K均值聚类中每类客户的均值: ,其中指的是每类中的客户设备数,指的是对应类别中每台设备的之和,的计量单位为天; ,其中指的是每类中的客户设备数,指的是对应类别中每台设备的之和,的计量单位为次; ,其中指的是每类中的客户设备数,指的是对应类别中每台设备的之和的计量单位为; 将每类客户的平均值和总平均值作比较: 将均值聚类的类客户的平均值同总均值进行比较。