开始亲密接触了DM,才发现很多原来属于我的知识早已渐渐远去。
一直自信自己数学的还不错,但是当我再次见到“线性回归、欧式定律、付利叶算法……” 这些曾经识过且在DM中比较基本的算法和知识点的时候,Faint……
时隔多年的东西基本都忘得差不多了。
目前国内在这个领域应用较多的基本都是电信、银行、金融、证券以及零售业。
对于金融数据的分析和挖掘,由于其数据较完整、可靠和高质量。所以大大的方便了其自身的系统化的分析和应用。除了进行客户贷款偿还预测、客户忠诚度分析(客户流失预测)、用户群体识别以及目标市场分析等等典型应用之外,还可以对洗黑钱和其他金融犯罪中引起的金融异常,起到探测和监控的作用,电信行业也如此。
说到互联网,由于互联网是一个巨大的、分布广泛和全球性的信息源,相比较其他行业而言存在以下一些特性:
- 对有效的数据仓库和数据挖掘而言,Web太过庞大
- Web页面的复杂性远比任何传统的文本文档复杂的多
- Web 是一个动态性极强的信息源
- Web上的信息只有很小的一部分是相关的或有用的
所以Web对有效的资源和知识发现还是具有极大的挑战性的,即便目前著名的搜索引擎,都还是存在一定的缺陷。
顺便说一下的是,当下的搜索引擎在不断深入和优化原有的内容挖掘的同时,已经逐渐转向用户使用行为的记录挖掘了。

毕竟用户行为使web上的内容具有了对用户有意义的关联性
xorms
2006/03/14 07:48
听一位电信的同学说,其他公司帮他们做的客户流失预测已经相当准确。
DaDa
2006/03/16 15:01
Web页面的复杂性远比任何传统的文本文档复杂的多? 我怎么感觉web有html标记 要比传统文本要简单一些?
(我指单独一个web页面和文本而言。)
weilaiyxj
2006/03/23 08:58
昨天看了一下这本书,我感觉它不能叫做数据挖掘导论吧。因为它只讲了一部分数据挖掘方法。关联规则,聚类,分类。还有入侵检测。 要是想了解这个我感觉还是HanJiawei 的比较好。他的第二版已经出来了。 呵呵
weilaiyxj
2006/04/07 10:32