? R语言在数据挖掘中的运用_牛聚文档

R语言在数据挖掘中的运用

R语言在数据挖掘中的运用
预览:

侯亚君

(山西管理职业学院,山西临汾041051)

摘要:开源的R语言集成了多种数据分析与可视化算法,具备良好的可扩展性,适用于数据挖掘。本文通过描述 R语言中Kmeans、Weka、IGRAPH、Holt—Winters 4种主要技术与算法,以及网站挖掘的应用实例介绍,突出 R语言在海量数据的采集处理、分类、统计分析、预测、可视化等方面的优势。

关键词:R语言;数据挖掘;算法

中图分类号:TP312文献标识码:A文章编号:1674—5078(2014)02-0063-03DOI:10.39696.issn.1674-5078.2014.02.020

一、前言

随着近年来电子商务、社交网站、移动终端应 用开发等行业的兴起,企业对于用户基本数据、行 为数据、网络痕迹数据等信息的掌握逐渐成为其 在信息领域的核心竞争力,“用数据说话”、“用数 据决策”等已经成为各大企业倡导的未来发展基 石。然而,传统的数据全样抽取、数据的随机抽样 等分析统计方法不仅时效性差,不适应对实时数 据的处理,且由于分析手段的局限性,预测结果数 据往往存在有效性差的问题,因此,如何利用海量 的数据挖掘出有价值的信息,对于企业来说,是挑 战,也是机遇。

二、R语言在数据挖掘应用中的几个主要技术 (一kmeans

图1为自定义编写的kmeans算法流程图,首 先生成绘制函数p.kmeans,然后为数据中的每个 样本分配聚类id号,通过mid是中心数据,c.core 用于对数据进行聚类的分类,

各个聚类的中心坐标点位置由Mid.core函数 来进行计算,通过多个聚类中心点的计算,如果多 次计算出的中心点,则停止函数的循环,否则继续 循环,直到所有聚类的中心点都相同。

(二)IGRAPH

IGRAPH主要适用于社交网站、电商平台等互 动平台,通过对站点的相关图片信息进行分析处 理,获取有价值的决策数据。首先通过线段与结点 构建图片,并对线段和结点进行赋值:如线段的指 向权重,或无方向的权重分别为多少。IGRAPH自 带多种图片的创建策略。如“随机算法”是针对将 任意两点进行连线生成图片(如图1所示),数据 结构中的“最小生成树算法”也可应用到图片生成 中,保证最小的连线权重。“穿插算法”会使得两个 结点的连接线也穿透第三个结点,对于带方向的 图片来说,两个结点连通的充分必要条件M指向 N,在无向图中,M和N必须互相指向才能称之为 连通。“最短路径算法”是图片创建中最常使用的 一种算法,如果图片中的权重值为负数,则会使用 到Bellman—ford算法,如果图片中的所有权重都一 样,或者都为正数时会使用到Dijkstra算法。大量 的连线和结点处理创建图片,对于图片的信息统 计处理后即可看到图片包含的所有信息。如图片 的连接线和结点的数量、图片的各个结点是连通 还是孤立的状态、图片中任意结点之间的距离、图 片的对称程度、图片的结点分布情况等等。以上信 息对于进行图片的各类特征的统计提供基础数 据,如图片的密集点分布特性、方向分布特性等, 并找出之间的关联性。

(三)Weka

Weka技术源于1992年开始的一个关于机器 学习的新西兰政府项目,包含关于机器学习的多 种算法介绍,并提供图形可视化编程环境,便于网 络编程人员的学习,一方面可以将对数据的多个 操作利用知识流功能进行组合,包括数据的输入 输出、数据的初始化、处理、数据的分类和回归、数

收稿日期:2013一ll一25

作者简介:侯亚君(1980一),女,山西长治人,讲师,硕士。主要研究方向为计算机语言一

擘 妻 摹 曩 言 荤 差 兰 耋 量 王 塑 万方数据

第1页/共4页 下一页>尾页