首页 | 供应信息 | 求购信息  | 下载系统 | 技术资讯 | 企业信息 | 产品信息 | 论文信息 | 展会信息 | 在线工具
作者: 发布时间:2017-04-10 来源: 繁体版
  卢龙1,2,王静宇1,王超3  (1. 内蒙古科技大学 信息工程学院,内蒙古 包头 014010;2. 中国北方稀土(集团)  高科技股份有限公司,内蒙古 包头 014010;3. 中国移动通信集团山东有限公司莱芜分公司,

  卢龙1,2,王静宇1,王超3T36自动化在线网

  (1. 内蒙古科技大学 信息工程学院,内蒙古 包头 014010;2. 中国北方稀土(集团)T36自动化在线网

  高科技股份有限公司,内蒙古 包头 014010;3. 中国移动通信集团山东有限公司莱芜分公司,山东 莱芜 271100)T36自动化在线网

       摘要:针对传统贝叶斯分类算法在处理海量数据时存在的运行时间长和分类准确率低等问题,在对传统的贝叶斯分类算法和云计算进行了深入研究后,提出了面向云计算环境的基于 MapReduce模型的朴素贝叶斯分类算法。该算法实现了朴素贝叶斯分类算法的并行化,实现了大规模数据在云计算环境下的集群中进行贝叶斯分类处理。实验结果证明,该算法具有较高的分类准确率,在运行时间和加速比方面也有很好的效果。T36自动化在线网

  关键词:云计算;朴素贝叶斯算法;MapReduceT36自动化在线网

  中图分类号:TP393文献标识码:ADOI: 10.19358/j.issn.1674-7720.2017.06.003T36自动化在线网

  引用格式:卢龙,王静宇,王超. 面向云计算的数据挖掘分类算法研究[J].微型机与应用,2017,36(6):7-9,12.T36自动化在线网

0引言T36自动化在线网

  *基金项目:国家自然科学基金项目(61662056,61462069 );内蒙古自然科学基金(2015MS0622,2016MS0609)随着云计算、大数据等信息技术的快速发展,数据量呈现出了爆炸式的增长,数量级别从原来的MB级别迅猛增长到TB级别甚至是PB级别,这一严峻问题的出现给数据挖掘技术带来了前所未有的巨大挑战,海量数据的积累让人们有更多的数据可以利用,从这些海量数据中提取出对用户有价值的数据变得尤为重要。传统的数据挖掘算法通常要做的处理是先把数据从外存读入内存,然后进行分析处理,但是现如今数据量增大到惊人的级别时,由于对CPU、内存等资源的急剧消耗,导致算法执行时间显著增加,算法的性能大幅度下降,根本无法达到用户的预期结果。在对海量数据进行挖掘处理时,要想获得理想结果,采用的数据挖掘算法必须要呈现出良好的可伸缩性和可并行性。云计算可以提供一种用于实现并行计算的模型[1],它将大规模数据的存储和计算能力均匀地分散到集群中,这些集群是由若干机器构成的,由许多的廉价机器搭建,在很大程度上降低了成本。云计算平台所具有的高速处理海量数据和计算海量数据这两大优势,更是为提高数据挖掘算法的效率和准确性提供了有力支撑,使传统的数据挖掘算法面临的难题得以解决。T36自动化在线网

  数据分类作为一种重要的数据分析形式,常出现在数据挖掘领域中。目前比较常用的分类算法主要有:朴素贝叶斯分类算法、决策树分类算法、人工神经网络等。其中,在机器学习和数据挖掘研究领域,朴素贝叶斯分类算法是比较重要和常用的数据处理方法之一。朴素贝叶斯分类算法在简单、高效、分类效果稳定这个三个方面优势比较明显,它还具有牢固的理论基础,在实际应用中得到广泛的重视和应用。近年来,各国学者对贝叶斯分类方法展开了深入研究。T36自动化在线网

  文献[2]提出了一种基于K?means的贝叶斯分类算法,该算法主要思想是利用K?means聚类算法对原始数据集进行聚类分析,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把该记录分配到与其相似度最大的一个簇, 用该簇中相应的属性均值来填充记录的缺失值,再用朴素贝叶斯分类算法对处理后的数据集进行分类,实验表明,在分类准确率上,与传统朴素贝叶斯分类算法相比,该算法分类准确率较高。文献[3]是基于Hadoop平台提出的朴素贝叶斯数据分类算法,该算法对特征选择方法进行了改进,并利用MapReduce编程模型实现了朴素贝叶斯并行分类算法。实验结果表明,该算法不仅提高了分类的正确率,而且在训练和测试集规模较大时体现出了很好的加速比,性能方面也有很大的提高。文献[4]则是通过对Hadoop基础平台MapReduce并行化编程模型进行深入研究后,对传统的朴素贝叶斯分类算法进行了MapReduce并行化改进,用以提高朴素贝叶斯分类算法对大规模数据处理的能力和计算效率。实验表明: 改进后朴素贝叶斯分类算法在加速比和对中文网页进行分类识别率上都有很大的改进。T36自动化在线网

  本文在对传统的贝叶斯分类算法和云计算相关技术深入研究后,提出了一种面向云计算并基于 MapReduce模型的贝叶斯分类算法,利用提出的面向云计算的贝叶斯分类方法,对大规模数据在云计算环境下的集群中进行贝叶斯分类处理,通过实验证明该方法具有较高的执行效率。通过对大规模数据在云计算环境下的集群中进行贝叶斯分类处理,并对比大规模数据在不同节点上的运行时间和加速比可知,本文提出的算法具有较高的执行效率,平均分类正确率显著提高,适合用于海量数据的快速离散化处理。T36自动化在线网

1相关工作T36自动化在线网

  1.1MapReduce编程模型T36自动化在线网

  MapReduce是一种并行编程模型[5],采用的是主(Master)/从(Slave)结构,在处理大规模数据时,将其分块后,分配到由普通机器组成的超大集群上并发执行。MapReduce编程模型主要分为两个阶段:Map和Reduce。Map阶段指的是映射,Reduce指的是规约;Map函数处理数据的形式是一个给定的键值对<key1,value1>,处理后生成另一个键值对< key2,value2>。随后MapReduce模型将Map阶段输出的相同的key2键值进行合并,形成一个新的键值对<key2,lsit(v2)>。Reduce函数则处理Map阶段合并的键值对<key2,lsit(v2)>,处理后形成一个形似<key3,value3>的键值对,并将这个键值对写入文件。


面向云计算的数据挖掘分类算法研究
评论】【加入收藏夹】【 】【关闭
※ 相关信息
无相关信息
※ 其他信息
访问数: | 共有条评论
发表评论
用户名:
密码:
验证码: 看不清楚,点击刷新
匿名发表

 搜索新闻
[提交投稿]  [管理投稿]
 最新新闻
 热点新闻
数据加载中..

网站地图
Autooo.Net 版权所有
Copyright © 2007--2017 All rights reserved