加入收藏 | 设为首页 | 会员中心 | 我要投稿 武陵站长网 (https://www.50888.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据的概念、技术及应用

发布时间:2022-12-19 21:01:46 所属栏目:大数据 来源:转载
导读:
[摘要]继云计算、物联网和移动互联网后,大数据成为信息和互联网行业的研究热点。本文通过文献调研法对大数据的概念和技术做了阐释,并对其在各个行业的应用进行了简单评价,以期对大数据

大数据的概念、技术及应用

[摘要]继云计算、物联网和移动互联网后,大数据成为信息和互联网行业的研究热点。本文通过文献调研法对大数据的概念和技术做了阐释,并对其在各个行业的应用进行了简单评价,以期对大数据的研究做出有益补充。

[关键词]大数据;信息技术;数据处理

[中图分类号]TP274[文献标识码]A

20世纪中叶计算机的诞生标志着电子时代正式开始,从此人类社会开始生产并存储各类型的数据。经过数次计算机技术革命,单位面积所能存储的数据量大大提高。近年来,由于WEB2.0应用的全面爆发,网络参与者同时也成了网络信息的制造者,由WEB2.0带来的大规模非结构化数据开始呈现出几何增长。因此,麦肯锡公司在2011年的报告《Big Data:the Next Frontier for Innovation》[1]中,对这种密集型数据爆炸的现象成为“大数据”时代的到来。

1大数据的概念

大数据的概念并不是凭空出现的,它的前身是海量数据。但两者之间有所区别。海量数据强调了数据量的规模之大,并没有对其特性进行定义。而大数据的概念包含了大数据的体积、传播速率、特征等内容。虽然截至目前还没有对大数据有统一的定义,但被广泛接受的定义为:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合[2]。大数据的特点一般归纳为四点:一是数据总量大,目前大数据的最小单位一般被认为是10~20TB的量级;二是数据类型多,包括了结构化、非结构化和半结构化数据;三是数据的价值密度很低;四是数据产生和处理的速度非常快。这四个特点又被称作大数据的4 V理念,即:Volume,Variety,Value,Velocity[3]。

2大数据的技术

依据大数据生命周期的不同阶段,可以将与大数据处理相关的技术分为相应的三个方面:

2.1大数据存储

从海量数据时代开始,大规模数据的长期保存、数据迁移一直都是研究的重点。从20世纪90年代末至今,数据存储始终是依据数据量大小的不断变化和不断优化向前发展的。其中主要有:DAS(Direct Attached Storage),直接外挂存储;NAS(Network Attached Storage),网络附加存储;SAN(Storage Area Network),存储域网络和SAN IP等存储方式[4]。这几种存储方式虽然是不同时代的产物,但各自的优缺点都十分鲜明,数据中心往往是根据自身的服务器数量和要处理的数据对象进行选择。

此外,这两年数据存储的虚拟化从研究走向现实。所谓虚拟化,就是将原有的服务器进行软件虚拟化,将其划分为若干个独立的服务空间,如此可以在一台服务器上提供多种存储服务,大大提高了存储效率,节约存储成本,是异构数据平台的最佳选择。从技术角度来讲,虚拟化可以分为存储虚拟化和网络虚拟化,网络虚拟化是存储虚拟化的辅助,能够大幅度提升数据中心的网络利用率和传输速率。目前IBM、浪潮、思科等公司纷纷发力虚拟化市场,可以预见虚拟化会成为未来大数据存储的一个主流技术。

2.2大数据挖掘

在大数据的处理技术中,超大规模的数据挖掘一直是难点,也是重点。面对上百TB,甚至PB级别的异构数据,常规的处理工具往往难以担当重任。需要考虑到的是大数据是个不断生长的有机体,因此在挖掘过程中还要考虑到未来数据继续增长所带来的影响。

因此大数据应用领域,大数据的挖掘需要采用分布式挖掘和云计算技术。Google公司一直是分布式挖掘技术的领导者,它研发了MapReduce分布式挖掘工具[5],英特尔公司在此基础上开发了Hadoop分布式挖掘工具。这两个工具都具有高效、高扩展、高可靠性和高容错率的特点,并提供免费版本,适用于各种类型的大数据挖掘。

2.3大数据分析

从内容来说,大数据的分析分为技术和方法两种类型。从技术上讲,主要是分布式的数据分析和非结构化数据处理等。从方法上讲,主要是利用常用的数理统计方法来进行数据分析,例如使用可视化的数据分析工具。但两者是一个有机的整体。大数据处理的最终目的是为了将数据之间的关系以可视化的方式呈现在用户面前,包括了处理的全部过程和展现的过程。在数据分析过程中,不仅仅是需要计算机进行自动化的分析,更需要人工进行数据选择和参数的设定,两个是辩证的关系。

随着大数据行业的兴起,产生了一个新的职业,被称作数据科学,而从事该行业的人员被称作数据科学家。这类科学家的一个特点就是能够艺术性地将数据进行可视化分析,简单明了而且能够展现出数据之间的关联关系。

3大数据的应用

麦肯锡在大数据的研究报告中指出,大数据的应用已经渗透到每一个行业和业务职能领域,逐渐成为了重要的生产因素[6]。按照专业领域划分,信息技术、互联网行业、商业、遥感探测已经开始应用大数据技术来进行研究和生产效益;生物信息技术、科研情报所、图书情报领域已经对大数据展开了研究,并进行了规划;其他专业和行业对大数据可能仍处于了解阶段,但大数据的浪潮很快就会波及大部分的行业领域。

大数据外贸领域_大数据应用的领域_大数据应用领域

从大数据的应用效果来看,总体趋势与上述的三类专业呈现出一致性。百度、淘宝等公司作为信息技术、互联网和商业领域的杰出代表,已经对大数据开始了深度应用,马云在卸任阿里巴巴CEO时更是阐述了大数据时代将改变互联网商业的面貌,谁提前开始大数据的应用,就可以获得未来行业发展的优势。大数据的普及需要一个过程,首先从重点应用行业开始,例如信息技术领域行业,逐渐扩展到其他行业。美国已经由白宫颁布了大数据开发与利用的国家级战略,由美国国防部和国土安全局牵头开展全面推广大数据的应用。我国目前对大数据的研究并不多,应用更是缺乏。如果要推动大数据的应用,应当由国家层面进行大数据的平台建设。在今年的国家自然科学基金和社会科学基金的课题指南中,已经提出了很多设计大数据的课题,相信在未来几年内国家会对大数据的研究、开发与利用提供政策和资金支持。

总而言之,大数据的技术与应用还是处于起步阶段,其应用的前景不可估量。各个行业应当把握时代脉搏,充分认识到大数据所能带来的革命性改变,只有这样才能够保持创新与进步,从而站在行业的最前沿。

参考文献:

[1]Manyika J,McKinsey Global Insti? tute,Chui M,et al. Big data: The next fron? tier for innovation,competition,and produc? tivity[M]. McKinsey Global Institute,2011.

[2]卢胜军,王忠军,栗琳.赛博空间与大数据双重视角下的钱学森情报思想[J].情报理论与实践,2013,36(004): 1-5.

[3]Hirt C W,Nichols B D. Volume of fluid(VOF)method for the dynamics of free boundaries[J].Journalofcomputational physics,1981,39(1): 201-225.

[4]Chirillo J,Blaul S. Storage Security: Protecting,SANs,NAS and DAS[M].John Wiley & Sons,Inc.,2002.

[5]Dean J,Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM,2008,51(1): 107-113.

[6]郑玲微.大步跨入“大数据”时代[J].信息化建设,2013(1).

作者简介:张心源(1992-),女,本科,信息管理与信息系统专业,已7篇。

李白杨(1991-),男,硕士研究生,研究方向为数字图书馆与信息资源整理,已3篇。

(编辑:武陵站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!