加入收藏 | 设为首页 | 会员中心 | 我要投稿 武陵站长网 (https://www.50888.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据研究的方向选择

发布时间:2022-11-18 14:30:51 所属栏目:大数据 来源:未知
导读: 各位知友大家好,今天和几个老师交流,大家对于飞时过数据科学的共享给予了高度的评价,但也提到了能不能从宏观角度谈一下大数据背景下如何选择研究方向的问题,还有有些老师有出国的需求,

各位知友大家好,今天和几个老师交流,大家对于飞时过数据科学的共享给予了高度的评价,但也提到了能不能从宏观角度谈一下大数据背景下如何选择研究方向的问题,还有有些老师有出国的需求,也不知道利用数据进行选择准不准确比如:

今天我参考一些自媒体材料和我个人的一些理解,给大家做一个系统综述。感谢“大邓和他的python”微信公共号的资源,本文素材部分来自国家自然科学基金委“大数据驱动的管理与决策研究”重大研究计划相关的系列研讨.由衷感谢不同学科领域专家学者 (包括NSFC大数据重大研究计划指导专家组、顾问专家组、管理工作组等专家学者) 的真知灼见和思想贡献!

信息科技的飞速发展和深度融合开启了数字化生活的新篇章, 把人们带入了大数据 (big data) 时代.一方面, 随着各种感应探测技术、智能终端以及移动互联的广泛应用, 使得社会经济生活的方方面面以更细粒度的数据形式呈现, 进而整个社会的“像素”得到显著提升;另一方面, 社会“像素”的提升促进了数字“成像”的发展, 使得通过数据世界可以更清晰地描绘社会经济活动情境, 进而基于数据的商务分析 (business analytics, BA) 正在成为使能创新的核心竞争力.在此背景下,传统的管理变成或正在变成数据的管理, 传统的决策变成或正在变成基于数据分析的决策.这里像素和成像很形像的描绘出了大数据时代的特征。

我国政府对大数据高度重视并有一系列前瞻性洞见和部署.2015年十八届五中全会提出实施国家大数据战略 , 国务院发布《促进大数据发展行动纲要》 , 指出大数据是国家基础性战略资源, 旨在全面推进我国大数据发展和应用, 加快建设数据强国.2017年十九大报告进一步强调要推动互联网、大数据、人工智能和实体经济深度融合.通过国家需求、政策支持、产业结合以及企业研发等形式, 近些年来涌现出一大批重大规划和政产学研项目, 包括国家自然科学基金委员会 (NSFC) 于2015年9月启动的“大数据驱动的管理与决策研究”重大研究计划。

大数据在给社会经济生活带来深刻变革的同时, 也对管理与决策研究带来一系列新的重要课题.从信息技术 (IT) 范畴来看, 可以从两个视角来认识大数据, 即大数据的“造”与“用”视角 (如图1所示) .这和产品的属性类似, 一方面, 人们关心产品是如何设计和制造出来的;另一方面, 人们关心产品是如何使用和有用的.大数据以IT的形式呈现, 通常可以概括为数据和系统 (包括算法、应用、平台等) .从造的视角出发, 涉及的主要问题包括大数据分析 (如画像、学习、推断等) 和大数据系统建设 (如体系、功能、集成等) .从用的视角出发, 涉及的主要问题包括大数据使用行为 (如采纳、影响、管理等) 和大数据使能创新 (如要素、价值、市场等) .注意这里的大数据分析指的是与IT技术集成的数据分析,并不是我们数据科学进行研究时的数据分析。

大数据研发方向_金融 大数据方向_大数据的应用方向

值得一提的是, 大数据相关的研究不仅需要对相关领域的理论与应用进行探索和创新, 也需要对许多惯常的认识视角和方法论范式进行审视和发展.同时, 我国学者和研究人员也面临着“严谨 (rigor) 与相关 (relevance) ” (学术规范与实践影响) 和“世界与中国” (国际视野与中国根基) 既分立又统一的挑战, 当然应对这些挑战也为创新机遇开拓了广袤的空间.

概括说来, 大数据的特征可以从三个方面来描述:数据特征, 问题特征和管理决策特征, 分别刻画大数据具有的数据属性、大数据问题的特点、以及管理决策大数据问题的视角.

1.1 大数据的数据特征

大数据作为数据, 具有体量大、多样性、 (价值) 密度低、速率高等属性特征 (即4V等特征).第一, 数字化生活各要素的数据生成和交互加速了数据的海量积累, 使得数据规模剧增.体量大可以从超规模 (即超出传统规模) 和问题领域角度来理解, 因为规模是与问题领域相关, 而不是拘泥于统一量纲标准.例如, 市场营销领域的客户满意度调查的传统方式是问卷和访谈, 那么进一步考虑海量网上购物评论和社交媒体体验分享的用户生成内容 (user generated content, UGC) 就构成了一个大数据情境.第二, 数字化生活各要素的数据生成和交互丰富了数据类型, 使得数据多样性成为常态.多样性强调数据的多源异构和富媒体 (如文本、语音、图片、视频等) 特点.例如, 社交网络上的公众声音、智慧交通平台上的影像信息等均为富媒体形态且来源广泛.第三, 数字化生活各要素的数据生成和交互在加速海量积累的同时也减少了价值数据的占比, 使得价值发现的难度提升.价值密度低意味着数据挖掘和商务分析是大数据应用的关键.例如, 对于在线企业或服务平台来讲, 随着网络访问的增加和业务活动的扩展, 识别高价值的潜在用户变得相对困难, 也凸显出大数据分析的重要性.第四, 数字化生活各要素的数据生成和交互强化了流数据形态和即时性, 使得数据传输和交换速率显著升高.速率高对平滑流通和连续商务提出了更高要求.例如, 智能手机客户端应用软件 (Apps) 的使用需要在服务内容和效果方面 (包括相关内容的浏览、下载、上传、响应、展现等) 有良好的临场感和实时体验.

1.2 大数据的问题特征

在各类研究和应用问题中, 有一类问题可以归为大数据问题.大数据问题应至少具有以下三个特点:粒度缩放、跨界关联和全局视图.首先, 粒度缩放是指问题要素的数据化, 并能够在不同粒度层级间进行缩放.这需要通过数据感知、连接和采集获得足够细的粒度性, 同时对于不同层级间的粒度转换具有分解和聚合能力.其次, 跨界关联是指问题的要素空间外拓.这需要扩展惯常的要素约束和领域视角, 强调“外部性”和“跨界”, 在问题要素空间中通过引入外部视角与传统视角联动, 将内部数据 (如个体自身、企业组织和行业等内部数据) 与外部数据 (如社会媒体内容等) 予以关联.最后, 全局视图是指问题定义与求解的全局性, 强调对相关情境的整体画像及其动态演化的把控和诠释.这需要基于数据分析和平台集成的全景式“成像”能力.

在数字化生活的背景下, 具有粒度缩放、跨界关联和全局视图特点的应用问题不断涌现, 进而激发了大量创新并催生了许多新模式、新业态.例如, 在医疗健康领域, 传统疾病诊疗中的病人就医关系正在被扩展为融合院外检测、干预、康复数据的新型诊疗模式.其中, 不仅涉及传统意义上的生化、影像和诊疗等医院内部数据, 也涉及医院外病人和社区相关的体征、体验、社会关系、环境等外部数据.这里, 需要获取相关生化组织、疾病、人、社区、环境等微观宏观粒度信息;同时进行视角拓展和关联, 包括从科室内外到医院内外的跨界融合;进而, 可以在全局层面进行更为有效的诊疗决策和管理.此外, 近年来发展迅速的新型医疗健康服务平台, 通过整合社会和行业资源, 连接医生、公众、医院以及相关上下游企业提供信息咨询、诊疗链入、健康指导等服务产品, 形成了一类新业态并呈现显著的大数据问题特征.再如, 在新型商务领域, 共享单车体现了大数据问题的粒度缩放、跨界关联和全局视图特点.通过车载传感器、定位系统以及智能手机终端等设备获得调度和管理需要的“人—车—路”粒度信息;同时, 打通导航、支付、通讯、商铺以及餐饮等诸多业务功能, 实现跨界联动;进而, 企业和平台可以从全局出发形成整体画像, 并优化布局和运作以做出相应的管理决策.这段话也是环湖医院数据科学的座右铭。

1.3 大数据管理决策特征

一般而言, 管理者在业务活动中通常有三个关注:发生了什么 (what) , 为什么发生 (why) 以及将发生什么 (will) .在大数据问题特征的情境下, 这三个关注可以从业务层面、数据层面和决策层面进行刻画, 进而形成管理决策大数据问题的特征框架 (如图2所示) .

金融 大数据方向_大数据研发方向_大数据的应用方向

首先, 对于发生了什么 (what) 的关注, 业务层面需要反映业务的状态, 即已经发生或者正在发生的事件和活动 (如市场份额、交易现状、KPI表现等) ;数据层面需要体现业务环节的数据粒度, 即现有的数据能否足够支撑管理者对不同粒度层级的业务状态进行了解和把握 (如感知、采集、解析、融合等) ;决策层面需要构建问题的全局视角, 即定期整合汇总以及随需要素展现 (如:按时统计报表、实时信息查询等) .

接着, 对于为什么会发生 (why) 的关注, 业务层面需要反映业务及其要素之间的联系, 即业务特定状态的发生与哪些环节和要素有关联;数据层面需要体现不同业务数据路径的连接, 即不同粒度层级和跨界关联的业务数据是否有效融通, 并能够支持对数据的分析处理 (如多维、切分、回溯等) ;决策层面需要发现关联业务/要素之间的因果关系, 即li理清业务逻辑和状态转换机理.在此, 特别需要指出的是, 在很多情形下, 尤其在管理决策领域, 大数据需要既讲关联也讲因果.对于许多管理问题而言, 如果决策者对事件之间的因果关系没有准确的分析与判断, 则难以做出有效的决策, 当管理者面临重大决策时更是如此 (如投融资、进入新市场、业务转型、结构重组等) .

大数据驱动范式

在大数据背景下, 一些新的挑战正在涌现.这里, 以传统的行为模型或计量模型 (简称传统模型) 为例.第一, 传统模型基于观察抽象、理论推演以及经验提炼确定变量 (或构念) 组合, 以此构建变量关系和理论假设, 并通过数据实证进行模型检验.然而, 在大数据背景下, 常常需要检验大量的变量组合 (如指数级组合数) , 这就使得逐一构建传统模型并进行检验成为难以完成的任务.第二, 有些重要潜在影响因素和隐变量没有被意识到, 因而没有被考虑到传统模型的变量组合中, 这常常导致传统模型的假设与数据的适配性不强, 模型解释力不高.第三, 虽然知道有些影响因素和变量是重要的, 但是由于这些因素和变量在传统意义上不可测或不可获 (如文本、图像、语音等富媒体数据) , 难以容纳到传统模型变量组合中, 进而造成模型解释力不理想.第四, 当样本数据规模大幅增加时, 对一些变量的显著性检验有效性下降, 可能出现联系缺失或拟合过度等情形.

面对上述挑战, 数据驱动范式的优势不断凸显.概括说来, 数据驱动范式的作用有两个:一是直接发现特定变量关系模式, 形成问题解决方案;二是与模型驱动范式进行补充扩展, 形成融合范式.值得指出的是, 数据驱动范式发现的一类重要关系模式是关联 (association) 及其扩展形式 (如关联规则、层次关联、数量关联、时态关联、类关联、模式关联等) , 并广泛应用到许多领域 (如搜索、推荐、模式识别等)。“数据驱动+模型驱动”思路, 体现“关联+因果”的诉求, 这对于管理决策尤为重要.这里, 与传统模型相比一个重要区别是, 此时的变量空间中可能存在着一些新颖且潜在的变量及其关联, 在进一步融合运用模型驱动方法构建变量关系时存在困难, 因为已有的理论知识和领域经验不能直接支持相关的建模逻辑和关系形式.这就需要在更深 (包括间接、潜隐) 层面上探寻新的变量影响机理和理论, 并在方法论上另辟新径 (如通过步进/层次/迭代的试错和启发建模方式) .具体说来, 大数据驱动范式的框架可从三个角度来审视:外部嵌入、技术增强以及使能创新 (如图3所示) .前两个角度主要涉及方法论层面, 后一个角度主要涉及价值创造层面.

金融 大数据方向_大数据的应用方向_大数据研发方向

2.1 外部嵌入

外部嵌入指外部视角引入, 即将传统模型视角之外的一些重要变量 (包括构念、因素等) 引入到模型中.假设自变量集合为X'={x1, x2, …, xm, xm+1, …, xn}, 其中x1, x2, …, xm为传统建模变量, xm+1, …, xn为通过数据驱动方法新引入的变量 (多为富媒体形态) .如果没有变量引入 (n=m) , 传统模型的变量关系是Y=f (X) , X={x1, x2, …, xm}.在跨界关联情境下 (n>m) , 将形成新变量关系Y'=f' (X') .换句话说, Y=f (X) 可以是Y'=f' (X') 的特例;一般意义上讲, X'≠X, f'≠f, Y'≠Y.显然, 新变量关系的构建面临着深刻的挑战, 既有新变量空间的发现, 又有新视角的洞察, 也有新变量关系的辨识和新理论的生成.当然, 对于研究和应用来讲, 这些挑战同时也是创新的机遇.例如, 在金融领域, 可以考虑引入搜索平台上的股票关注数据变量以及社交媒体平台上的相关公共事件数据变量等, 以构建新型股价预测模型;在商务领域, 可以考虑引入购物平台上的评论数据变量以及朋友圈中的体验和口碑数据变量等, 以构建新型商品营销模型;在医疗健康领域, 可以考虑引入院外病友智能检测终端数据变量以及区域环境诱因数据变量等, 以构建新型呼吸疾病预防诊疗模型;在公共管理领域, 可以考虑引入社交平台上的受众意见数据变量以及相关领域联动影响数据变量等, 以构建新型公共政策模型.

2.2 技术增强

对于传统模型来讲, 通过外部嵌入而引入的变量多为富媒体、潜隐性、不可测或不可获, 通常需要利用数据驱动方法和技术.可以说, 数据和技术意识及其能力是大数据背景下研究和应用的核心竞争力, 也是大数据驱动范式的关键要素.技术增强旨在提升这样的能力与要素水平.这就是环湖医院数据科学成立数据科学共享平台的初衷。

在数据类型方面, 富媒体形态 (如文本、图像、音频、视频等) 成为主流.其中, 音频数据、视频数据具有时间连续性特点.由于计算机中通常采用编码、采样等方式表示富媒体数据, 因而数据变换成为大数据分析的重要内容.常用的数据变换方法包括文本处理的向量空间模型 (VSM) 、主题模型 (topic model) , 图像处理的尺度不变特征转换 (SIFT), 音频处理的短时傅里叶变换 (STFT), 视频处理的时空兴趣点检测 (STIP) 等方法.近年来, 随着大数据平台化运算能力的显著提升, 基于深度神经网络的相关方法进一步发展, 并在富媒体数据变换上展现出良好的应用效果和发展前景.例如, 用于文本数据的单词嵌入 (word embedding) , 用于图像数据的卷积神经网络 (CNN) 和胶囊神经网络 (capsnet), 用于音视频等具有时间序列特征数据的循环神经网络 (RNN) 、长短时记忆神经网络 (LSTM)等.其他较新的数据变换方法还包括多层感知机 (MLP) 、自学习编码器 (AE) 、受限制玻尔兹曼机 (RBM) 、深度语义相似模型 (DSSM) 、神经自回归分布估计 (NADE) 、生成对抗网络 (GAN) 等.

2.3 使能创新

大数据驱动的一个重要含义是大数据使能 (enabling)。大数据使能是指大数据能力带动的价值创造.例如, 从研究和应用范式角度看, 外部嵌入是一种使能情形, Y'=f' (X') 中, 大数据能力通过自变量X'体现, 创造的价值通过因变量Y'体现, 使能转换方式通过f'体现.从研究和应用情境角度看, 企业的价值创造可以体现在其价值链的环节上, 既包括价值链的主环节及其活动, 也包括价值链的支持环节及其活动[35].在企业内外部大数据环境下, 企业使能创新是通过构建大数据能力, 带动新洞察、新模式、新机会的发现, 进而推动产品/服务创新和商业模式创新, 以实现企业的价值创造 (如图4所示) .

大数据研发方向_大数据的应用方向_金融 大数据方向

综上所述, 大数据驱动范式通过技术增强引入了新视角, 进而推动了新型变量关系、要素机理和理论模型构建, 并提升了大数据使能创新的价值创造.这对于应对新型商务形态的进一步发展机遇和挑战具有重要意义.简单说来, 新型商务可以通过两个阶段予以描述.第一个阶段称作数据商务 (digital business或data-centric business) , 即“数据化+商务分析 (BA) ”.此时通过细化数据粒度使得商务要素的“像素”显著提升, 并在此基础上进行商务分析, 针对不同管理场景和层次进行“成像”和决策.第二个阶段称作算法商务 (algorithmic business) , 即“商务分析+”.此时, 在已有的商务高像素基础上, 成像算法成为关注重点, 旨在获得面对新模式、新业态、新人群的发展策略和竞争优势.这里, “商务分析+”包括BA算法创新和BA使能创新.

全景式PAGE框架

全景式PAGE框架是融合大数据特征和重要研究方向的要素矩阵, 旨在刻画大数据驱动的“全景式”管理决策框架.全景式PAGE框架具有三个要件:大数据问题特征、PAGE内核、领域情境 (如图5所示) .大数据问题特征涵盖粒度缩放、跨界关联和全局视图, 并作为管理决策背景下的特征视角映射到研究内容方向上.PAGE内核是指四个研究方向, 即理论范式 (paradigm) 、分析技术 (analytics) 、资源治理 (governance) 以及使能创新 (enabling) .领域情境是指针对具体行业/领域 (如商务、金融、医疗健康和公共管理等) 进行集成升华.

金融 大数据方向_大数据的应用方向_大数据研发方向

围绕PAGE内核, 在大数据问题特征映射下可以形成一个4×3的要素矩阵.在理论范式 (P) 研究方向上, 重点关注管理决策范式转变机理与理论.传统的管理决策正在从以管理流程为主的线性范式逐渐向以数据为中心的新型扁平化互动范式转变, 管理决策中各参与方的角色和相关信息流向更趋于多元和交互.概括说来, 新型管理决策范式呈现出大数据驱动的全景式特点.进而, 由于全景式的多维交互动态性以及全要素参与特点, 在研究上需要采用新型的研究范式 (即大数据驱动范式) .具体说来, 在粒度缩放方面, 需要决策要素在宏观和微观层面可测可获;在跨界关联方面, 需要引入外部要素并形成内外要素互动;在全局视图方面, 需要多维整合并能够针对不同决策环境进行情境映现和评估.

在分析技术 (A) 研究方向上, 重点关注管理决策问题导向的大数据分析方法和支撑技术.在粒度缩放方面, 需要数据的感知与采集, 并能够在不同维度和层次上进行分解与聚合;在跨界关联方面, 需要捕捉数据关系及其动态变化, 并能够进行针对多源异构的内外数据融合;在全局视图方面, 需要体系构建和平台计算能力, 并能够形成各类画像以及开展智能应用.

在资源治理 (G) 研究方向上, 重点关注大数据资源治理机制设计与协同管理.在粒度缩放方面, 需要进行资源要素的数据化, 并明确数据标准和权属;在跨界关联方面, 需要刻画资源流通的契约关系, 并形成有效协调共享模式;在全局视图方面, 需要建立资源管理机制, 并制定组织的资源战略.

在使能创新 (E) 研究方向上, 重点关注大数据使能的价值创造与模式创新.在粒度缩放方面, 需要提升业务价值环节的像素, 并把握业务状态;在跨界关联方面, 需要梳理业务逻辑和联系, 并辨识影响业务状态的因果关系;在全局视图方面, 需要提升大数据使能创新能力, 并促进组织发展与价值创造.

围绕领域情境, 可以对PAGE相关研究和应用进行凝练、整合和升华.以NSFC大数据重大研究计划集成平台构建为例, 一般来讲, 集成平台由三个部件组成, 分别是平台体系、内置部件、整合部件.作为简化示例, 对于商务领域集成平台, 平台体系由一个商务管理决策相关的数据池, 以及相应的数据管理和应用管理平台系统 (包括模型、方法、工具库) 等组成;内置部件由针对特定行业 (如汽车) 和特定领域 (如营销) 的研究成果及示范系统组成;整合部件由商务领域内 (不限于内置部件领域) 其它相关项目成果在平台体系框架下经过提炼升华汇集而成.对于金融领域集成平台, 平台体系由一个金融监测预警服务平台, 以及相应的数据管理和应用管理平台系统 (包括模型、方法、工具库) 等组成;内置部件由针对特定行业 (如互联网金融) 和特定领域 (如征信评估、风险预警等) 的研究成果及示范系统组成;整合部件由金融领域内 (不限于内置部件领域) 其它相关项目成果在平台体系框架下经过提炼升华汇集而成.

对于医学集成平台,决不能是对商业大数据研发方向,金融领域集成平台的简单复制,它的数据管理和数据应用管理系统需要具有自身的特色,内置部件应该是针对本院拳头疾病的研究成果以及示范系统组成,整合部件应该是由相关领域内其它相关项目成果在平台体系框架下经过提炼升华汇集而成。

(编辑:武陵站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!