加入收藏 | 设为首页 | 会员中心 | 我要投稿 武陵站长网 (https://www.50888.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

达到多大规模的数据,才值得用大数据的方式来处理?

发布时间:2022-12-08 15:01:49 所属栏目:大数据 来源:网络
导读: 谢邀。
个人觉得,这个问题要从两个方面回答。
第一,从数据量角度,但是并无确定的答案,一般定性角度来说,你觉得这个数据量单机处理不了,比如内存限制,时间过久等,就用集群,但是要降

谢邀。

个人觉得,这个问题要从两个方面回答。

第一,从数据量角度,但是并无确定的答案,一般定性角度来说,你觉得这个数据量单机处理不了,比如内存限制,时间过久等,就用集群,但是要降低时间,你的处理逻辑必须能分布式处理,去mapreduce化,graph化,mpi化等。定量就是一般数据或者未来的数据量会达到PB级别(可能GB)或以上就要用分布式,当然前提也是你的处理逻辑可以进行分布式。

第二,从算法角度,或者处理逻辑的时间复杂度来说,比如虽然你的数据记录不是很多,但是你的算法或者处理逻辑的时间复杂度是n的平方,甚至更高,同时你的算法可以进行分布式设计,那么就考虑用分布式,比如你的记录虽然只有1w, 但是时间复杂度确是n的平方,那么你想想单机要多久,同是你的算法可以进行分布式处理,那么就考虑用分布式。

总而言之,大致如下:

如果你的处理逻辑或者时间算法复杂度低但是数据量达到PB级别,同时你的处理逻辑可以分布式,那么请用分布式。

如果你的处理逻辑或者算法复杂度高,一般是n的平方,甚至更高大数据数量级,并且你的算法可以分布式设计,数据记录达到万以上,就请用分布式。

如果你的数据记录达到万以上,并且你的算法复杂度高,大于等于n平方,那么你就要想方设法去把你的算法分布式化,如果实在不能,那么要么使用可以分布式的同类算法代替,要么去牺牲算法的准确去降低算法复杂度。

当然前提是你是用的不是高性能机器。

(编辑:武陵站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!