达到多大规模的数据，才值得用大数据的方式来处理？

发布时间：2022-12-08 15:01:49 所属栏目：大数据来源：网络

导读： 谢邀。
个人觉得，这个问题要从两个方面回答。
第一，从数据量角度，但是并无确定的答案，一般定性角度来说，你觉得这个数据量单机处理不了，比如内存限制，时间过久等，就用集群，但是要降

谢邀。

个人觉得，这个问题要从两个方面回答。

第一，从数据量角度，但是并无确定的答案，一般定性角度来说，你觉得这个数据量单机处理不了，比如内存限制，时间过久等，就用集群，但是要降低时间，你的处理逻辑必须能分布式处理，去mapreduce化，graph化，mpi化等。定量就是一般数据或者未来的数据量会达到PB级别（可能GB）或以上就要用分布式，当然前提也是你的处理逻辑可以进行分布式。

第二，从算法角度，或者处理逻辑的时间复杂度来说，比如虽然你的数据记录不是很多，但是你的算法或者处理逻辑的时间复杂度是n的平方，甚至更高，同时你的算法可以进行分布式设计，那么就考虑用分布式，比如你的记录虽然只有1w, 但是时间复杂度确是n的平方，那么你想想单机要多久，同是你的算法可以进行分布式处理，那么就考虑用分布式。

总而言之，大致如下：

如果你的处理逻辑或者时间算法复杂度低但是数据量达到PB级别，同时你的处理逻辑可以分布式，那么请用分布式。

如果你的处理逻辑或者算法复杂度高，一般是n的平方，甚至更高大数据数量级，并且你的算法可以分布式设计，数据记录达到万以上，就请用分布式。

如果你的数据记录达到万以上，并且你的算法复杂度高，大于等于n平方，那么你就要想方设法去把你的算法分布式化，如果实在不能，那么要么使用可以分布式的同类算法代替，要么去牺牲算法的准确去降低算法复杂度。

当然前提是你是用的不是高性能机器。

（编辑：武陵站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

不会体系化建模，那数	安徽合肥人工智能产业
IT民工史海峰架构师	华为手环6pro可以无线