通常意义上讲,大数据(Big Data)包括海量交易数据(结构化数据)和海量交互数据集(非结构化数据)在内的所有数据集,其规模(PB级别)或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。
传统的企业用户的海量数据分析处理系统目前绝大多数都采用高性能主机+高端存储的Shared-Everything架构,随着数据来源的极大丰富和数据量的急剧增加,传统的系统架构已显露出技术瓶颈和成本性价比的问题,简而言之,不仅实现成本高昂且更关键在于无法解决客户所关心的问题。而与此同时,互联网公司等新兴行业普遍采用的分布式Shared-Nothing大数据处理架构已经证明了大数据分析处理行业可以有着完全不同的演进方向。
通常意义上讲,大数据(Big Data)包括海量交易数据(结构化数据)和海量交互数据集(非结构化数据)在内的所有数据集,其规模(PB级别)或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。
传统的企业用户的海量数据分析处理系统目前绝大多数都采用高性能主机+高端存储的Shared-Everything架构,随着数据来源的极大丰富和数据量的急剧增加,传统的系统架构已显露出技术瓶颈和成本性价比的问题,简而言之,不仅实现成本高昂且更关键在于无法解决客户所关心的问题。而与此同时,互联网公司等新兴行业普遍采用的分布式Shared-Nothing大数据处理架构已经证明了大数据分析处理行业可以有着完全不同的演进方向。