在当今大数据时代,思维的变化是真正搞好大数据的关键。我们需要用数据来思考问题,用数据来做决策。
- 从最早的报表开始的数据分析 最早的数据分析方法可能就是生成一份简单的报表,展示几条关键数据。随着数据量的增加,我们需要更多的数据图形和报表来展示分析结果。但是,当数据量变得非常庞大时,我们需要考虑如何分析这些数据,如何实现实时分析,以及如何处理分析结果数据量巨大的情况。
- 数据分析的基础:拥有数据 要进行数据分析,首先需要拥有数据。有些数据是业务积累的,比如交易订单数据,每笔交易都会生成一份订单数据,我们可以对这些订单数据进行分析。然而,有些场景下,我们无法依赖自身业务来获得数据,需要从外部获取数据。这时,如果能够获得现成的数据,可以直接将其导入到分析系统中。但有时我们需要自己获取数据,比如通过爬虫爬取网页数据。如果单台机器无法完成爬取任务,我们需要考虑使用单机多线程或分布式多线程爬取数据。在分析之前,我们还需要将在线业务数据每天晚上导入离线系统,并进行后续分析。
- 如何进行数据分析? 对于数据量较小的情况,可能只需要一个复杂的SQL查询就能得到结果,然后可以通过web页面展示数据。这种情况下,分析的数据源较小,分析脚本是在线执行的SQL语句,结果也直接在页面上展示。整个流程非常简单。
- 处理大规模数据分析的问题 当数据量变得非常庞大,无法使用在线执行SQL的方式进行统计分析时,我们就需要借助大数据处理工具,比如Hadoop。在使用Hadoop之前,我们需要构建一个Hadoop集群,并将数据导入集群中。之后,我们可以编写MapReduce程序来实现统计分析,并将程序上传到集群进行执行。执行后的结果仍然是以文件形式存储。