写给新手,长文阐述大数据学习与面试
发布时间:2021-10-29 14:14:50 所属栏目:大数据 来源:互联网
导读:大数据是一个非常完善的生态圈,有需求就有解决方案。为了能够让熟悉 SQL 的人员也能够进行数据处理与分析,查询分析框架应运而生,常用的有 Hive 、Spark SQL 、Flink SQL、Phoenix 等。这些框架都能够使用标准的 SQL 或者 类 SQL 语法灵活地进行数据的查询
大数据是一个非常完善的生态圈,有需求就有解决方案。为了能够让熟悉 SQL 的人员也能够进行数据处理与分析,查询分析框架应运而生,常用的有 Hive 、Spark SQL 、Flink SQL、Phoenix 等。这些框架都能够使用标准的 SQL 或者 类 SQL 语法灵活地进行数据的查询分析。
这些 SQL 经过解析优化后转换为对应的作业程序来运行,如 Hive 本质上就是将 SQL 转换为 MapReduce 或 Spark 作业,Phoenix 将 SQL 查询转换为一个或多个 HBase Scan。
大数据流处理中使用的比较多的另外一个框架是 Kafka,Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以用于消峰,避免在秒杀等场景下并发数据对流处理程序造成冲击。
数据应用:处理好的数据就可以输出应用了,如可视化展示,推动业务决策,用于推荐算法,机器学习等。
(编辑:站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐