博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark学习
阅读量:2456 次
发布时间:2019-05-10

本文共 394 字,大约阅读时间需要 1 分钟。

首先认识spark,不严格的讲,spark是用来替代Hadoop架构中计算框架的 ,主要是用来优化替代mapreduce和hive中的部分功能

spark来替代hive的查询引擎

 

站在集群资源的角度:(yarn)

Resource manager是主,Node manger是从

站在程序的角度:

Driver是主,Executor是从

 

driver包含dagscheduler和taskscheduler

一个action就是一个job,job可以分为多个stage,一个stage中可能有n个tasks(取决于有多少个partitions)

 

spark先针对整体application申请资源,再切割任务。(加上内存计算,这两点导致spark快)

MapReduce先拿任务,再申请资源,跑完立刻释放资源(加上io问题,这两点导致了MapReduce慢)

 

map替换,reduce计算

转载地址:http://fvnhb.baihongyu.com/

你可能感兴趣的文章
spring 引入zuul_引入Zuul改进CI / CD
查看>>
使用bash默认环境_使用Bash炸鱼壳以获得漂亮的默认设置
查看>>
net开源开发web框架_我的6大Web开发开源框架
查看>>
PDF的Adobe Acrobat的开源替代品
查看>>
python传递数据_使用此消息传递库在C和Python之间共享数据
查看>>
自动化脚本自动化执行_5个用于自动化基本社区管理任务的脚本
查看>>
helm 和kubectl_适用于初学者的基本kubectl和Helm命令
查看>>
linux防火墙_Linux防火墙入门
查看>>
matlab 替代品_MATLAB的4种开源替代品
查看>>
minecraft1.5_Minecraft的5种开源替代品
查看>>
微软 开源 控制台_使用此开源窗口环境一次运行多个控制台
查看>>
tmux 嵌套 tmux_使用tmux和kubectl的功能对Kubernetes进行故障排除
查看>>
如何创建工件坐标系_自动创建研究工件
查看>>
针对CI / CD管道和Windows用户的提示以及更多Ansible新闻
查看>>
ansible剧本如何写_我学过的3课:写Ansible剧本
查看>>
bash 脚本部署lmnp_使用Bash自动化Helm部署
查看>>
linux 中移动文件_如何在Linux中移动文件
查看>>
ansible 模块_您需要知道的10个Ansible模块
查看>>
无处不在_Kubernetes几乎无处不在,正在使用Java以及更多的行业趋势
查看>>
ansible 中文文档_浏览Ansible文档,自动执行补丁,虚拟化以及更多新闻
查看>>