韩利鹏
韩利鹏 - 大数据开发工程师

性别: 注册于 2018-03-16

向TA求助
458金币数
600 经验值
1个粉丝
主页被访问 75 次

最近动态

2018-04-28 16:58 回答问题

Map端: 1.每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片,当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M,由io.sort.mb属性控制),当该缓冲区快要溢出时(默认为缓冲区大小的80%,由io.sort.spill.percent属性控制),会在本地文件系统中创建一个溢出文件,将该缓冲区中的数据写入这个文件。2.在写入磁盘之前,线程首先根据reduce任务的数目将数据划分为相同数目的分区,

2018-04-28 16:54 回答问题

数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。表现更给直观,更有视觉冲击力。

2018-04-28 16:52 回答问题

RCFile文件格式是FaceBook开源的一种Hive的文件存储格式,首先将表分为几个行组,对每个行组内的数据进行按列存储,每一列的数据都是分开存储,正是先水平划分,再垂直划分的理念。 RCFile采用游程编码,相同的数据不会重复存储,很大程度上节约了存储空间,尤其是字段中包含大量重复数据的时候。 ORC是在一定程度上扩展了RCFile,是对RCFile的优化。 ORCFile在RCFile基础上引申出来Stripe和Footer等。每个ORC文件首先会被横向切分成多个Stripe,而每个Strip

2018-04-28 16:24 关注了问题

2018-04-28 16:23 回答问题

目前,Hadoop 作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。下面我们分别介绍。 1、先进先出调度器(FIFO)   FIFO 是 Hadoop 中默认的调度器,也是一种批处理调度器。它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。 2、 容量调度器(Capacity Scheduler)   支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略,为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户

2018-04-28 16:12 回答问题

rdd可分区,可序列化。可持久化,但是要记得rdd是不能修改的。

2018-04-28 15:51 发起提问

2018-04-28 15:49 发起提问

2018-04-28 14:49 回答问题

先来说下优势和劣势吧,java的优势是使用的人比较多,各种技术都支持,但是写起来代码比较多, scala的优势是能够使用函数式编程,但是国内使用的人偏少,项目对接的时候会出现java工程师看不懂scala代码,导致项目不能很好地推进,python的优势是在于算法,提供了各种的算法,这也是搞算法,搞人工智能的人用这个语言,这个语言也比较简练,上手也是比较快的。 python代码 1. import logging   2. from operator import add   3.    4. f

2018-04-19 18:52 回答问题

软件测试分为白盒测试和黑盒测试(灰盒测试)