当前位置：移动技术网 > 科技>人工智能>云计算 > Flink1.4HDFSConnector

Flink1.4HDFSConnector

2018年03月05日 | 移动技术网科技 | 我要评论

西陆游戏,古雷半岛,哈尔滨华臣

此连接器提供一个Sink，将分区文件写入Hadoop FileSystem支持的任何文件系统。要使用此连接器，添加以下依赖项：


  org.apache.flink
  flink-connector-filesystem_2.10
  1.4-SNAPSHOT

`文件分桶的Sink(Bucketing File Sink)`

分桶(Bucketing)行为以及写入数据操作都可以配置，我们稍后会讲到。下面展示了如何通过默认配置创建分桶的Sink，输出到按时间切分的滚动文件中：

Java版本:

DataStream input = ...;
input.addSink(new BucketingSink("/base/path"));

Scala版本:

val input: DataStream[String] = ...
input.addSink(new BucketingSink[String]("/base/path"))

这里唯一必需的参数是这些分桶文件存储的基本路径/base/path。可以通过指定自定义bucketer，writer和batch大小来进一步配置sink。

默认情况下，分桶 sink 根据元素到达时当前系统时间来进行切分，并使用yyyy-MM-dd--HH时间格式来命名这些分桶。这个时间格式传递给当前的系统时间的SimpleDateFormat来命名桶的路径。每当遇到一个新的时间就会创建一个新的桶。例如，如果你有一个包含分钟的最细粒度时间格式，那么你将会每分钟获得一个新桶。每个桶本身就是一个包含 part 文件的目录：Sink的每个并行实例都将创建自己的 part 文件，当 part 文件变得太大时，会紧挨着其他文件创建一个新的 part 文件。当一个桶在最近没有被写入数据时被视为非活跃的。当桶变得不活跃时，打开的 part 文件将被刷新(flush)并关闭。默认情况下，sink 每分钟都会检查非活跃的桶，并关闭一分钟内没有写入数据的桶。可以在BucketingSink上使用setInactiveBucketCheckInterval()和setInactiveBucketThreshold()配置这些行为。

你还可以使用BucketingSink上的setBucketer()指定自定义bucketer。如果需要，bucketer可以使用元素或元组的属性来确定bucket目录。

默认的writer是StringWriter。对传入的元素调用toString()，并将它们写入 part 文件，用换行符分隔。要在BucketingSink上指定一个自定义的writer，使用setWriter()方法即可。如果要写入Hadoop SequenceFiles文件中，可以使用提供的SequenceFileWriter，并且可以配置使用压缩格式。

最后一个配置选项是 batch 大小。这指定何时关闭 part 文件，并开启一个新文件。(默认part文件大小为384MB)。

Java版本:

DataStream> input = ...;

BucketingSink sink = new BucketingSink("/base/path");
sink.setBucketer(new DateTimeBucketer("yyyy-MM-dd--HHmm"));
sink.setWriter(new SequenceFileWriter());
sink.setBatchSize(1024 * 1024 * 400); // this is 400 MB,

input.addSink(sink);

Scala版本:

val input: DataStream[Tuple2[IntWritable, Text]] = ...

val sink = new BucketingSink[String]("/base/path")
sink.setBucketer(new DateTimeBucketer[String]("yyyy-MM-dd--HHmm"))
sink.setWriter(new SequenceFileWriter[IntWritable, Text]())
sink.setBatchSize(1024 * 1024 * 400) // this is 400 MB,

input.addSink(sink)

上面例子将创建一个sink，写入遵循下面格式的分桶文件中：

/base/path/{date-time}/part-{parallel-task}-{count}

其中date-time是从日期/时间格式获得的字符串，parallel-task是并行sink实例的索引，count是由于batch大小而创建的part文件的运行编号。

备注:

Sink版本:1.4

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

云计算将带来商业模式革命概念股“千里挑一”

　　国金证券通信行业首席分析师陈运红：云计算将带来商业模式革命概念股“千里挑一” 　　江怡曼　　提到云计... [阅读全文]
虚拟化和云计算路向何方？

　　我们正处于一个有趣的历史节点。VMware公司的成功源于我们拥有的非常引人注目的价值主张——解决客户端-服务器时代的不... [阅读全文]
企业级虚拟化平台是云计算必由之路

　　6月20日，IBM新一代企业基础云平台研讨会在北京举行。IBM大中华区系统与科技部Power Systems高级产品经理谷建发表了主题演讲。谷... [阅读全文]
打造免费云平台十大与云有关开源项目

　　开源项目由于其开放、免费、自由灵活等特点深受广大开发者的喜爱。近年涌现了很多开源免费的东西深受欢迎。而云计算则是近段时间最热的科技名词，云计算... [阅读全文]
Oracle刘松：客户体验管理与社会化云服务平台

10月26日消息，由工信部信息化推进司指导，中国计算机用户协会与中国网上银行促进联盟主办的“2012年网银联盟大会暨电子银行创新颁奖典... [阅读全文]
胡斌：做大数据最终是要为公司带来变化的

10月24日“中国TMT国际商会月度英雄汇”在北京召开。胡斌在圆桌对话“大数据时代的机遇与挑战”中... [阅读全文]
确保云安全的五种服务器配置方法

　　越来越多的数据中心已经搬到了各种各样的云上，服务器配置是必须考虑的问题。　　云计算将是收缩数据中心的关键，显然这可能带来一些安全问题... [阅读全文]
跨入云计算时代传统服务器走将向何处？

　　云的出现，正在改变我们对于传统IT的观念认识。云并不像它的概念一样虚无缥缈，而是以各种形式出现在我们面前，而最让人耳熟能详的莫过于云存储和云计... [阅读全文]
解读透明计算：是云计算升级还是产业界革命

　　你知道云计算吗？不少读者可能会说，嗯，我听说过，但是具体是怎么定义还是不太了解。虽然概念上不是很明白，但起码云计算到现在已经是人尽皆知。不过就... [阅读全文]
十二大技巧保障云计算安全

　　1、确认现有的基础控制　　基础控制是企业安全理念的核心。它们包含了将近60个保护您企业最重要资产的安全控制。它们专注在确保云技术对您... [阅读全文]

网友评论


验证码：

Flink1.4HDFSConnector

2018年03月05日 | 移动技术网科技 | 我要评论

文件分桶的Sink(Bucketing File Sink)

您可能感兴趣的文章:

相关文章:

网友评论

`文件分桶的Sink(Bucketing File Sink)`