入门

Cloud Dataflow介绍

Cloud Dataflow 是一种用于执行各种数据处理模式的托管式服务。

如何使用 Cloud Dataflow 部署批量数据处理流水线流式数据处理流水线

Apache Beam SDK 是一个开源编程模型,既可用于开发批处理流水线,又可用于开发流处理流水线。您可以使用 Apache Beam 程序创建流水线,然后在 Cloud Dataflow 服务上运行这些流水线。Apache Beam 文档提供了有关 Apache Beam 编程模型、SDK 和其他运行程序的深入概念信息和参考资料。

  • 开发速度更快,管理更方便

  • 加速批处理流水线和流处理流水线的开发

Cloud Dataflow 支持使用表达能力出色的 SQL 和 Apache Beam SDK中的 Java 与 Python API 实现简单快速的流水线开发。该 SDK 提供了一组丰富的数据截取和会话分析基本功能,以及一个包含众多源连接器与接收器连接器的生态系统。此外,得益于 Beam 独特而统一的开发模型,您可以跨流处理流水线和批处理流水线复用更多代码。

  • 简化运营和管理

GCP 的无服务器方案减免了运营开销,同时可自动处理性能、规模、可用性、安全性和合规性方面的问题,因此用户可专注于编程,而不用去管理服务器集群。借助与 Stackdriver(GCP 的统一日志记录和监控解决方案)的集成,您可以在流水线运行时对其进行监控和问题排查。丰富的可视化、日志记录和高级提醒功能可帮助您发现和处理潜在的问题

  • 为机器学习夯实基础

将 Cloud Dataflow 用作一个方便的集成点,通过 Google Cloud 的 AI PlatformTensorFlow Extended (TFX) 将预测分析功能融入到检测、实时个性化和更多类似的使用情形中。TFX 使用 Cloud Dataflow 和 Apache Beam 作为分布式数据处理引擎,进而实现机器学习生命周期的诸多方面。

  • 使用您喜爱和熟悉的工具

Cloud Dataflow 与 GCP 服务无缝集成,可实现流式事件提取 (Cloud Pub/Sub)、数据仓储 (BigQuery) 和机器学习 (Cloud AI Platform) 等。借助其基于 Beam 的 SDK,开发者还可构建自定义扩展功能,甚至选择使用 Apache Spark 等替代执行引擎。Apache Kafka 用户可使用 Dataflow 连接器轻松与 GCP 集成

使用 Cloud Dataflow 进行数据转换

入门

编程只支持java和python

这里给的示例是wordcount,这个东西不但有输入输出,还有中间处理的能力。

这个演示了从pub/sub topic 里消费数据,存入bigtable中

Last updated

Was this helpful?