入门
Last updated
Was this helpful?
Last updated
Was this helpful?
Cloud Dataflow 是一种用于执行各种数据处理模式的托管式服务。
如何使用 Cloud Dataflow 部署批量数据处理流水线和流式数据处理流水线。
Apache Beam SDK 是一个开源编程模型,既可用于开发批处理流水线,又可用于开发流处理流水线。您可以使用 Apache Beam 程序创建流水线,然后在 Cloud Dataflow 服务上运行这些流水线。提供了有关 Apache Beam 编程模型、SDK 和其他运行程序的深入概念信息和参考资料。
开发速度更快,管理更方便
加速批处理流水线和流处理流水线的开发
Cloud Dataflow 支持使用表达能力出色的 SQL 和 中的 Java 与 Python API 实现简单快速的流水线开发。该 SDK 提供了一组丰富的数据截取和会话分析基本功能,以及一个包含众多源连接器与接收器连接器的。此外,得益于 Beam 独特而统一的开发模型,您可以跨流水线和批处理流水线复用更多代码。
简化运营和管理
GCP 的无服务器方案减免了运营开销,同时可自动处理性能、规模、可用性、安全性和合规性方面的问题,因此用户可专注于编程,而不用去管理服务器集群。借助与 (GCP 的统一日志记录和监控解决方案)的集成,您可以在流水线运行时对其进行监控和问题排查。丰富的可视化、日志记录和高级提醒功能可帮助您发现和处理潜在的问题
为机器学习夯实基础
将 Cloud Dataflow 用作一个方便的集成点,通过 Google Cloud 的 和 将预测分析功能融入到检测、实时个性化和更多类似的使用情形中。TFX 使用 Cloud Dataflow 和 Apache Beam 作为分布式数据处理引擎,进而实现机器学习生命周期的诸多方面。
使用您喜爱和熟悉的工具
Cloud Dataflow 与 GCP 服务无缝集成,可实现流式事件提取 ()、数据仓储 () 和机器学习 () 等。借助其基于 Beam 的 SDK,开发者还可构建自定义扩展功能,甚至选择使用 Apache Spark 等替代执行引擎。Apache Kafka 用户可使用 Dataflow 连接器。
编程只支持java和python
这里给的示例是wordcount,这个东西不但有输入输出,还有中间处理的能力。
这个演示了从pub/sub topic 里消费数据,存入bigtable中