Google云产品
  • Introduction
  • google cloud
    • Cloud Functions
    • Pub / Sub
      • 资料
    • Cloud Storage
      • gsutil 挂载工具
    • Cloud Dataflow
      • 入门
      • 创建和运行模板
      • Apache Beam
        • 介绍
        • Apache Beam SDK 的流水线基础知识
    • BigQuery
      • 入门
      • 运行和管理作业
      • 数据集操作
      • 处理表架构(表字段的修改)
      • 处理表
      • 使用分区表
      • 资料
      • php代码
    • 常用
  • Cloudinary
Powered by GitBook
On this page
  • Cloud Dataflow介绍
  • 入门
  • 使用 Java 和 Apache Maven
  • 使用模板

Was this helpful?

  1. google cloud
  2. Cloud Dataflow

入门

PreviousCloud DataflowNext创建和运行模板

Last updated 5 years ago

Was this helpful?

Cloud Dataflow介绍

Cloud Dataflow 是一种用于执行各种数据处理模式的托管式服务。

如何使用 Cloud Dataflow 部署批量数据处理流水线和流式数据处理流水线。

Apache Beam SDK 是一个开源编程模型,既可用于开发批处理流水线,又可用于开发流处理流水线。您可以使用 Apache Beam 程序创建流水线,然后在 Cloud Dataflow 服务上运行这些流水线。提供了有关 Apache Beam 编程模型、SDK 和其他运行程序的深入概念信息和参考资料。

  • 开发速度更快,管理更方便

  • 加速批处理流水线和流处理流水线的开发

Cloud Dataflow 支持使用表达能力出色的 SQL 和 中的 Java 与 Python API 实现简单快速的流水线开发。该 SDK 提供了一组丰富的数据截取和会话分析基本功能,以及一个包含众多源连接器与接收器连接器的。此外,得益于 Beam 独特而统一的开发模型,您可以跨流水线和批处理流水线复用更多代码。

  • 简化运营和管理

GCP 的无服务器方案减免了运营开销,同时可自动处理性能、规模、可用性、安全性和合规性方面的问题,因此用户可专注于编程,而不用去管理服务器集群。借助与 (GCP 的统一日志记录和监控解决方案)的集成,您可以在流水线运行时对其进行监控和问题排查。丰富的可视化、日志记录和高级提醒功能可帮助您发现和处理潜在的问题

  • 为机器学习夯实基础

将 Cloud Dataflow 用作一个方便的集成点,通过 Google Cloud 的 和 将预测分析功能融入到检测、实时个性化和更多类似的使用情形中。TFX 使用 Cloud Dataflow 和 Apache Beam 作为分布式数据处理引擎,进而实现机器学习生命周期的诸多方面。

  • 使用您喜爱和熟悉的工具

Cloud Dataflow 与 GCP 服务无缝集成,可实现流式事件提取 ()、数据仓储 () 和机器学习 () 等。借助其基于 Beam 的 SDK,开发者还可构建自定义扩展功能,甚至选择使用 Apache Spark 等替代执行引擎。Apache Kafka 用户可使用 Dataflow 连接器。

入门

编程只支持java和python

这里给的示例是wordcount,这个东西不但有输入输出,还有中间处理的能力。

这个演示了从pub/sub topic 里消费数据,存入bigtable中

使用 Java 和 Apache Maven
使用 Python
使用模板
使用 Java 和 Eclipse
使用 Java 和 Apache Maven
使用模板
Apache Beam 文档
Apache Beam SDK
生态系统
流处理
Stackdriver
AI Platform
TensorFlow Extended (TFX)
Cloud Pub/Sub
BigQuery
Cloud AI Platform
轻松与 GCP 集成
使用 Cloud Dataflow 进行数据转换