目前使用带有 Python 的 Google Dataflow 进行批处理。这工作正常,但是,我有兴趣在不必处理 Java 的情况下从我的数据流作业中获得更快的速度。

textio.Read

当我运行管道时,我可以从日志中看到文件是串行读取的,而不是并行读取的,因此作业需要更长的时间。使用 Python SDK 执行的相同过程会触发自动缩放并在几分钟内运行多次读取。

--num_workers=
textio.Read

我知道当前的 Go SDK 是实验性的并且缺少许多功能,但是,我没有在此处找到对并行处理限制的直接参考。Go SDK 的当前版本是否支持 Dataflow 上的并行处理?

提前致谢