streaming流程中 partition or task数量是如何变化的
kafka offset如何查看
kafka earlist 真的是从最早的吗,还是从被消费掉的数据开始
kafka消费组问题
怎么验证eventhub在不同consumer group中是分别获取的数据
eventhub jar包使用报错,虽然打包到application jar里
spark 程序中的class 为什么需要序列化
sparkSession sparkContext sparkContext中不包含sparkSession的config信息
将kafkaProducer broadcast 遇到 can’t serilize lamda 的问题
2021-08-19T15:34:18.109Z 型字符串的理解与解析
spark提交任务需要时间, 间隔短的batch任务就不适合,会受到严重影响
同样的任务,根据参数选择不同的输入路径,将数据传输到kafka,其中a
a的任务,基本可以保证每分钟提交,b、c都要3-4分钟提交一次,a的量比线上要大几倍(但这可能是写入到cosmos数据就多了的原因),可是数据量大,还可以很快的提交Thread.sleep(sleepMillisecond) 在driver上执行有什么影响
为什么protobuf解析出问题了
为什么读eventhub有receiver问题
任务执行任务过长,导致平均写入的文件少,无法复现throttling
spark streaming是如何确认开始处理一批数据的? 使用线上的数据每批就很少,测试数据每批就很大。当然测试数据没有线上数据输入的平滑
driver的日志为什么只打印出了系统的info,程序里的info没有打印
怎么查看azure的data center
20 structured streaming partition executor task executor-core 关系
https://blog.csdn.net/mzqadl/article/details/104217828
21.spark写文件的request请求
org.apache.kafka.common.errors.TimeoutException: Expiring for has passed since batch creation
spark.locality.wait
repartition() vs coalesce()
https://stackoverflow.com/questions/31610971/spark-repartition-vs-coalesce
How to optimize number of executor instances in spark structured streaming app?
sleep 是否会占用CPU
https://blog.csdn.net/weixin_41960204/article/details/106785986
https://www.cnblogs.com/yu6688/p/14443104.html
structured streaming 与 kafka
https://spark.apache.org/docs/2.3.0/structured-streaming-kafka-integration.html
https://www.cnblogs.com/yyy-blog/p/12753924.html
解决问题方法论
对问题列checklist
https://github.com/Azure/azure-event-hubs-for-kafka/issues/35