| 生而为人

streaming流程中 partition or task数量是如何变化的
kafka offset如何查看
kafka earlist 真的是从最早的吗，还是从被消费掉的数据开始
kafka消费组问题
怎么验证eventhub在不同consumer group中是分别获取的数据
eventhub jar包使用报错，虽然打包到application jar里
spark 程序中的class 为什么需要序列化
sparkSession sparkContext sparkContext中不包含sparkSession的config信息
将kafkaProducer broadcast 遇到 can’t serilize lamda 的问题
2021-08-19T15:34:18.109Z 型字符串的理解与解析
spark提交任务需要时间, 间隔短的batch任务就不适合，会受到严重影响
同样的任务，根据参数选择不同的输入路径，将数据传输到kafka，其中a
a的任务，基本可以保证每分钟提交，b、c都要3-4分钟提交一次，a的量比线上要大几倍（但这可能是写入到cosmos数据就多了的原因），可是数据量大，还可以很快的提交
Thread.sleep(sleepMillisecond) 在driver上执行有什么影响
为什么protobuf解析出问题了
为什么读eventhub有receiver问题
任务执行任务过长，导致平均写入的文件少，无法复现throttling
spark streaming是如何确认开始处理一批数据的？使用线上的数据每批就很少，测试数据每批就很大。当然测试数据没有线上数据输入的平滑
driver的日志为什么只打印出了系统的info，程序里的info没有打印
怎么查看azure的data center

20 structured streaming partition executor task executor-core 关系
https://blog.csdn.net/mzqadl/article/details/104217828

21.spark写文件的request请求

org.apache.kafka.common.errors.TimeoutException: Expiring for has passed since batch creation

spark.locality.wait

How to optimize number of executor instances in spark structured streaming app?