生而为人

程序员的自我修养

0%

  1. streaming流程中 partition or task数量是如何变化的

  2. kafka offset如何查看

  3. kafka earlist 真的是从最早的吗,还是从被消费掉的数据开始

  4. kafka消费组问题

  5. 怎么验证eventhub在不同consumer group中是分别获取的数据

  6. eventhub jar包使用报错,虽然打包到application jar里

  7. spark 程序中的class 为什么需要序列化

  8. sparkSession sparkContext sparkContext中不包含sparkSession的config信息

  9. 将kafkaProducer broadcast 遇到 can’t serilize lamda 的问题

  10. 2021-08-19T15:34:18.109Z 型字符串的理解与解析

  11. spark提交任务需要时间, 间隔短的batch任务就不适合,会受到严重影响

  12. 同样的任务,根据参数选择不同的输入路径,将数据传输到kafka,其中a
    a的任务,基本可以保证每分钟提交,b、c都要3-4分钟提交一次,a的量比线上要大几倍(但这可能是写入到cosmos数据就多了的原因),可是数据量大,还可以很快的提交

  13. Thread.sleep(sleepMillisecond) 在driver上执行有什么影响

  14. 为什么protobuf解析出问题了

  15. 为什么读eventhub有receiver问题

  16. 任务执行任务过长,导致平均写入的文件少,无法复现throttling

  17. spark streaming是如何确认开始处理一批数据的? 使用线上的数据每批就很少,测试数据每批就很大。当然测试数据没有线上数据输入的平滑

  18. driver的日志为什么只打印出了系统的info,程序里的info没有打印

  19. 怎么查看azure的data center

20 structured streaming partition executor task executor-core 关系
https://blog.csdn.net/mzqadl/article/details/104217828

21.spark写文件的request请求

org.apache.kafka.common.errors.TimeoutException: Expiring for has passed since batch creation

spark.locality.wait

repartition() vs coalesce()
https://stackoverflow.com/questions/31610971/spark-repartition-vs-coalesce

How to optimize number of executor instances in spark structured streaming app?

sleep 是否会占用CPU
https://blog.csdn.net/weixin_41960204/article/details/106785986
https://www.cnblogs.com/yu6688/p/14443104.html

structured streaming 与 kafka
https://spark.apache.org/docs/2.3.0/structured-streaming-kafka-integration.html
https://www.cnblogs.com/yyy-blog/p/12753924.html

解决问题方法论
对问题列checklist
https://github.com/Azure/azure-event-hubs-for-kafka/issues/35