缺德加冒烟
Untitled
如何快速查找使用示例
比如某个spark config,可以用spark.sql.shuffle.partitions + github 的方式搜索
Untitled
https://github.com/imarvinle/awesome-cs-books
| 1 | Safari账号 | 知名技术出版社O’Reilly运营的电子书平台,有超过4万种技术和管理英文电子,还有众多学习视频等 | https://www.safaribooksonline.com/home/ | Safari:账号:yizhang37@acm.orgACM登录信息:账号:library1@meituan.com密码:mit12345 | Safari操作手册 |
| 2 | ACM Library | 学术期刊 | https://dl.acm.org/ | 账号:library1@meituan.com密码:mit123456 | ACM Library使用手册 |
| 3 | IEEE CS Library | 学术期刊 | https://www.computer.org/csdl | 账号:library1@meituan.com密码:mit12345 | |
| 4 | CCF会员 | 中国计算机学会的期刊、视频资源 | http://dl.ccf.org.cn/index.html | 账号:library1@meituan.com密码:mit12345到2018年12月31日 | |
| 5 | 哈佛商业评论网站 | 订阅:http://shop.caijingmobile.com/product/view/id/341网站:http://www.hbrchina.org/ | 账号:library1@meituan.com 密码:mit123452019.06.14 - 2020.06.14 | ||
| 6 | 知网 | 学术期刊 | http://www.cnki.net/ | 账号:library1@meituan.com密码:mitmitmit没有时长和会员限制,充值,0.5元/页 | |
| 7 | 极客时间 | 在线专栏 | https://km.sankuai.com/page/109336610 | 账号1:18210016864密码1:mit12345到2019年08月04日账号2:18612256271密码2:mit12345到2020年02月19日为了避免被踢,可以使用极客时间小程序,亲测不会被踢~操作步骤:微信搜索【极客时间】小程序 - 我 - 登录 | 07 极客时间使用手册 |
| 8 | 华章电子书库 | 电子书及在线课程 | 华章电子书使用手册 |
https://0x0fff.com/spark-architecture/
https://blog.cloudera.com/how-to-tune-your-apache-spark-jobs-part-2/
腾讯视频
Web Doc
大数据
- 云服务大数据文档(AWS、Azure、Google Cloud)
- 同上(Documentation、Blog、Research等)
- 程序员
- waitingfor{code}.com
- databricks
Tools
Untitled
streaming流程中 partition or task数量是如何变化的
kafka offset如何查看
kafka earlist 真的是从最早的吗,还是从被消费掉的数据开始
kafka消费组问题
怎么验证eventhub在不同consumer group中是分别获取的数据
eventhub jar包使用报错,虽然打包到application jar里
spark 程序中的class 为什么需要序列化
sparkSession sparkContext sparkContext中不包含sparkSession的config信息
将kafkaProducer broadcast 遇到 can’t serilize lamda 的问题
2021-08-19T15:34:18.109Z 型字符串的理解与解析
spark提交任务需要时间, 间隔短的batch任务就不适合,会受到严重影响
同样的任务,根据参数选择不同的输入路径,将数据传输到kafka,其中a
a的任务,基本可以保证每分钟提交,b、c都要3-4分钟提交一次,a的量比线上要大几倍(但这可能是写入到cosmos数据就多了的原因),可是数据量大,还可以很快的提交Thread.sleep(sleepMillisecond) 在driver上执行有什么影响
为什么protobuf解析出问题了
为什么读eventhub有receiver问题
任务执行任务过长,导致平均写入的文件少,无法复现throttling
spark streaming是如何确认开始处理一批数据的? 使用线上的数据每批就很少,测试数据每批就很大。当然测试数据没有线上数据输入的平滑
driver的日志为什么只打印出了系统的info,程序里的info没有打印
怎么查看azure的data center
20 structured streaming partition executor task executor-core 关系
https://blog.csdn.net/mzqadl/article/details/104217828
21.spark写文件的request请求
org.apache.kafka.common.errors.TimeoutException: Expiring for has passed since batch creation
spark.locality.wait
repartition() vs coalesce()
https://stackoverflow.com/questions/31610971/spark-repartition-vs-coalesce
How to optimize number of executor instances in spark structured streaming app?
sleep 是否会占用CPU
https://blog.csdn.net/weixin_41960204/article/details/106785986
https://www.cnblogs.com/yu6688/p/14443104.html
structured streaming 与 kafka
https://spark.apache.org/docs/2.3.0/structured-streaming-kafka-integration.html
https://www.cnblogs.com/yyy-blog/p/12753924.html
解决问题方法论
对问题列checklist
https://github.com/Azure/azure-event-hubs-for-kafka/issues/35
markdown语法
[toc]
参考资料
全部数学符号 https://katex.org/docs/supported.html
https://www.cnblogs.com/caomingpei/p/9760652.html
数学公式
inline math:$x^{y^z}=(1+e^x)^{-2xy^w}$
block math:
1 | \frac{7x+5}{1+y^2} |
$$
\mathbf{V}_1 \times \mathbf{V}_2 = \begin{vmatrix}
\mathbf{i} & \mathbf{j} & \mathbf{k} \
\frac{\partial X}{\partial u} & \frac{\partial Y}{\partial u} & 0 \
\frac{\partial X}{\partial v} & \frac{\partial Y}{\partial v} & 0 \
\end{vmatrix}
${$tep1}{\style{visibility:hidden}{(x+1)(x+1)}}
$$
文本
上下标
- 上标:n^2^
- 下标:n
2
颜色
Markdown文字添加颜色方法总结(珍藏)
MarkDown: 为字体添加颜色
包含rgb
1 | 方法一: |
背景色
1 | <table><tr><td bgcolor=orange> 背景色是 1 orange</td></tr></table> |
表格
| 表头 | 表头 |
|---|---|
| 单元格 | 单元格 |
| 单元格 | 单元格 |
流程图
1 | graph TD |
下面是通过html语法完成的,非markdown自带功能
改变文字样式
改变文字的大小、颜色和对齐方式
自定义表格样式
| 文件状态:
[√] 草稿 [√] 正在修改 [√] 正式发布 |
文件名称: | LSGO股票交易策略分析软件 Use Case Model |
| 当前版本: | 1.0.0 | |
| 作 者: | 马燕鹏 | |
| 创建日期: | 2018-07-15 | |
| 最后更新: | ||
| 密 级: | 开源系统 | |
| 版权说明: | 遵守 GPL V3协议 |
折叠内容
explode 与 lateral view 对比
select user_coupon_id, explode(split('0,1', ',')) as tag
from mart_waimai.aggr_act_ord_use_coupon_dd
where dt='20200920'
limit 10
html特殊字符及图标
后加”;”生效
参考资料
通用
- 完整整理版
- 流程图详细教程
- 编辑数学公式
- Markdown 高级技巧
- markdown语法
- Markdown进阶(更改字体、颜色、大小,设置文字背景色,调整图片大小设置居中)
- Markdown 技巧:如何改变表格宽度(列宽)?
hexo
markdown工具
极客时间下载
https://jachinlin.github.io/geektime_dl/intro.html#%E9%A1%B9%E7%9B%AE%E7%BB%93%E6%9E%84
https://github.com/mmzou/geektime-dl
可以注释掉生成kindle的代码,因为生成的是老版本kindle,没什么用
convert -resize 1000x1000 -quality 100% /Users/cjq/资料/极客时间/13059daa26b391d55e4dc357124b51df-1621254162.png /Users/cjq/资料/极客时间/13059daa26b391d55e4dc357124b51df-1621254162.png
专业
vertices allocated
Cosmos08 bad machine has too many vertices allocated
cosms08坏机器分配了太多的顶点
- International Organization for Standardization (ISO).
- Service Organization Controls (SOC).
- National Institute of Standards and Technology (NIST).
- Federal Risk and Authorization Management Program (FedRAMP).
交流
达成协议
Last time, we reached an agreement on increasing the traffic from 1% to 10%.
不胜感激
So, it would be appreciated if you can increase the traffic soon.
寒暄
I hope this email finds you well!
If you have any question, feel free to let me know.
现在有紧急事情,约明天的某个时间
let’s find some time maybe tomorrow, since some urgent items now.
Please help share your ideas due to my limit experience and knowledge.
Let’s make our big-loop DRI easier together, help others and yourself
是否有问题
Let me know if have any problem or concern.
我不知道问题出在哪儿
I don’t know what the problem is.
请帮忙调查原因
please help to investigate [further].
我当前工作很忙,请给我一点儿时间
Hi team, I’m under too much workload, please give me some time to provide you further update. Thanks for your patience. I will provide a further update within 2 hrs.
有多大的可能
How much more likely
It works for me. 我无所谓,我赞成,我没问题。
Poor connection, I am disconnected 连接不好导致我失去连接
请求帮助
我遇到一些问题
- 口语表达:I got/have/meet a problem.
- 书面表达:I encountered(或run into 遇到)a problem.
请帮忙解决下这个问题
Please help me out with this problem.
请帮忙看下这个问题
Please help me look at this problem.
额外信息
邮件更改描述
Spinning off thread and changing name. Dropping a bunch of people to not overload with details.
邀请
Please kindly be invited to join the STCA WebXT Data All hands meeting on 4/26 (Tue) 14:00-15:30.
邮件
结尾
“公用”邮件结尾
1、 Regards / Best Regards(BR)“真挚问候”,这是最广为使用的商务邮件结尾,如果你第一次给对方写信,用这个就行了。
2、Sincerely / Sincerely Yours / Yours Sincerely“鄙人敬上”,适用性广。教科书一般都会教你用这个,但同时也造成了过度频繁使用的问题。
3、Cordially“热忱问候”,虽然看上去是这样的意思,但是这个结尾多用在比较严肃的信件中,甚至能用在有“对抗情绪”的信件里。
“公私”皆可邮件结尾
1、Yours / Yours Truly / Truly**“忠实于你”,**这种结尾比较私人化,不过也很讲礼貌,同样可用于商务邮件,在互相认识的人之间使用。
2、 Best / Best Wishes“衷心祝愿”,这个不仅可以写给朋友,还可以写给陌生人,是比较轻松的礼貌结尾,也可用于商务邮件。
“私用”邮件结尾
1、 Love “爱你的”,这个结尾富有情感,适合在给爱人、家人及密友之间的私人信件中作为结尾。
2、 Cheers “欢欣鼓舞”,在朋友和关系较熟的同事之间使用,就像平常打招呼一样轻松随意
3、 Take care“保重身体”,在朋友之间使用,可以表示对对方的关怀。
4、 Thanks / Thank You“表示谢意”,如果你在信中请求别人做事或帮助你的话,就可以写这个结尾。其中“Thanks”比较随意,“Thank You”比较正式。
附件
Please refer to attached BI & AML notification and join corresponding mail group.
sample
1 | MZ on cosmos08 has issued and delay, there is no ETA now. |
参考资料
示例
原则
单词收集
Untitled
Hi Patrick Chen, we have outputted several hours of data to cosmos, which were based on historical data in 2021/10/13. You may use it temporarily. The online data will be ready soon.