在我用了又一个小时的时间去温习sqlchemy丰富的文档后,我放弃治疗了。
我的智商还是适合比较简单的幼儿化的Python库,于是我转向Peewee了。
定义Model
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|
创建
1 2 |
|
保存
1 2 3 |
|
批量插入
1 2 3 4 5 6 7 8 |
|
查询
1 2 |
|
关闭
1
|
|
在我用了又一个小时的时间去温习sqlchemy丰富的文档后,我放弃治疗了。
我的智商还是适合比较简单的幼儿化的Python库,于是我转向Peewee了。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|
1 2 |
|
1 2 3 |
|
1 2 3 4 5 6 7 8 |
|
1 2 |
|
1
|
|
1 2 3 4 5 6 7 |
|
1 2 3 4 5 6 7 |
|
看了一遍 《Becoming Warren Buffett》 这部纪录片。
印象里巴菲特总是与成功学书籍联系在一起,作为股神,他的公司Berkshire Hathaway的股票价格达到了近$300,000一股,实在是让人叹为观止。
后来有时间仔仔细细读了他每年致股东的信,距离一下子拉近了,他确实是个不凡的人。
巴菲特不同于一般的投机者,他是一个受人尊敬的人。人们尊敬他,并不仅仅是因为他的富有:
大部分人一辈子也不明白自己到底喜欢做什么,就这样浑浑噩噩一生过去了。
早早找到自己喜欢做的事情,才能拥有充实的人生。
当你发现自己内心深处的期望后,要有勇气去克服困难,并尽一切努力去追寻它,守护它;
全世界只有你最了解自己想要什么,在这一方面,其他任何人的意见都不值得参考;
也许你说这是一种固执,但是如果你有了信念,不要轻易动摇,用你的一生或者半生去实践这个信念。
所谓信念,就是值得你赌上一生去判断对错的东西。
人在生物学上就是一种短视的动物,早在人类初期,生存环境恶劣,那时候的人类不得不把大部分精力放在眼前。筹划未来是一种负担,因为你不知道明天会发生什么,自己能不能活下去。
随着科技水平的提高,人们的寿命也不断提高,但是”只顾眼前”是刻在人类进化的基因里面的,不会轻易改变。所以人们今晚做出的决定,明天又会被自己轻易否决。
人们焦虑的追逐时间却往往没有所得,基因诱使我们焦虑。让我们短视,急于求成。
只有那些真正把握信念的人才能不为所动,巴菲特就是其中的佼佼者。
让我们记住 “不为所动”,耐心
是需要人类不断锻炼自己才能拿到的美德。
他从一而终的守护自己的观点,并实践终身。就像是运动员不断超越极限,我们看到一个自律的人究竟能达到什么样的高度,这份了不起的坚守打动了我们。
有时候需要压缩文件的时候同时分割一下:
1
|
|
还原:
1
|
|
以下全是个人偏见,记录下看看将来会不会有所成长。
中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏。以下为在下处理中文标点的时候采用的两种方法:
有很多时候,处理一个大文件,常规命令并不能很好的利用多核
sort -uo 一个1T的文件,让最高配的google cloud instance (48 core/512G)崩溃了~~~,可惜了我的$30,白白跑了那么长时间~~~
网上搜索都是how to sort a big file,那我这个属于very very very big big big file了~~
不管是并行也好,管道也好,用了各种奇技淫巧就是敌不过人家 very very big~
不要跟我谈什么外排,归并,位图,bloom filter,redis hash去重,我就是不想折腾,最后只有分割手动外排搞定~~
1 2 3 4 5 |
|
如果只要去重不要排序的话,尽量不要用 sort -u或者sort | uniq,这个是nLog(n)的效率,让人捉急。 |
可以利用awk的数组是内存hash表的特性,直接awk来做,前提是你内存够大,瞎估估需要十倍于数据的内存吧:
1
|
|
我后来又看了一下GNU Sort的实现描述,它说已经用了外排了,但是实际使用还是不给力,暂时迷惑中
两个大文件,a.txt和b.txt两个文件的数据都是逐行呈现的, 如何求他们的交集、并集和差集。
用sort+uniq直接搞定:
1 2 3 |
|
1
|
|
1 2 3 |
|
grep 一个100GB的文件总是很有压力,怎么才能提速呢?
1
|
|
LC_ALL=C
比LC_ALL=UTF-8
要块
不需要正则的话,用fgrep可以提速
1
|
|
使用parallel ,和不使用parallel直接grep。结果显而易见,相差 20 倍。这比用啥 ack,ag优化效果明显多了
1 2 3 4 5 |
|
这一条xargs把每个echo的数作为参数传给sleep ,所以一共sleep了 1+2+3+4+5=15秒。
如果使用 -P 参数分给5个核,每个核各sleep 1,2,3,4,5秒,所以执行完之后总共sleep的5秒。
1 2 3 4 5 |
|
https://www.jianshu.com/p/c5a2369fa613