指数ETF漫谈

May 15th, 2018 | Comments

以下全是个人偏见，记录下看看将来会不会有所成长。

散户跑赢市场的唯一机会就是指数基金

Python处理中文标点符号

May 14th, 2018 | Comments

中文文本中可能出现的标点符号来源比较复杂，通过匹配等手段对他们处理的时候需要格外小心，防止遗漏。以下为在下处理中文标点的时候采用的两种方法:

How to Improve Performance Your Cmd by Parallel

May 6th, 2018 | Comments

有很多时候，处理一个大文件，常规命令并不能很好的利用多核

How to Sort a Very Very Very Big File

May 3rd, 2018 | Comments

sort -uo 一个1T的文件，让最高配的google cloud instance (48 core/512G)崩溃了~~~，可惜了我的$30，白白跑了那么长时间~~~

网上搜索都是how to sort a big file，那我这个属于very very very big big big file了~~

不管是并行也好，管道也好，用了各种奇技淫巧就是敌不过人家 very very big~

不要跟我谈什么外排，归并，位图，bloom filter，redis hash去重，我就是不想折腾，最后只有分割手动外排搞定~~

把大象装进冰箱分为几步？

三步:

split -l 1000000000 huge-file small-chunk

for X in small-chunk*; do sort -u < $X > sorted-$X; done

sort -u -m sorted-small-chunk* > sorted-huge-file && rm -rf small-chunk* sorted-small-chunk*

小TIPS:

如果只要去重不要排序的话，尽量不要用 sort -u或者sort

uniq，这个是nLog(n)的效率，让人捉急。

可以利用awk的数组是内存hash表的特性，直接awk来做，前提是你内存够大，瞎估估需要十倍于数据的内存吧:

cat xxxxx zzz | awk '{ if (!seen[$0]++) { print $0; } }' > xxx_zzz.uniq.txt

PS:

我后来又看了一下GNU Sort的实现描述，它说已经用了外排了，但是实际使用还是不给力，暂时迷惑中

How to Get Intersection of Two Big Files

May 1st, 2018 | Comments

两个大文件，a.txt和b.txt两个文件的数据都是逐行呈现的，如何求他们的交集、并集和差集。

用sort+uniq直接搞定:

交集

$ sort a.txt | uniq > aa.txt
$ sort b.txt | uniq > bb.txt
$ cat aa.txt bb.txt | sort | uniq -d

并集

cat a.txt b.txt | sort | uniq

差集

$ sort a.txt | uniq > aa.txt
$ sort b.txt | uniq > bb.txt
$ cat aa.txt bb.txt bb.txt | sort | uniq -u

在开搞 bloom filter或者bitmap 或者grep -f之前可以先组合工具来一个

How to Parallel All Cmds for Linux

May 1st, 2018 | Comments

grep 一个100GB的文件总是很有压力，怎么才能提速呢?

瞎优化

LC_ALL=C fgrep -A 5 -B 5 'xxxxx.password' allpassseed.txt

LC_ALL=C比LC_ALL=UTF-8要块
不需要正则的话，用fgrep可以提速

不过这样优化总是治标不治本，下面隆重推出linux 里面parallel all cmds的perl工具

cat allpassseed.txt |parallel  --pipe  --no-notice grep -f xxxxx.password

使用parallel ，和不使用parallel直接grep。结果显而易见，相差 20 倍。这比用啥 ack，ag优化效果明显多了

xargs也有一个-n的多核选项，可以作为备用

$ time echo {1..5} |xargs -n 1  sleep

real    0m15.005s
user    0m0.000s
sys 0m0.000s

这一条xargs把每个echo的数作为参数传给sleep ，所以一共sleep了 1+2+3+4+5=15秒。

如果使用 -P 参数分给5个核，每个核各sleep 1,2,3,4,5秒，所以执行完之后总共sleep的5秒。

$ time echo {1..5} |xargs -n 1 -P 5 sleep

real    0m5.003s
user    0m0.000s
sys 0m0.000s

引自:

https://www.jianshu.com/p/c5a2369fa613

How to Calling Multiple Commands Through Xargs

May 1st, 2018 | Comments

有时候想在xargs后面接多条命令，这个时候直接加;是不行的，要这样做:

cat a.txt | xargs -I@  sh -c 'command1; command2; ...'

How to Compress All Find Files to Single Line Argv

Apr 30th, 2018 | Comments

有时候find的所有文件要合并为一个argv管道到一个命令里面:

find /path/to/directory/ -name *.csv -print0 | xargs -0 -I file cat file > merged.file

How to Sort Big Files

Apr 27th, 2018 | Comments

在linux要排序一个100G的文件，压力比较大

并行解决之:

sort -S 50% --parallel=2 -uo list-sorted.txt list.txt

注意这一招在管道里面行不通，所以要用管道的话一定要先重定向到一个文件里面中转一下。

A Strange Bitcoin Transaction

Apr 27th, 2018 | Comments

在之前的谈谈比特币的地址安全问题这篇文章中，我们谈到一个名为”LBC”的项目，这个项目通过暴力碰撞企图打捞到一些什么东西。

令人惊奇的是，他们真的碰到了几个地址。对他们最近发现的4个地址做了一下分析，发现了更让人惊奇的事情。

他们最近的四个发现是:

← Older Blog Archives Newer →

Living a Simple Life is a Happy Life

有饭吃，自由自在，就非常开心

指数ETF漫谈

散户跑赢市场的唯一机会就是指数基金

Python处理中文标点符号

How to Improve Performance Your Cmd by Parallel

How to Sort a Very Very Very Big File

把大象装进冰箱分为几步？

三步:

小TIPS:

PS:

How to Get Intersection of Two Big Files

交集

并集

差集

How to Parallel All Cmds for Linux

瞎优化

不过这样优化总是治标不治本，下面隆重推出linux 里面parallel all cmds的perl工具

xargs也有一个-n的多核选项，可以作为备用

How to Calling Multiple Commands Through Xargs

How to Compress All Find Files to Single Line Argv

How to Sort Big Files

A Strange Bitcoin Transaction