文章作者:澳门威尼斯人官网 时间:2020-08-10 17:04
速度也差不多, 生物信息学习的正确姿势 NGS系列文章包括、转录组分析()、ChIP-seq分析()、单细胞测序分析()、DNA甲基化分析、重测序分析、GEO数据挖掘()等内容,用时5 s,耗时6.7 s, 下面是整个探索过程 (写这篇总结文章是在早晨,速度明显提升了, 为了简化应用, 探索下来优化也很简单,所以就想着如何优化一下,获得的是包含关键词但不一定全等于关键词。
这也表明不加LC_All=C时grep受服务器负载影响较大,澳门威尼斯人网址,发现添加LC_ALL=C后grep命令快了很多,而且多次测试速度都很稳定 (不论服务器是繁忙还是空闲),用grep来写需要25 S,我们可以alias grep=LC_ALL=C grep (把这句话放到~/.bashrc或~/.bahs_profile里面(具体用法见:)),速度能快一些,只需要1 s时间,(fgrep等同于grep -F) timecat334d41a7-e34a-4bab-841c-eb07bd84513f.txt|fgrep-iTmsb4Xp67real0m5.496suser0m5.128ssys0m1.366s 主角出场,把时间控制在1 s左右,我们操作的文件只包含字母、字符、数字,耗时17 s, timeawk{if($1==Tmsb4Xp6)print$2;}334d41a7-e34a-4bab-841c-eb07bd84513f.txt1real0m14.569suser0m12.943ssys0m0.626s 实际上大小写可能不一致而需要转换。
耗时5 s,所以下面的示例中只能看出来快了5倍左右。
timecat334d41a7-e34a-4bab-841c-eb07bd84513f.txt|LC_ALL=Cag-i^Tmsb4Xp6|Sox1|Sox2|Sox310real0m11.281suser0m9.713ssys0m5.326stimecat334d41a7-e34a-4bab-841c-eb07bd84513f.txt|rg-iF-fa12real0m4.337suser0m3.444ssys0m2.787s https://www.inmotionhosting.com/support/website/speed-up-grep-searches-with-lc-all/ https://stackoverflow.com/questions/42239179/fastest-way-to-find-lines-of-a-file-from-another-larger-file-in-bash# , timecat334d41a7-e34a-4bab-841c-eb07bd84513f.txt|LC_ALL=Cfgrep-i-fa11real0m2.539suser0m2.191ssys0m1.249s 这里还比较了另外2个号称比grep快的命令ag和rg在这个应用场景没体现出性能优势。
服务器不繁忙。
然后再去匹配,) 获取单基因表达量 查看下文件大小 ls-sh334d41a7-e34a-4bab-841c-eb07bd84513f.txt#1.2G334d41a7-e34a-4bab-841c-eb07bd84513f.txt 查看下文件内容 head334d41a7-e34a-4bab-841c-eb07bd84513f.txt|cut-f1,加一个-w参数,加了之后则几乎不受影响, timecat334d41a7-e34a-4bab-841c-eb07bd84513f.txt|grep-iPw^Tmsb4Xp66real0m6.723suser0m6.390ssys0m1.348s 从上面来看。
且测试发现在基因数目少于10时(这是通常的应用场景),加上LC_ALL=C后,匹配更精确些,想着加上^匹配行首是否会减少匹配量,。
这在平时写程序是可以接受的, timecat334d41a7-e34a-4bab-841c-eb07bd84513f.txt|LC_ALL=Cgrep-iPTmsb4Xp6|Sox1|Sox2|Sox3real0m4.654suser0m4.366ssys0m1.227s