Counting known microRNAs in five easy steps

September 26, 2017

woobamboo

获取一个示例的数据集

获取当前miRBase 的成熟序列

将尿嘧啶转为胸腺嘧啶

通过一行命令搜索并计算：

通过一行命令搜索并计算

Counting known microRNAs in five easy steps

翻译自这里

假设，当你来到这里，你应该是知道microRNAs是什么. 或许有人看过我的演讲UK Next-generation sequencing ,标题为21 ‐ 23 facts; the devil in the detail of microRNA‐Seq. 对于这一小类的RNA, 它们肯定是有很大的影响，现在已有大量的生物信息学工具来处理microRNA 测序数据(microRNA-seq). 然而，基本的工作来数已知的microRNA 是非常的简单的，每个人都能做，只用简单的Unix 技巧（下面使用Novoalign这个很酷的工具）。下面的代码假设你在路径中有Novoalign. 这事怎么做的：

5个小步骤来统计human 中的microRNAs

1. 获取一个示例的数据集

这个数据集来自发表在Genome Research上的人类研究：

Morin RD, O'Connor MD, Griffith M, Kuchenbauer F, Delaney A, Prabhu AL, Zhao Y, McDonald H, Zeng T, Hirst M, Eaves CJ, Marra MA. (2008) Application of massively parallel sequencing to microRNA profiling and discovery in human embryonic stem cells. Genome Res. 18(4):610-21. [link]

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR026/SRR026762/SRR026762.fastq.gz

2. 获取当前miRBase 的成熟序列

wget ftp://mirbase.org/pub/mirbase/CURRENT/mature.fa.gz

3. 只提取human microRNAs, 为了方便，将尿嘧啶转为胸腺嘧啶

zcat  mature.fa.gz | grep -A 1 "^>hsa" | grep -v "^-" | sed 's/U/T/g' > human_mature.fa

4. 创建 Novoalign inde. Novoalign 是免费的，可从http://www.novocraft.com 得到

novoindex human_mature.nidx human_mature.fa

5. 通过一行命令搜索并计算：

novoalign -f SRR026762.fastq.gz -F STDFQ -d human_mature.nidx -l 18 -s 1 -a -R 0 -r Random -t 0 \
                 | grep "^@" | awk '$9 != "" {print $9}' \
                 | sort | uniq -c | sort -n -r > counts.txt

下面看一下结果

head counts.txt
#  126476 >hsa-miR-92a-3p
#  120762 >hsa-miR-103b
#  120576 >hsa-miR-103a-3p
#   62704 >hsa-miR-25-3p
#   53155 >hsa-miR-92b-3p
#   49215 >hsa-miR-372
#   42536 >hsa-miR-378a-3p
#   37287 >hsa-miR-140-3p
#   36178 >hsa-miR-21-5p

文章中的一个结论是『最丰富的miRNA是miR-103 』.

从结果看他们漏掉了一个（我猜hsa-miR-92a-3p是2008年之后发现的）

现在我们完成了。运行平台Scientific Linux 5 using Novoalign V2.07.18. 如果你有问题,e-mail me. 请注意awk 中使用的$9可能根据你的reads identifier 而改变，所以检查一下运行Novoalign时，放到了标识符哪一列。

Kaige Dong's Site

0.1.5

Counting known microRNAs in five easy steps

Counting known microRNAs in five easy steps

1. 获取一个示例的数据集

2. 获取当前miRBase 的成熟序列

3. 只提取human microRNAs, 为了方便，将尿嘧啶转为胸腺嘧啶

4. 创建 Novoalign inde. Novoalign 是免费的，可从http://www.novocraft.com 得到

5. 通过一行命令搜索并计算：