南充网站制作p2p万能搜索引擎
Minimap2 用户手册
概述
- 名称
- minimap2 - DNA序列集合之间的映射和比对
内容
- 简介
- 描述
- 选项
- 索引选项
- 映射选项
- 对齐选项
- 输入/输出选项
- 预设选项
- 其他选项
- 输出格式
- 限制
- 参考
简介
Minimap2是一个快速的序列映射和比对程序,能够找到长噪声读段之间的重叠,或者将长读段或它们的组装映射到参考基因组上,并且可以选择性地进行详细比对(即CIGAR)。目前,它能够高效地处理从几千碱基到约100兆碱基长度的查询序列,错误率约为15%。Minimap2以PAF或SAM格式输出。
选项
索引选项
k INT
: 最小化k-mer长度 [15]w INT
: 最小化窗口大小 [k-mer长度的2/3]。最小化是w个连续k-mer窗口中的最小k-mer。H
: 使用同聚物压缩(HPC)最小化。HPC序列是通过将同聚物运行压缩为单个碱基来构建的。HPC最小化是HPC序列上的最小化。I NUM
: 索引时最多加载NUM个目标碱基到RAM [4G]。--idx-no-seq
: 不在索引中存储目标序列。节省磁盘空间和内存,但这样生成的索引将不适用于-a或-c选项。
映射选项
U INT1[,INT2]
: k-mer出现的下限和上限 [10,1000000]。e INT
: 每隔INT碱基对采样一个高频最小化 [500]。g NUM
: 如果在NUM-bp内没有最小化,则停止链的延伸 [10k]。r NUM1[,NUM2]
: 链化和基础对齐的带宽 [500,20k]。
对齐选项
A INT
: 匹配得分 [2]。B INT
: 不匹配的惩罚 [4]。O INT1[,INT2]
: 间隙开放惩罚 [4,24]。
输入/输出选项
a
: 生成CIGAR并在SAM格式中输出比对。Minimap2默认以PAF输出。o FILE
: 将比对输出到FILE [stdout]。Q
: 在输入文件中忽略碱基质量。
预设选项
x STR
: 预设 []。这个选项同时应用多个选项。它应该在其他选项之前应用,因为后面应用的选项将覆盖-x设置的值。
输出格式
Minimap2默认以成对映射格式(PAF)输出映射位置。PAF是一个制表符分隔的文本格式,每行至少包含12个字段。
限制
Minimap2在通过长低复杂性区域时可能产生次优比对,因为在这些区域种子位置可能是次优的。
Minimap2需要SSE2或NEON指令来编译。可以添加非SSE2/NEON支持,但这会使Minimap2的速度慢几倍。
以下是GitHub上lh3/minimap2页面的中文翻译,按照Markdown格式整理:
# 开始使用## 获取Minimap2
git clone https://github.com/lh3/minimap2
cd minimap2 && make
长序列与参考基因组比对
./minimap2 -a test/MT-human.fa test/MT-orang.fa > test.sam
先创建索引再映射
./minimap2 -x map-ont -d MT-human-ont.mmi test/MT-human.fa
./minimap2 -a MT-human-ont.mmi test/MT-orang.fa > test.sam
使用预设(无测试数据)
./minimap2 -ax map-pb ref.fa pacbio.fq.gz > aln.sam # PacBio CLR基因组读取
./minimap2 -ax map-ont ref.fa ont.fq.gz > aln.sam # Oxford Nanopore基因组读取
./minimap2 -ax map-hifi ref.fa pacbio-ccs.fq.gz > aln.sam # PacBio HiFi/CCS基因组读取 (v2.19或更高版本)
./minimap2 -ax lr:hq ref.fa ont-Q20.fq.gz > aln.sam