Makura的功能介紹可以看上一篇
Makura安裝與使用 - 批量下載NCBI genomespip install makura==1.2.0
這篇介紹1.0.0到1.2.0之間增加的功能和修復的bug
Features
- 資料庫更新不需指定refseq或genbank
預設改成all
,同時下載refseq和genbank的assembly summary
當然如果只想下載其中一個也可以
makura update -s all
- 檢索方法改成使用sqlite以提升搜尋效能
原本是直接下載assembly summmary.txt,使用pandas讀取整份tab檔再filter
改成將表格轉換到sqlite中,使用sql語法搜尋目標genomes
makura summary --taxids 1280 -s refseq -c reference
summary指令可輸出tab或是jsonlines
原來輸出格式是json,考量到可讀性更改成tab或是可選擇輸出成jsonlines
jsonlines是將每筆row轉換成json格式
預設輸出爲tabmakura summary --taxids 1280 --as-json-lines
以RESTful API取得assembly summary
此爲試驗性功能,目前只能使用assembly accession取得summarymakura api --port 5000 curl http://localhost:5000/summary?accessions=GCA_002287175.1,GCA_000762265.1
download指令加上
--debug
參數輸出下載記錄
輸出檔名爲download_status.txt
,共有2個欄位
第一欄是ftp url,第二欄是returncode
共有3種:
1: genome fasta已存在
2: 下載成功
3: 下載失敗
Bugs
- 修復無法以assembly accession取得summary和download genome