九月一号开学了,暑假作业写完了没有?但是跟我并没有关系,不开学,没作业,但是好多事情啊,,,最近提交了一些数据到SRA,每次过程总是那么曲折离奇,对一些遇到的问题进行整理填坑吧。
简单说,申请BioProject,申请BioSample,填写SRA_metadata,上传数据,虽然过程清晰,坑还没填完,仍在邮件NCBI,过程供参考。
1. BioProject
申请一个项目编号,填写submitter 信息,选择项目类型(Raw sequence reads),物种名称,释放时间,项目描述,BioSample和文章信息(跳过,跳过,,),核对提交
2. BioSample
申请一个样品编号,submitter 信息,释放时间,样品类型,填写样品属性表格,核对提交
3. SRA
主要就填写SRA_metadata,测序平台,文库类型等等,选择批量提交,填写表格注意看要求啊,除了样品名称、登录号等信息,其他属性组合每行也要是唯一的。
4. submit data
看数据大小,选择合适上传方法吧,小于2G用aspera浏览器插件,大数据选择ftp或者aspera命令行。这几次都用了aspera cmd上传,霸占几乎全部网速,很快上传好
具体命令为:ascp -i <path/to/key_file> -QT -l100m -k1 -d <path/to/folder/containing files> subasp@upload.ncbi.nlm.nih.gov:uploads/XXX@xxx.com_g3O1FgOE
, 其中key必须是全路径,-d接包括原始数据的文件夹(不再包含其他文件夹),XXX@xxx.com为注册账号邮箱
上传结束后,SRA中选择上传数据文件夹,,,
好了,装逼结束,文件没仔细检查,传了两不完整的fastq,发邮件给ncbi沟通呢,md5值也还没有用到,不知什么情况,,,too young, too naive…