每道题编写程序,保存为一个以.py结尾的文件。最后提交试题的文件是一个文件夹的压缩包,包括4个python程序文件,四个输入文件(input_1.fq、input_2.fa、kegg.txt、gene_log2fc.txt)(为了方便理解上述文件均可以表格形式打开观察其形式和内容),三个输出文件(output_1.fa、output_4-up.txt、output_4-down.txt)。读取文件和写入文件的路径为相对路径,即在提交的文件夹下,文件夹命名为姓名加学号,需将答案打印到屏幕上的题目,答案须在文件中以注释形式(#号)给出。并且代码中不含>>>。示例如下:
第一题:
将fq文件转换成fa文件
已知fq.文件有四行,fa.文件有两行,前两行二者相同,则将fq.文件转换成fa.文件的程序是?(输入文件为input_1.fq)(输出文件命名为output_1.fa)
第二题:
有多条DNA序列,(输入文件为input_2.fa)完成以下题目。
1. 计算序列长度,并输出最长的序列到屏幕上。
2. 统计序列来自哪些物种,每个物种各有几条序列。
例:Homo sapiens 1条
第三题:
有一条DNA序列
GGTCACTAAGGGTGATCGATTACGTATAGTAGAATTCTATCATACATATATATCGATGCGTTCAT
1. 该DNA序列中C出现多少次,写出此过程程序并将最终结果以注释形式输出到屏幕上。
2. 计算该DNA序列的“CG”含量,写出此过程程序并将最终结果以注释形式输出到屏幕上。
3. 求该DNA序列对应的mRNA链,写出此过程程序并将最终结果以注释形式输出到屏幕上。
第四题:
现有一KEGG聚类结果,读取文件完成以下题目。
1. 找出Count数大于20的通路,并将通路名称打印到屏幕上。
2. 在结果中找出卵巢类固醇生成和雌激素信号通路,并将两个通路富集到的基因取交集,将交集里的基因打印到屏幕上。
3. 在表达量文件gene_log2fc.txt中找到两个通路所包含的全部基因的表达差异倍数,将表达量上调的基因写入一个文件并命名为output_4-up.txt,下调的写入一个文件并命名为output_4-down.txt,文件每一行包含基因ID及其表达差异倍数,格式与输入文件保持一致。
鄂ICP备2023011697号-1 | Powered By 91代做