################################## # # # Last modified 12/04/2011 # # # # Georgi Marinov # # # ################################## import sys import math try: import psyco psyco.full() except: pass def run(): if len(sys.argv) < 3: print 'usage: python %s [-first ] [-fromspikes ] [-casava1.8] [-HiSeqBarcode] [-end3]' % sys.argv[0] sys.exit(1) end1inputfilenames = sys.argv[1] end2inputfilenames = sys.argv[2] doCasava=False if '-casava1.8' in sys.argv: doCasava=True doHiSeqBarcode=False if '-HiSeqBarcode' in sys.argv: doHiSeqBarcode=True doEnd3=False if 'end3' in sys.argv: doEnd3=True outputfilename = sys.argv[3] print 'output to ', outputfilename FirstN=1000000000000000000000000000000000000000 if '-first' in sys.argv: FirstN = int(sys.argv[sys.argv.index('-first')+1]) print 'will look at the first', FirstN, 'read pairs' doSpikes=False if '-fromspikes' in sys.argv: spikesfilename = sys.argv[sys.argv.index('-fromspikes')+1] doSpikes=True print 'will estimate distribution from spikes' outfile = open(outputfilename, 'w') outfile.write('#length\tnumber\n') if doSpikes: listoflines=open(spikesfilename) SpikeDict={} for line in listoflines: spike=line.strip().split('\t')[0].split(' ')[0] SpikeDict[spike]='' DistributionDict={} end1inputfilenameList=end1inputfilenames.split(',') end2inputfilenameList=end2inputfilenames.split(',') ReadDict={} for inputfilename in end1inputfilenameList: lineslist = open(inputfilename) i=0 j=0 for line in lineslist: if i % 5000000 == 0: print str(i/1000000) + 'M alignments processed in', inputfilename i+=1 fields = line.strip().split('\t') if doSpikes: if SpikeDict.has_key(fields[2]): pass else: continue if len(fields)<6: continue if fields[6]!='0': continue readID=fields[0] if readID.endswith('/2'): continue if doEnd3 and readID.endswith('/3'): continue if doCasava: readID=readID.split('_1:')[0] elif doHiSeqBarcode: readID = readID.split(' 1')[0] else: readID=readID.split('/')[0] chr=fields[2] pos=int(fields[3]) if j