import pandas
import numpy as np
import sklearn.cluster
import distance

genomes_df = pandas.read_csv("/Users/johncalvo/Downloads/covid_sequences.csv")
genomes_df.head()

words = genomes_df["Nucleotides sequence"]
print(words)

0     AGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTC...
1     AGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTC...
2     CCGCAATCCTGCTAACAATGCTGCAATCGTGCTACAACTTCCTCAA...
3     CGCGATCAAAACAACGTCGGCCCCAAGGTTTACCCAATAATACTGC...
4     ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGA...
5     ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGA...
6     ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGA...
7     TGATAGAGCCATGCCTAACATGCTTAGAATTATGGCCTCACTTGTT...
8     ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGA...
9     CTTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGA...
10    ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGA...
11    TTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGAT...
12    ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGA...
13    CAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTT...
14    ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGA...
15    ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGA...
16    GGTCTCTCTGGTTAGACCAGATCTGAGCCTGGGAGCTCTCTGGCTA...
17    ATATTAGGTTTTTACCTACCCAGGAAAAGCCAACCAACCTCGATCT...
Name: Nucleotides sequence, dtype: object

words = np.asarray(words) #So that indexing with a list will work
words_match_index = np.array([[str(i) + '_' + str(j) for i in range(1,len(words))]
                              for j in range(1,len(words))])

lev_15_16 = distance.levenshtein(words[15],words[16], normalized=True)
lev_1_15 = distance.levenshtein(words[1],words[15], normalized=True)
lev_15_17 = distance.levenshtein(words[15],words[17], normalized=True)

print("Similarity between SARS-CoV-Whu-1 genome and HIV")
print(1 - lev_15_16)

Similarity between SARS-CoV-Whu-1 genome and HIV
0.3011403538106544

print("Similarity between the last reported genome and SARS-CoV-Whu-1")
print(1 - lev_1_15)

Similarity between the last reported genome and SARS-CoV-Whu-1
0.9826773233454837

print("Similarity between SARS-CoV-Whu-1 genome and SARS-CoV original")
print(1 - lev_15_17)

Similarity between SARS-CoV-Whu-1 genome and SARS-CoV original
0.7996187673477577

lev_similarity = -1*np.array([[distance.levenshtein(w1,w2, normalized=True) for w1 in words] for w2 in words])

John Calvo's Blog

Search This Blog

Covid-19 Genome analysis

Labels

Comments

Post a Comment

Popular posts from this blog

Good coding practices for Data Scientists

My COVID-19 jupyter notebook

	Virus version	Nucleotides sequence
0	>MT198652 \|Severe acute respiratory syndrome c...	AGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTC...
1	>MT198653 \|Severe acute respiratory syndrome c...	AGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTC...
2	>MT192758 \|Severe acute respiratory syndrome c...	CCGCAATCCTGCTAACAATGCTGCAATCGTGCTACAACTTCCTCAA...
3	>MT186679 \|Severe acute respiratory syndrome c...	CGCGATCAAAACAACGTCGGCCCCAAGGTTTACCCAATAATACTGC...
4	>LC529905 \|Severe acute respiratory syndrome c...	ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGA...