3 열과 859 행의 데이터 프레임이 있습니다. 데이터 프레임은 다음과 같습니다.
df1 :
MacroNode Prefix Suffix
AAACCGCCAATATCTCGACGAGAAAAGCGAC GCCAACTGGATAACCACGCCCTG GCCAACTGGATAACCACGCCC
ATTTCTGCGAGGTGCAGGGCAATTACATCAT TAGGCCTT AAAACCCTTGGAA
기본적으로 그래프의 노드와 접두사 및 접미사 가장자리입니다.
macronode + suffix = prefix of next macronode + that next macronode
이 데이터 프레임에있는 행에 의해 얻을 수있는 최대 스트레치가 무엇인지 확인해야합니다. 따라서 먼저 행을 결합한 다음 비교해야한다고 생각합니다. 그러나 나는 이것을하는 방법을 이해할 수 없습니다. 어떤 아이디어라도 환영합니다.
예상 결과
여기에 짧은 데이터 프레임을 제공합니다.
장난감 df :
MacroNode Prefix Suffix
GC T A
CA G C
AC C T
CT A A
여기서 볼 수 있듯이 첫 번째 행의 접미사 문자 (GC A)를 사용하여 매크로 노드의 문자를 취하면 다음 행의 매크로 노드의 문자 (G CA)가 다음 행의 접두사 문자와 동일합니다.
그러나 내 데이터 프레임에서는 여기에서 언급 한 장난감 예제와 같이 행이 연속적이라는 보장이 없습니다.
그러면 출력은 다음과 같습니다.최대 연속 경로는 다음과 같습니다.16자인 TGCAGCACCACTACTA입니다.
원래 데이터 프레임의 처음 몇 행 :
MacroNode Prefix
1. AAACCGCCAATATCTCGACGAGAAAAGCGAC GCCAACTGGATAACCACGCCCTGAGACTCAAGGGCGT
2. AAACTTCTGCCGGAATATAAAGCCGCGCCGG AGCAAAGCGCGCCACTTCACCCTGAGCTT
3. AAAGCATTGTGGCCGGAACCGATGACGCGCC CGGCGTCCCCTGGATGATGGCTTT
4. AACACCACGCTGGAGATGGTTGCTGAACGTG AAATTATTAGAATTACAAGGGATTGCC
5. AACCAGAGCGTTCTGTTACGTGATGTGAACG AAGTTGCGCCGGGTAGGCGTTACTTTGCTG
6. AACGAAGTTCAGCCGCGTGCGAACGGTCAGG GGTATACGCTTCTGCTTCACGAATGTATTGCTGTT
7. AACTCGGGGCTCGGTCAGCACACCACGACCG AAAGAGATCCTGACCAACGATATCTCTGAC
8. AAGCGGTTGAGGAAGGGAAAATCGCGGAAAC ACCGATCCGGGCTGCGCTATCCGGG
9. AAGGCGCTCGTTGATGAACTGGAGCTGGCGC AATTTCGCGTTGCAGTCTGACTCTGCACGTCTT
10. AATATCGACCAGCAATTCGCCTAAAAAGAAG CCGCTGCCCGTGGATCAACCAGT
11. AATCCACACGTTCAGCAACCATCTCCAGCGT ATCCACTGGACGAGCTACGCCGCTT
12. AATCGCGATATTTACACAGACCTAAATAGTC
GCAAACACGATACCGATCCGGGCTGCGCTATCCGGGAAGCGGT
13. AATTTCCGGCGCGGCTTTATATTCCGGCAGA ACAGACGCTCGCGAGT
14. ACCACCCAGCACGATGCCAGAAATCAGTGGG AAACAGCGGCTCTCCACTGCCAGAGCAT
15. ACCAGCGTGCCTTCCATCATGTTCATTGCTA GCAGATCCGTGCTAACGCGGTCGTT
16. ACTGTTCCGGCGTGGCATTAGGTGTTGATCG CAGGCATACCGACTT
17. CCCTGGCCGTTTGCTTCGGCTTCGTGCTGGG ACTCTGGGTGTTG
Suffix
1. TAATGCCCTGATGCACGGCACC
2. GTCTCGATATACAGACGCTCGCGAGTAATTT
3. ATCCCCATCGCATTCA
4. TGGATTATCCACTGGACGAGCTACG
5. ATAACGCACAAACGCTGGCAAACCTGA
6. TTGTACGCACGCGCCTCTTCGAGGATACGTTGCG
7. C
8. CCGTTTCGAAAACTATC
9. AGCTGTCTGCCAATAA
10. TCAATCGCGAGGCCGGTTCGTT
11. AGGGATTGCCAACACC
12. CTCAGGGCTTTGTCGAATTCCAT
13. AGTTTAGCAAAGCGCGCCACTTCACCCTGAGCTTCCAGG
14. CCATGCGTGCTGCCAATGTA
15. GCTGGATATTCTGGTTGATGATGGTCATGTTCGCGGCCTGG
16. CAACGCTAAAGGCGATGACTTCAGCCAGTGTCTCCGCGCCCAGCGCCAACATCACCAGA
17. TAGCTTCATGCTGTAATGATCAATCGCGGGGC
같은 줄에 맞지 않기 때문에 접미사 열을 별도로 작성했습니다.