Preview

Vestnik NSU. Series: Information Technologies

Advanced search

PROGRAMS FOR STATISTICAL ANALYSIS, CLUSTERIZATION AND VISUALIZATION OF GENOME DISTRIBUTION OF TRANSCRIPTION FACTOR BINDING SITES

https://doi.org/10.25205/1818-7900-2018-16-3-51-63

Abstract

The analysis of gene transcription regulation based on the data of modern technologies of high-performance sequencing is an actual task of bioinformatics. It requires the development of new computer tools including supercomputer applications. We consider the problems of processing of genome ChIP-seq profiles for detections of transcription factors binding site in a genome, determining the peaks of such profiles and search the binding sites in the nucleotide sequences of the peaks. The computer programs have been developed to analyze the location of the binding sites in the genome relative to gene regions, to calculate clusters of such sites and visualize their positions in the genome. Clusters of binding sites of transcription factors in the human genome have been calculated using the Cistrome database. We have calculated matrices of the joint occurrence of pairs of binding sites of different transcription factors in the genome for various types of tissues and cells. A computational experiment on the computer generation of random clusters in the genome was carried out, as well as an assessment of the occurrence of large clusters for experimentally obtained binding sites of transcription factors in the human genome. The patterns of occurrence of binding sites of pluripotency factors in embryonic stem cells were described. The developed software is available on request to the authors.

About the Authors

A. V. Tsukanov
Institute of Cytology and Genetics SB RAS; Novosibirsk State University
Russian Federation


N. G. Orlova
Novosibirsk State University of Architecture and Civil Engineering (Sibstrin)
Russian Federation


A. I. Dergilev
Novosibirsk State University
Russian Federation


Yu. L. Orlov
Institute of Cytology and Genetics SB RAS; Novosibirsk State University
Russian Federation


References

1. Игнатьева Е. В., Подколодная О. А., Орлов Ю. Л., Васильев Г. В., Колчанов Н. А. Регуляторная геномика - экспериментально-компьютерные подходы // Генетика. 2015. Т. 51 (4). С. 409-429.

2. Levine M., Cattoglio C., Tjian R. Looping back to leap forward: transcription enters a new era // Cell. 2014. No. 157. P. 13-25.

3. Chen X., Xu H., Yuan P. et al. Integration of external signaling pathways with the core transcriptional network in embryonic stem cells // Cell. 2008. Vol. 133. No. 6. P. 1106-1117.

4. Кулакова Е. В., Спицина А. М., Орлова Н. Г., Дергилев А. И., Свичкарев А. В., Сафронова Н. С., Черных И. Г., Орлов Ю. Л. Программы анализа геномных данных секвенирования, полученных на основе технологий ChIP-seq, ChIA-PET и Hi-C // Программные системы: теория и приложения. 2015. Т. 6. № 2 (25). С. 129-148.

5. Fitzgerald K. A. et al. The role of transcription factors in prostate cancer and potential for future RNA interference therapy // Nucleic Acids Research. 2015. Vol. 43. No. 14. P. 6874-6888.

6. Zhu H., Wang G., Qian J. Transcription factors as readers and effectors of DNA methylation // Nature. 2016. Vol. 17. P. 551-565.

7. Kelly T. K., Liu Y., Lay F. D., Liang G., Berman B. P., Jones P. A. Genome-wide mapping of nucleosome positioning and DNA methylation within individual DNA molecules // Genome Research. 2012. No. 22. P. 2497-2506.

8. Hu Z., Tee W. Enhancers and chromatin structures: regulatory hubs in gene expression and diseases // Bioscience Reports. 2017. No. 37. P. 1-14. https://genome.ucsc.edu/ENCODE/. 4 http://www.factorbook.org.

9. Guillaume A., Stefan M. The three-dimensional genome: regulating gene expression during pluripotency and development // Development. 2017. Vol. 144. P. 3646-3658.

10. Орлов Ю. Л., Тьерри О., Богомолов А. Г., Цуканов А. В., Кулакова Е. В., Галиева Э. Р., Брагин А. О., Ли Г. Компьютерные методы анализа хромосомных контактов в ядре клетки по данным технологий секвенирования // Биомедицинская химия. 2017. № 63 (5). С. 418-422.

11. Орлов Ю. Л., Брагин А. О., Медведева И. В., Гунбин И. В., Деменков П. С., Вишневский О. В., Левицкий В. Г., Ощепков В. Г., Подколодный Н. Л., Афонников Д. А., Гроссе И., Колчанов Н. А. ICGenomics: программный комплекс анализа символьных последовательностей геномики // Вавиловский журнал генетики и селекции. 2012. Т. 16, № 4/1. С. 732-741.

12. Дергилев А. И., Спицина А. М., Чадаева И. В., Свичкарев А. В., Науменко Ф. М., Кулакова Е. В., Витяев Е. Е., Чен М., Орлов Ю. Л. Компьютерный анализ совместной локализации сайтов связывания транскрипционных факторов по данным ChIP-seq // Вавиловский журнал генетики и селекции. 2016. Т. 20 (6). С.770-778. DOI 10.18699/VJ16.194.

13. Vityaev E. E., Orlov Yu. L., Vishnevsky O. V., Pozdnyakov M. A., Kolchanov N. A. Computer system «Gene Discovery» for promoter structure analysis // In Silico Biology. 2002. Vol. 2. No. 3. P. 233-247.

14. Витяев Е. Е., Орлов Ю. Л., Вишневский О. В., Беленок А. С., Колчанов Н. А. Компьютерная система «Gene Discovery» для поиска закономерностей организации регуляторных последовательностей эукариот // Молекулярная биология. 2001. Т. 35, В 6. С. 952-960.

15. Васькин Ю. Ю., Хомичева И. В., Игнатьева Е. В., Витяев Е. Е. Анализ последовательностей регуляторных районов генов реляционной системой ExpertDiscovery, встроенной в пакет UGENE // Вестн. НГУ. Серия: Информационные технологии. 2012. Т. 10. № 1. C. 73-86.

16. Mei S., Qin Q., Wu Q., Sun H., Zheng R., Zang C., Zhu M., Wu J., Shi X., Taing L., Liu T., Brown M., Meyer C. A., Liu X. S. Cistrome data browser: a data portal for ChIP-Seq and chromatin accessibility data in human and mouse // Nucleic Acids Res. 2017. Vol. 45. No. 4. P. 658-662.

17. Knuppel R., Dietze P., Lehnberg W., Frech K., Wingender E. TRANSFAC1 retrieval program: a network model database of eukaryotic transcription regulating sequences and proteins // J. Comput. Biol. 1994. Vol. 1. P. 191-198.

18. Mathelier A. et al. JASPAR 2016: a major expansion and update of the open-access database of transcription factor binding profiles // Nucleic Acids Res. 2016. Vol. 44. P. 110-115.

19. Кель А. Э., Колчанов Н. А., Кель О. В., Ромащенко А. Г., Ананько Е. А., Игнатьева Е. В., Меркулова Т. И., Подколодная О. А., Степаненко И. Л., Кочетов А. В., Колпаков Ф. А., Подколодный Н. Л., Наумочкин А. А. TRRD: база данных транскрипционных регуляторных районов генов эукариот // Молекулярная биология. 1997. Т. 31, № 4. С. 636-672.

20. Kolchanov N. A., Ignatieva E. V., Ananko E. A., Podkolodnaya O. A., Stepanenko I. L., Merkulova T. I., Pozdnyakov M. A., Podkolodny N. L., Naumochkin A. N., Romashchenko A. G. Transcription Regulatory Regions Database (TRRD): its status in 2002 // Nucleic Acids Res. 2002. Vol. 30 (1). P. 312-7.

21. Yevshin I., Sharipov R., Valeev T., Kel A., Kolpakov F. GTRD: a database of transcription factor binding sites identified by ChIP-seq experiments // Nucleic Acids Res. 2017. Vol. 45 (D1). P. D61-D67.

22. Kulakovskiy I. V., Vorontsov I. E., Yevshin I. S., Sharipov R. N., Fedorova A. D., Rumynskiy E. I., Medvedeva Y. A., Magana-Mora A., Bajic V. B., Papatsenko D. A., Kolpakov F. A., Makeev V. J. HOCOMOCO: towards a complete collection of transcription factor binding models for human and mouse via large-scale ChIP-Seq analysis // Nucleic Acids Res. 2018. Vol. 46 (D1). P. D252-D259. DOI: 10.1093/nar/gkx1106.

23. Lawrence M. et al. Software for Computing and Annotating Genomic Ranges // PLOS Computational Biology. 2013. Vol. 8. P. 1-10.

24. Orlov Yu. L., Potapov V. N. Complexity: an internet resource for analysis of DNA sequence complexity // Nucleic Acids Res. 2004. Vol. 32. P. W628-W633.

25. Орлов Ю. Л., Левицкий В. Г., Смирнова О. Г., Подколодная О. А., Хлебодарова Т. М., Колчанов Н. А. Статистический анализ последовательностей ДНК, содержащих сайты формирования нуклеосом // Биофизика. 2006. Т. 51. С. 608-614.

26. Спицина А. М., Орлов Ю. Л., Подколодная Н. Н., Свичкарев А. В., Дергилев А. И., Чен М., Кучин Н. В., Черных И. Г., Глинский Б. М. Суперкомпьютерный анализ геномных и транскриптомных данных, полученных с помощью технологий высокопроизводительного секвенирования ДНК // Программные системы: теория и приложения. 2015. T. 6, № 1 (23). C. 157-174.

27. Сафронова Н. С., Пономаренко М. П., Абнизова И. И., Орлова Г. В., Чадаева И. В., Орлов Ю. Л. Фланкирующие повторы мономеров определяют пониженную контекстную сложность сайтов однонуклеотидных полиморфизмов в геноме человека // Вавиловский журнал генетики и селекции. 2015. Т. 19 (6). С. 668-674.

28. Naumenko F. M., Abnizova I. I., Beka N., Genaev M. A., Orlov Yu. L. Novel read density distribution score shows possible aligner artefacts, when mapping a single chromosome // BMC Genomics. 2018. Vol. 19 (Suppl. 3). P. 92. DOI: 10.1186/s12864-018-4475-6/

29. Дергилев А. И., Цуканов А. В., Орлов Ю. Л. Компьютерный анализ кластеров сайтов связывания транскрипционных факторов в эмбриональных стволовых клетках // Гены и клетки. 2017. Т. 12 (3). C. 184-185.


Review

For citations:


Tsukanov A.V., Orlova N.G., Dergilev A.I., Orlov Yu.L. PROGRAMS FOR STATISTICAL ANALYSIS, CLUSTERIZATION AND VISUALIZATION OF GENOME DISTRIBUTION OF TRANSCRIPTION FACTOR BINDING SITES. Vestnik NSU. Series: Information Technologies. 2018;16(3):51-63. (In Russ.) https://doi.org/10.25205/1818-7900-2018-16-3-51-63

Views: 50


Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 License.


ISSN 1818-7900 (Print)
ISSN 2410-0420 (Online)