Preview

Vestnik NSU. Series: Information Technologies

Advanced search

THE USE OF A HORIZONTALLY SCALABLE INFRASTRUCTURE IN THE SEARCH FOR GENETIC SIMILARITY IN BIODIVERSITY

https://doi.org/10.25205/1818-7900-2018-16-2-95-103

Abstract

The problem of rapid detection of genetic similarity in the analysis of databases (DB) of genomes of individuals of ecosystems at various levels is considered. The distributed non-relational DB MongoDB and the Winnowing data processing algorithm are used as the basis for creating the information system. Using a non-relational database to identify genetic similarity, a variant of representing the prints of the structural variations of the genomes in the form of «key-value» was proposed, a program implementation of the developed model was carried out, and computational experiments were carried out, which confirmed the possibility of using the proposed method of genetic similarity search, for example, in a personified analysis of deviations in the gene level.

About the Authors

A. A. Tskhai
Institute for Water and Environmental Sciences; I. I. Polzunov Altai State Technical University
Russian Federation


S. V. Murzintsev
Altai State University
Russian Federation


References

1. Биоразнообразие и динамика экосистем: информационные технологии и моделирование / Отв. ред. В. К. Шумный, Ю. И. Шокин, Н. А. Колчанов, А. М. Федотов. Новосибирск: Изд-во СО РАН, 2006. 648 с.

2. Lesk A. M. Introduction to Genomics. 3rd ed. New York: Oxford University Press, 2017. 544 р.

3. Dankar F. K., Ptitsyn A., Dankar S. K. The development of large-scale de-identified biomedical databases in the age of genomics-principles and challenges // Hum. Genomics. 2018. Vol. 12 (1). P. 19. DOI 10.1186/s40246-018-0147-5.

4. Langmead B., Nellore A. Cloud computing for genomic data analysis and collaboration // Nat. Rev. Genet. 2018. Vol. 19 (4). P. 208-219. DOI 10.1038/nrg.2017.113.

5. Nakagawa H., Fujita M. Whole genome sequencing analysis for cancer genomics and precision medicine // Cancer Sci. 2018. Vol. 109 (3). P. 513-522. DOI 10.1111/cas.13505.

6. Hong D., Rhie A., Park S. S., Lee J., Ju Y. S., Kim S. et al. FX: an RNA-Seq. analysis tool on the cloud // Bioinformatics. 2012. Vol. 28. P. 721-723.

7. Орлов Ю. Л., Брагин А. О., Медведева И. В., Гунбин И. В., Деменков П. С., Вишневский О. В., Левицкий В. Г., Ощепков В. Г., Подколодный Н. Л., Афонников Д. А., Гроссе И., Колчанов Н. А. ICGenomics: программный комплекс анализа символьных последовательностей геномики // Вавиловский журнал генетики и селекции. 2012. Т. 16 (4/1). С. 732-741.

8. Boekhorst R., Naumenko F. M., Orlova N. G., Galieva E. R., Spitsina A. M., Chadaeva I. V., Orlov Y. L., Abnizova I. I. Computational problems of analysis of short next generation sequencing reads // Вавиловский журнал генетики и селекции. 2016. Т. 20 (6). С. 746-755. DOI 10.18699/ VJ16.191.

9. Спицина А. М., Орлов Ю. Л., Подколодная Н. Н., Свичкарев А. В., Дергилев А. И., Чен М., Кучин Н. В., Черных И. Г., Глинский Б. М. Суперкомпьютерный анализ геномных и транскриптомных данных, полученных с помощью технологий высокопроизводительного секвенирования ДНК // Программные системы: теория и приложения. 2015. Т. 1 (24). С. 157- 174.

10. Вычислительные методы, алгоритмы и аппаратурно-программный инструментарий параллельного моделирования природных процессов / М. Г. Курносов [и др.]; отв. ред. В. Г. Хорошевский; Рос. акад. наук, Сиб. отд-ние, Ин-т физики полупроводников им. А. В. Ржанова [и др.]. Новосибирск: Изд-во СО РАН, 2012. 335 с. (Интеграционные проекты СО РАН; вып. 33).

11. Peise E., Fabregat-Traver D., Aulchenko Yu., Bientinesi P. Algorithms for Large-scale Whole Genome Association Analysis. 2013. DOI 10.1145/2488551.2488577.

12. Schleimer S., Wilkerson D., Aiken A. Winnowing: Local Algorithms for Document Fingerprinting // International Conference on Management of Data (ACM SIGMOD. Proceedings). San Diego, 2003. P. 76-85.

13. Faro S., Lecroq T. The exact online string matching problem: A review of the most recent results // ACM Computing Surveys. 2013. Vol. 45, № 13. P. 42-50. http://dx.doi.org/ 10.1145/2431211.2431212.

14. Цхай А. А., Бутаков С. В., Мурзинцев С. В., Ким Л. С. Обнаружение плагиата с использованием нереляционных баз данных // Вестн. алтайской науки. 2015. № 1. C. 280-285.

15. Федотов А. М., Чураев Р. Н. О подходах к построению мер сходства между объектами // Математические модели эволюции и селекции: Сб. ст. Новосибирск, 1977. С. 120-131.

16. Дягилев В. В., Цхай А. А., Бутаков С. В. Архитектура сервиса определения плагиата, исключающая возможность нарушения авторских прав // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2011. Т. 9, № 3. С. 23-29.

17. Jørgensen S. E. Structurally dynamic models: a new promising model type // Environmental Earth Sciences. 2015. № 74. DOI 10.1007/s12665-015-4735-6.

18. Park S. T., Kim J. Trends in Next-Generation Sequencing and a New Era for Whole Genome Sequencing. // Int. Neurourol. J. 2016. Vol. 20, № 2. P. 76-83. http://doi.org/ 10.5213/inj.1632742.371


Review

For citations:


Tskhai A.A., Murzintsev S.V. THE USE OF A HORIZONTALLY SCALABLE INFRASTRUCTURE IN THE SEARCH FOR GENETIC SIMILARITY IN BIODIVERSITY. Vestnik NSU. Series: Information Technologies. 2018;16(2):95-103. (In Russ.) https://doi.org/10.25205/1818-7900-2018-16-2-95-103

Views: 51


Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 License.


ISSN 1818-7900 (Print)
ISSN 2410-0420 (Online)