Preview

Вестник НГУ. Серия: Информационные технологии

Расширенный поиск

ИСПОЛЬЗОВАНИЕ ГОРИЗОНТАЛЬНО МАСШТАБИРУЕМОЙ ИНФРАСТРУКТУРЫ ПРИ ПОИСКЕ СХОДСТВА В ГЕНОМНЫХ ДАННЫХ ЭКОСИСТЕМ

https://doi.org/10.25205/1818-7900-2018-16-2-95-103

Аннотация

Рассмотрена проблема выявления генетического сходства при анализе баз данных (БД) геномов организмов. Такая проблема возникает с развитием методов метагеномики, сравнительной геномики, технологий высокопроизводительного секвенирования ДНК, а также инструментов оценки и прогнозирования состояния экосистем. Для быстрого сравнения геномов с целью выявления повторяющихся наборов нуклеотидов разработана специализированная компьютерная система. Из-за большого объема данных, возникающих при обработке исходной информации, осуществлен переход к нереляционным БД, как к более гибким и масштабируемым. В качестве основы подхода использованы распределенная нереляционная БД MongoDB и алгоритм обработки данных Winnowing. При использовании нереляционной БД для выявления генетического сходства предложен вариант представления отпечатков структурных вариаций геномов в виде «ключ - значение». Выполнена программная реализация разработанной модели. Проведены вычислительные эксперименты: 1) загрузка данных в БД с использованием одной и трех шард (серверов, где хранятся данные и осуществляются поиск и обработка информации); 2) поиск совпадений выбранных наборов нуклеотидов с БД геномов с использованием одной и трех шард; 3) расчет скорости поиска геномовв БД; 4) расчет скорости загрузки геномов в БД. Результатом экспериментов стало подтверждение возможности использования предложенного способа поиска генетического сходства. Продолжение работы может быть в направлениях: 1) решения задачи об определении момента, когда необходимо добавлять узел к кластеру при возрастании рассматриваемого количества выбранных наборов нуклеотидов и увеличении числа геномов в БД организмов; 2) практического наполнения создаваемой БД как можно большим количеством реальных геномов организмов; 3) исследования геномных нарушений с целью оценки вероятности генетических отклонений на этапе распознавания потенциально возможного неблагоприятного развития организма.

Об авторах

А. А. Цхай
Институт водных и экологических проблем СО РАН; Алтайский государственный технический университет
Россия


С. В. Мурзинцев
Алтайский государственный университет
Россия


Список литературы

1. Биоразнообразие и динамика экосистем: информационные технологии и моделирование / Отв. ред. В. К. Шумный, Ю. И. Шокин, Н. А. Колчанов, А. М. Федотов. Новосибирск: Изд-во СО РАН, 2006. 648 с.

2. Lesk A. M. Introduction to Genomics. 3rd ed. New York: Oxford University Press, 2017. 544 р.

3. Dankar F. K., Ptitsyn A., Dankar S. K. The development of large-scale de-identified biomedical databases in the age of genomics-principles and challenges // Hum. Genomics. 2018. Vol. 12 (1). P. 19. DOI 10.1186/s40246-018-0147-5.

4. Langmead B., Nellore A. Cloud computing for genomic data analysis and collaboration // Nat. Rev. Genet. 2018. Vol. 19 (4). P. 208-219. DOI 10.1038/nrg.2017.113.

5. Nakagawa H., Fujita M. Whole genome sequencing analysis for cancer genomics and precision medicine // Cancer Sci. 2018. Vol. 109 (3). P. 513-522. DOI 10.1111/cas.13505.

6. Hong D., Rhie A., Park S. S., Lee J., Ju Y. S., Kim S. et al. FX: an RNA-Seq. analysis tool on the cloud // Bioinformatics. 2012. Vol. 28. P. 721-723.

7. Орлов Ю. Л., Брагин А. О., Медведева И. В., Гунбин И. В., Деменков П. С., Вишневский О. В., Левицкий В. Г., Ощепков В. Г., Подколодный Н. Л., Афонников Д. А., Гроссе И., Колчанов Н. А. ICGenomics: программный комплекс анализа символьных последовательностей геномики // Вавиловский журнал генетики и селекции. 2012. Т. 16 (4/1). С. 732-741.

8. Boekhorst R., Naumenko F. M., Orlova N. G., Galieva E. R., Spitsina A. M., Chadaeva I. V., Orlov Y. L., Abnizova I. I. Computational problems of analysis of short next generation sequencing reads // Вавиловский журнал генетики и селекции. 2016. Т. 20 (6). С. 746-755. DOI 10.18699/ VJ16.191.

9. Спицина А. М., Орлов Ю. Л., Подколодная Н. Н., Свичкарев А. В., Дергилев А. И., Чен М., Кучин Н. В., Черных И. Г., Глинский Б. М. Суперкомпьютерный анализ геномных и транскриптомных данных, полученных с помощью технологий высокопроизводительного секвенирования ДНК // Программные системы: теория и приложения. 2015. Т. 1 (24). С. 157- 174.

10. Вычислительные методы, алгоритмы и аппаратурно-программный инструментарий параллельного моделирования природных процессов / М. Г. Курносов [и др.]; отв. ред. В. Г. Хорошевский; Рос. акад. наук, Сиб. отд-ние, Ин-т физики полупроводников им. А. В. Ржанова [и др.]. Новосибирск: Изд-во СО РАН, 2012. 335 с. (Интеграционные проекты СО РАН; вып. 33).

11. Peise E., Fabregat-Traver D., Aulchenko Yu., Bientinesi P. Algorithms for Large-scale Whole Genome Association Analysis. 2013. DOI 10.1145/2488551.2488577.

12. Schleimer S., Wilkerson D., Aiken A. Winnowing: Local Algorithms for Document Fingerprinting // International Conference on Management of Data (ACM SIGMOD. Proceedings). San Diego, 2003. P. 76-85.

13. Faro S., Lecroq T. The exact online string matching problem: A review of the most recent results // ACM Computing Surveys. 2013. Vol. 45, № 13. P. 42-50. http://dx.doi.org/ 10.1145/2431211.2431212.

14. Цхай А. А., Бутаков С. В., Мурзинцев С. В., Ким Л. С. Обнаружение плагиата с использованием нереляционных баз данных // Вестн. алтайской науки. 2015. № 1. C. 280-285.

15. Федотов А. М., Чураев Р. Н. О подходах к построению мер сходства между объектами // Математические модели эволюции и селекции: Сб. ст. Новосибирск, 1977. С. 120-131.

16. Дягилев В. В., Цхай А. А., Бутаков С. В. Архитектура сервиса определения плагиата, исключающая возможность нарушения авторских прав // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2011. Т. 9, № 3. С. 23-29.

17. Jørgensen S. E. Structurally dynamic models: a new promising model type // Environmental Earth Sciences. 2015. № 74. DOI 10.1007/s12665-015-4735-6.

18. Park S. T., Kim J. Trends in Next-Generation Sequencing and a New Era for Whole Genome Sequencing. // Int. Neurourol. J. 2016. Vol. 20, № 2. P. 76-83. http://doi.org/ 10.5213/inj.1632742.371


Рецензия

Для цитирования:


Цхай А.А., Мурзинцев С.В. ИСПОЛЬЗОВАНИЕ ГОРИЗОНТАЛЬНО МАСШТАБИРУЕМОЙ ИНФРАСТРУКТУРЫ ПРИ ПОИСКЕ СХОДСТВА В ГЕНОМНЫХ ДАННЫХ ЭКОСИСТЕМ. Вестник НГУ. Серия: Информационные технологии. 2018;16(2):95-103. https://doi.org/10.25205/1818-7900-2018-16-2-95-103

For citation:


Tskhai A.A., Murzintsev S.V. THE USE OF A HORIZONTALLY SCALABLE INFRASTRUCTURE IN THE SEARCH FOR GENETIC SIMILARITY IN BIODIVERSITY. Vestnik NSU. Series: Information Technologies. 2018;16(2):95-103. (In Russ.) https://doi.org/10.25205/1818-7900-2018-16-2-95-103

Просмотров: 52


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7900 (Print)
ISSN 2410-0420 (Online)