Том 16, № 3 (2018)
Скачать выпуск
PDF
БИОИНФОРМАТИКА
А. О. Брагин,
К. А. Табанюхов,
И. В. Чадаева,
А. В. Цуканов,
Р. О. Бабенко,
И. В. Медведева,
А. Г. Богомолов,
В. Н. Бабенко,
Ю. Л. Орлов
7-21 58
Аннотация
Разработка и применение компьютерных средств анализа транскриптомных данных в модельных организмах животных представляет актуальную задачу биоинформатики. Задача исследования экспрессии генов современными методами высокопроизводительного секвенирования в отделах мозга лабораторных животных является исключительно важной для изучения генетических основ поведения в целом. Изучение генетических детерминант агрессивного поведения не только сохраняет актуальность для исследования молекулярных механизмов регуляции поведения, но и имеет широкую практическую составляющую при работе с животными, для решения задач агробиологии. Наследственная предрасположенность животных к агрессивному поведению приводит к появлению различий в строении головного мозга, и сравнение таких различий позволит найти как общие, так и специфичные механизмы регуляции поведения, способствующие проявлению агрессии в провоцирующих условиях среды. Представлены компьютерные программы анализа сплайсинга и прототип базы данных экспрессии генов в отделах мозга лабораторных животных - серых крыс, селектированных по проявлению агрессивного поведения. Выполнена функциональная аннотация генов с повышенной и пониженной экспрессией в экспериментах на крысах, рассмотрены варианты изоформ и альтернативного сплайсинга этих генов.
С. С. Ковалев,
Е. Ю. Леберфарб,
Н. В. Губанова,
А. О. Брагин,
А. Г. Галиева,
А. В. Цуканов,
В. Н. Бабенко,
Ю. Л. Орлов
22-36 54
Аннотация
Современные постгеномные методы изучения экспрессии генов с помощью транскриптомного профилирования имеют большое значение для фундаментальных биомедицинских исследований в онкологии, поиска новых маркеров развития опухолей на культурах клеток глиом. Такие эксперименты требуют разработки новых компьютерных инструментов анализа объемных данных секвенирования. Цель представленного исследования - компьютерный поиск генов и их изоформ, нарушение экспрессии которых связано с развитием глиобластом, с помощью современных высокопроизводительных технологий секвенирования транскриптом и международных биомедицинских банков данных. Поиск генов - кандидатов для терапевтического воздействия в опухолях, в том числе отдельных изоформ генов, актуален в здравоохранении и современной высокотехнологичной медицине. В данной работе представлены задачи биоинформатики, связанные с разработкой компьютерных конвейеров обработки транскриптомных данных, определения дифференциально экспрессирующихся генов, анализа альтернативного сплайсинга, описания категорий генных онтологий для найденных групп генов. Рассмотрены задачи автоматического поиска и описания функций генов в связи с раковыми заболеваниями, визуализации результатов и разработки биомедицинских баз данных. Представлен прототип базы данных дифференциального альтернативного сплайсинга генов - «Дифференциальный альтернативный сплайсинг генов человека при вторичной глиобластоме (ДАСГГ)», с возможностью работы через веб-сайт, поиска уровней экспрессии отдельных изоформ в глиальной опухоли.
37-50 118
Аннотация
Современные методы экспериментальных исследований позволяют реконструировать различного типа биологические сети, включая генные и метаболические сети, сети интерактомики, сети коэкспрессии генов, сети заболеваний и т. д. В данной статье представлена разработанная нами система построения структурных моделей биологических сетей в виде набора случайных графов, структурные закономерности которых совпадают со структурными закономерностями исходной биологической сети. Такие структурные модели могут быть использованы для проверки различных статистических гипотез на сетях, в исследовании влияния структурных закономерностей в биологических сетях на их функцию и других задачах. При генерации структурных моделей в случайных графах могут быть зафиксированы следующие характеристики: распределение степеней вершин, попарное распределение степеней вершин, средняя степень соседних вершин, коэффициент кластеризации, спектр кластеризации, частота структурных мотивов различных размеров и др. Разработанная система построена по архитектуре клиент-сервер и состоит из плагина Cytoscape и удаленного вычислительного сервиса. Взаимодействие между клиентом и сервером реализовано посредством фреймворка gRPC с применением протокола сериализации структурированных данных Protocol Buffers. Система позволяет асинхронно конструировать структурные модели заданных биологических сетей в виде случайных графов посредством программ Random Network Generator и GTrie Scanner. Результат построения может быть загружен для визуализации и анализа средствами пакета Сytoscape. С использованием разработанной системы проведен вычислительный эксперимент по реконструкции структурных моделей ряда биологических сетей, для которых удалось построить алгоритм предсказания времени расчетов структурных моделей.
51-63 49
Аннотация
Исследование регуляции транскрипции генов на основе данных современных технологий высокопроизводительного секвенирования является актуальной задачей биоинформатики, требующей развития новых компьютерных средств, в том числе на основе суперкомпьютерных вычислений. Рассмотрены задачи обработки данных полногеномных профилей ChIP-seq связывания транскрипционных факторов в геномах, определения пиков профилей и поиска сайтов связывания в нуклеотидных последовательностях таких пиков. Разработаны программы для анализа положения сайтов связывания в геноме относительно районов генов, расчета кластеров таких сайтов и визуализации их положения в геноме. Рассчитаны кластеры сайтов связывания транскрипционных факто-ров в геноме человека по базе данных Cistrome, построены матрицы совместной встречаемости пар сайтов связывания различных транскрипционных факторов в геноме для различных типов тканей и культур клеток. Проведен вычислительный эксперимент по компьютерной генерации случайных кластеров в геноме, а также оценке встречаемости кластеров большого размера для экспериментально полученных сайтов связывания транскрипционных факторов в геноме человека. Найдены закономерности встречаемости сайтов факторов плюрипотентности в эмбриональных стволовых клетках. Разработанное программное обеспечение доступно по запросу к авторам.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
64-73 60
Аннотация
Статья посвящена разработке системы управления фертигацией, которая позволяет осуществлять автоматическую подачу удобрений с учетом показателей pH и EC, полученных от соответствующих датчиков. Для решения этой задачи разработан модуль минерализации, состоящий из двух подмодулей: подмодуль измерения и регулирования pH и подмодуль измерения и регулирования EC. Данные передаются микроконтроллеру для дальнейших действий по управлению системой. В качестве системы принятия решений в работе использована интеллектуальная система на основе нечеткой логики.
74-86 136
Аннотация
Описан новый метод автоматического реферирования текстов. На основе предложенного метода создана система, позволяющая получать краткие аннотации научно-технических текстов и определять их темы. Процесс реферирования состоит из пяти основных шагов: предобработка, риторический анализ и преобразование текста, оценка весов, выбор предложений и сглаживание. Предлагаемый метод формирует аннотацию на основе наиболее значимых предложений исходного документа. Значимость предложений частично определяется в процессе риторического анализа, который выполняется с помощью дискурсивных маркеров и коннекторов. Также учитываются ключевые слова, многословные термины и некоторые специальные слова, которые часто встречаются в научно-технических текстах. Для извлечения ключевых слов и определения тем текста применялась аддитивная регуляризация тематических моделей.
87-104 68
Аннотация
В ходе научных исследований порождается большое количество данных в цифровом формате, и для последующего использования этих данных (обработки, анализа, публикации) их необходимо организованно собирать и хранить. Построение информационной инфраструктуры для решения этих задач - одна из наиболее актуальных проблем в области организации работы с экспериментальными данными. Авторами настоящей статьи разрабатывается информационная система для автоматизации сбора, хранения и анализа данных, в качестве отправной точки для которой используются три задачи обработки данных из области физиологии. Рассмотрены и проанализированы возникающие в процессе разработки такой системы проблемы, а также существующие подходы и готовые решения этих и схожих задач. На основе результатов проведенного анализа предложен ряд моделей и механизмов для решения возникших проблем. Разработанные решения включают в себя модели и механизмы сбора и хранения экспериментальных данных, модель для описания и формализации сценариев обработки данных и механизмы для обработки собранных данных в распределенной вычислительной системе. В результате представлена архитектура вычислительной системы для сбора, хранения и обработки экспериментальных данных. Система предлагается в качестве инструмента для решения широкого спектра задач, возникающих при проведении научных исследований и требующих сбора, хранения и многоэтапной обработки различных типов данных.
105-112 75
Аннотация
Исследуются возможности бесконтактных систем и интерфейсов, главные принципы работы с такими технологиями. Рассмотрена возможность применения подобных систем для упрощения взаимодействия пользователей с ограничениями возможностями здоровья с компьютерным интерфейсом. Приведены особенности и преимущества использования естественных интерфейсов и систем, основанных на жестовом управлении. Также детально рассмотрены этапы формирования базового словаря жестов для дальнейшего его применения в бесконтактном интерфейсе. В качестве дополнительного аппаратного обеспечения для получения более точных результатов распознавания таких жестов рассмотрено устройство Microsoft Kinect.
113-125 52
Аннотация
Статья посвящена разработке методов извлечения из текстов естественного языка определений ключевых понятий предметной области на основе теоретико-модельного подхода. Извлеченная из текстов информация путем преобразования через фрагменты атомарных диаграмм алгебраических систем представляется в виде утверждений в логике описаний (DL). Подобное представление позволяет получать тексты с большей выразительностью по сравнению с алгоритмами, где источником информации являются данные, представленные в виде баз данных или в виде выражений на формализованных языках (например, SQL).
126-132 55
Аннотация
Рассматриваются три подхода к хранению информации о книгообеспеченности учебного процесса при различных вариантах интеграции автоматизированной библиотечной информационной системы (АБИС) с информационной системой вуза: внутри АБИС в формате RUSMARC, в виде реляционной базы данных, с использованием технологии OLAP. Анализируются преимущества и недостатки каждого подхода, приводятся примеры организации хранения данных (поля RUSMARC, измерения и меры для кубов OLAP).
133-144 67
Аннотация
Статья посвящена решению проблемы адаптации больших древовидных и линейных меню мобильных и интернет-услуг для различных типов пользователей на основании их интересов, социального статуса, а также иных параметров. Разработана программная система, строящая оптимальное меню услуг для классов пользователей, разделенных по социально-экономическим и физическим параметрам, с использованием модифицированного алгоритма построения оптимального графа USSD-меню. В работе используется онтологический подход для формального представления понятий данной предметной области, извлечения, представления и обработки знаний. Для адаптации интерфейсов используются модели пользователей, представляющие описания их потребностей, целей, интересов. Формализация поведения пользователей осуществляется при помощи онтологической модели мобильных и интернет-услуг. Каждого пользователя можно отнести к определенной модели на основании его физических и социальных параметров. Программа, реализующая адаптацию меню, состоит из двух модулей: модуль получения частот вызова услуг на основе запросов к онтологии и модуль оптимизации графа меню. Алгоритм оптимизации меню работает с языком описания графов DOT.
145-158 44
Аннотация
В теории информации известно, что методы сжатия данных могут быть использованы для прогнозирования стационарных процессов. В данной работе предложен базирующийся на архиваторах алгоритм прогнозирования временных рядов и проведено экспериментальное исследование его эффективности. В процессе работы описанного алгоритма могут быть использованы произвольные методы сжатия данных, причем прогнозные значения от разных методов комбинируются, и наибольшее влияние на конечный результат оказывает метод, способный сильнее других сжать временной ряд. Данный алгоритм может быть использован для прогнозирования рядов с дискретными и непрерывными алфавитами. Для повышения точности прогноза возможно применение существующих методов предварительной обработки данных. Экспериментальное исследование эффективности предложенного алгоритма проводилось на временных рядах из M3 Competition и ряде T-индекса, при этом были использованы хорошо известные архиваторы. Результаты вычислений показали, что полученный метод обладает сравнительно высокой точностью и быстродействием.
ISSN 1818-7900 (Print)
ISSN 2410-0420 (Online)
ISSN 2410-0420 (Online)