Описывается метод извлечения научных терминов из текстов на русском языке, основанный на слабо контролируемом обучении (weakly supervised learning). Особенность данного метода заключается в том, что для него не нужны размеченные вручную данные, что является очень актуальным. Для реализации метода мы собрали в полуавтоматическом режиме словарь терминов, затем автоматически разметили тексты научных статей этими терминами. Полученные тексты мы использовали для обучения модели. Затем этой моделью были автоматически размечены другие тексты. Вторая модель была обучена на объединении текстов, размеченных словарем и первой моделью. Результаты показали, что добавление данных, полученных даже автоматической разметкой, улучшает качество извлечения терминов из текстов.
Предлагается осуществлять анализ киберситуационной осведомленности об энергетическом объекте в три этапа: анализ киберугроз энергетической инфраструктуры; моделирование сценариев экстремальных ситуаций в энергетике, вызванных реализацией киберугроз; оценка рисков нарушения кибербезопасности энергетической инфраструктуры. Представлены три методики, соответствующие каждому этапу. В рамках методического аппарата авторы предлагают применять семантические методы для анализа влияния киберугроз на объекты энергетики с учетом энергетической безопасности, которые показывают свою эффективность в условиях отсутствия или неполноты данных при моделировании поведения систем, которое не поддается формальному описанию или достаточно точному прогнозированию. Представлен подход к анализу киберси-туационной осведомленности об энергетических объектах как синтез исследований кибербезопасности и ситуационной осведомленности, отличающийся использованием семантического моделирования.
Статья посвящена выбору наглядной и лаконичной формы для представления результатов анализа и сравнения языков программирования, удобной для оценки выразительной силы языков и трудоемкости реализации систем программирования. Формализация приспособлена к парадигмальному анализу определений языков программирования и выбору практичных критериев декомпозиции программ. В качестве основного подхода выбрана семантическая декомпозиция определений языков в рамках анализа парадигм программирования. Такой выбор позволяет выделять автономно развиваемые типовые компоненты программ, которые могут быть приспособлены к конструированию различных информационных систем. Многие работы по методам разработки программных систем зависят от практичности подходов к декомпозиции программ, отлаживаемых с помощью систем программирования. Решение этой проблемы полезно при изучении методов программирования, исследовании истории языков программирования, для сравнения парадигм программирования, потенциала используемых схем и моделей, оценки уровня новизны создаваемых языков программирования, а также при выборе критериев декомпозиции программ. Кроме того, определенность критериев позволяет формировать методику обучения разработке компонентов информационных систем. Попутно показана дистанция в понятийной сложности между программированием и разработкой систем программирования.
Рассматривается веб-платформа, обеспечивающая размещение фольклорных материалов и проведение научных исследований. Фольклорные исследования связаны с изучением аудио- и видеоматериалов, фиксирующих воспроизведение элементов народного творчества на национальных языках, создание текстовых записей с переводами и комментариями на языке общего пользования (в данной работе переводы представлены на русском языке), построение картины мира на основе источников. Для структурирования и представления контента используется подход на основе онтологий, который позволяет описывать не только ресурсы, но и предметные знания в стиле Semantic Web, т. е. с помощью иерархий классов, объектов и связей между ними. Основной особенностью фольклорных исследований является необходимость синхронизации переводов (создание параллельных корпусов текстов) и разметки текстов сущностями предметной области (семантическая разметка). При этом каждый корпус сопоставляется определенной народности и имеет как свой национальный язык, так и свою уникальную систему понятий об окружающем мире. Такое представление предъявляет множество нестандартных требований к платформе, таких как работа с произвольными языками, поддержка множества онтологий, обеспечение создания и редактирования национальных предметных онтологий, семантическая разметка текстов, представление, навигация и поиск по разнородным ресурсам. Разработанная платформа предоставляет все необходимые инструменты для исследований, включая инструменты для разработки онтологий национальных предметных областей и ручного аннотирования текстов в режиме реального времени несколькими специалистами. Размещение ресурсов на платформе осуществляется на основе онтологии ресурсов, включающей такие понятия как корпус, видео- и аудиоресурсы, графическое изображение, персона, географическое место, жанр текста и т. п. Онтологии предметных областей представлены в виде иерархии, где на верхнем уровне размещается онтология универсалий, общая для всех фольклорных исследований, а наследуемые онтологии специализируются для каждого представленного национального корпуса. Веб-приложение построено на основе фреймворка Python Django и библиотеки TypeScript React, хранение данных реализовано с помощью базы данных Postgres.
В настоящее время в связи с ростом научных публикаций все большую актуальность приобретают задачи, связанные с обработкой текстов научных статей. Такие тексты имеют особую структуру, лексическое и семантическое наполнение, что нужно учитывать при автоматическом анализе. Использование информации из баз знаний способно улучшить качество систем обработки текстов. Данная работа посвящена задаче связывания сущностей в текстах научных статей на русском языке, где в качестве сущностей выступают научные термины. Нами был размечен корпус научных текстов, где каждый термин связывался с сущностью из базы знаний. Также мы реализовали алгоритм связывания сущностей и протестировали его на полученном корпусе. Алгоритм состоит из двух этапов: генерация сущностей-кандидатов для входного термина и ранжирование полученного множества кандидатов. На этапе генерации список кандидатов формируется на основе построчного совпадения термина и сущности. Для ранжирования и выбора наиболее релевантной сущности для входного термина используется информация о количестве отношений сущности в базе знаний с другими сущностями, а также о количестве ссылок у сущности на другие базы знаний. Проведен анализ результатов и предложены возможные пути улучшения алгоритма, в частности использование информации о контексте термина и структуры графа знаний. Размеченный корпус выложен в открытый доступ и может быть полезен для других исследователей.
Описываются алгоритм импорта данных из социальной сети Twitter и построение взвешенных социальных графов. Для импорта данных за основу берутся заданные посты, скачиваются пользователи, имевшие с ними какое-либо из зафиксированных взаимодействий. Далее алгоритм ориентируется на заданную конфигурацию и по ней вычисляет веса на ребрах полученного графа. Конфигурация учитывает тип взаимодействия пользователей между собой. Авторы вводят понятие (F, L, C, R)-модели информационного взаимодействия.
Авторы описывают разработанный алгоритм и реализованное программное обеспечение для построения взвешенных графов. В статье показано применение алгоритма и трех моделей на примере как отдельного поста, так и серии постов.
На возникновение снежных лавин главным образом влияют метеорологические условия и конфигурация слоев снежного покрова. Методы машинного обучения имеют предиктивную силу и при должном качестве обучения способны предсказывать новые явления. При обучении моделей машинного обучения на данных о сходах лавин, метеорологических условиях и состоянии снежного покрова получен ансамбль моделей, предсказывающий возможность схода лавины. Представленная в статье модель использует для обучения данные о сходах лавин и метеорологические данные, что позволяет применять полученное решение в большем количестве горных районов, чем решения, использующие более широкий спектр менее доступных данных.
Данные о состоянии снежного покрова были сгенерированы программным пакетом SNOWPACK.
Изучение дисциплины «Информатика» на современном этапе практически невозможно представить без применения электронных образовательных ресурсов. В качестве этих ресурсов чаще всего выступают электронные учебно-методические комплексы (ЭУМК) дисциплины. Формирование комплекта учебных материалов для наполнения ЭУМК - трудоемкий и ресурсоемкий процесс, от результатов которого зависит эффективность работы студентов на занятии. Статья посвящена разработке автоматизированной системы синтеза структурированного учебного контента, представляющей собой универсальную оболочку ЭУМК дисциплины «Информатика». Система позволяет унифицировать подход к учебному процессу, применять ее вне зависимости от трудоемкости и содержания дисциплины, обеспечивать эффективную работу студентов в локальной вычислительной сети (ЛВС) вуза. Разработанная система включает в себя шесть независимых модулей, реализующих выбор параметров для загрузки комплекса, сервисные функции, загрузку ЭУМК, авторизацию и настройки, контроль формирования компетенций. В статье раскрыта концепция работы каждого модуля. Подробно описана работа модуля выбора параметров загрузки ЭУМК, приведена укрупненная графическая схема алгоритма его функционирования. Структура ЭУМК реализована в соответствии с рабочей программой дисциплины «Информатика». Весь учебный контент разделен на два логически завершенных раздела, каждый из которых включает в себя несколько подразделов. В качестве разделов и подразделов ЭУМК выступают узлы иерархического дерева TreeView, которые наполняются по специальному алгоритму элементами учебного контента. При наполнении ЭУМК в подраздел контрольно-измерительных материалов подключаются специально разработанные на языке VBA электронные интерактивные тренажеры - программы-генераторы заданий по разным темам, а также универсальная тестово-обучающая программа контроля знаний. Рассмотренная в статье система обладает следующими достоинствами: небольшой объем занимаемой на диске памяти, возможность работы как в ЛВС с выделенным сервером, так и с хранилищем на локальном компьютере студента, гибкое наполнение заявленных разделов в зависимости от объема рассматриваемого курса, уровня подготовки студентов.
Рассмотрено решение задачи автоматического формирования композиций сервисов. Предложенный метод формирует композиции сервисов на основе обработки статистических данных об отдельных применениях сервисов (заданий) пользователями. В основе метода лежит определение связей вызовов сервисов друг с другом по данным. Далее выделяются параметры сервисов, значения которых жестко заданы композицией сервисов, и параметры, значения которых может изменить пользователь. Формируются композиции сервисов в виде направленного графа заданий DAG. Разработаны методы редукции множества получаемых композиций сервисов, позволяющие выделить завершенные и ранжировать их по степени используемости. В частности, определяются эквивалентные композиции сервисов на основе изоморфизма графов DAG, отбрасываются тривиальные и оставляются только композиции, приводящие к публикуемому результату.
ISSN 2410-0420 (Online)