Preview

Вестник НГУ. Серия: Информационные технологии

Расширенный поиск

АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ РЕШЕТОК ПОНЯТИЙ ИЗ МЕДИЦИНСКИХ ТЕКСТОВ НА ОСНОВЕ КОМБИНАЦИИ АНАЛИЗА ФОРМАЛЬНЫХ ПОНЯТИЙ И ТЕХНОЛОГИЙ БУТСТРАППИНГА

https://doi.org/10.25205/1818-7900-2018-16-4-140-152

Аннотация

Рассматривается новый способ извлечения понятий из текстов предметной области на основе комбинации анализа формальных понятий и бутстрап-технологии информационного поиска. Анализ формальных понятий представляет собой мощный аппарат автоматического вывода понятий предметной области, однако он рассчитан на высокое качество входных данных, без пропусков и неточностей. Получение таких наборов данных напрямую из текстов затруднено в силу сильной разреженности текстовых корпусов. Соответственно, представляется перспективным улучшение качества входных данных за счет применения бутстраппинга - технологии, обеспечивающей интеллектуальный поиск фрагментированной информации в сети Интернет. Цель данной работы - показать, что при правильном выборе исходных шаблонов поиска бутстраппинг, основанный на использовании открытых ресурсов Интернета как ценных источников знаний, превращается в эффективный инструмент поддержки концептуального моделирования.

Об авторах

А. Б. Нугуманова
Восточно-Казахстанский государственный университет им. С. Аманжолова
Россия


Е. М. Байбурин
Восточно-Казахстанский государственный университет им. С. Аманжолова
Россия


М. Е. Мансурова
Казахский национальный университет им. аль-Фараби
Россия


В. Б. Барахнин
Институт вычислительных технологий СО РАН; Новосибирский государственный университет
Россия


Список литературы

1. Игнатов Д. И. Анализ формальных понятий: от теории к практике // Доклады всероссийской научной конференции АИСТ'12 «Анализ изображений, сетей и текстов». 16-18 марта 2012 г. Национальный открытый университет «ИНТУИТ». Екатеринбург, 2012. С. 3-15.

2. Ganter B., Wille R. Formal concept analysis: mathematical foundations. Springer Science & Business Media, 2012. 284 p.

3. Кузнецов О. С., Объедков С. А. Алгоритмы построения множества всех понятий формального контекста и его диаграммы Хассе // Изв. РАН. Теория и системы управления. 2001. № 1. С. 120-129.

4. Hwang Y. S., Finch A., Sasaki Y. Improving statistical machine translation using shallow linguistic knowledge // Computer Speech & Language. 2007. Vol. 21. No. 2. P. 350-372.

5. Crysmann B. et al. An integrated architecture for shallow and deep processing // Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002. P. 441-448.

6. PullEnti / К. И. Кузнецов. 2013. URL: http://www.pullenti.ru/Default.aspx (дата обращения 07.01.2018).

7. Kozerenko E., Kuznetsov K., Morozova Yu., Romanov D. Semantic Proximity Establishment in the Tasks of Knowledge Extraction and Named Entities Recognition // Proc. of the 2017 Int. Conf. on Artificial Intelligence. 2017. P. 339-344.

8. Zipf G. Selective Studies and the Principle of Relative Frequency in Language. Cambridge, 1932.

9. Nadeau D., Turney P., Matwin S. Unsupervised Named-Entity Recognition: Generating Gazetteers and Resolving Ambiguity // Advances in Artificial Intelligence. 2006. P. 266-277.

10. Schapire R. E. The boosting approach to machine learning: An overview // Nonlinear estimation and classification. New York: Springer, 2003. P. 149-171.

11. Vieira K. et al. Finding seeds to bootstrap focused crawlers // World Wide Web. 2016. Vol. 19. No. 3. P. 449-474.


Рецензия

Для цитирования:


Нугуманова А.Б., Байбурин Е.М., Мансурова М.Е., Барахнин В.Б. АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ РЕШЕТОК ПОНЯТИЙ ИЗ МЕДИЦИНСКИХ ТЕКСТОВ НА ОСНОВЕ КОМБИНАЦИИ АНАЛИЗА ФОРМАЛЬНЫХ ПОНЯТИЙ И ТЕХНОЛОГИЙ БУТСТРАППИНГА. Вестник НГУ. Серия: Информационные технологии. 2018;16(4):140-152. https://doi.org/10.25205/1818-7900-2018-16-4-140-152

For citation:


Nugumanova A.B., Bayburin E.M., Mansurova M.E., Barakhnin V.B. AUTOMATIC EXTRACTION OF FORMAL LATTICES FROM MEDICAL TEXTS BASED ON THE COMBINATION OF THE FORMAL CONCEPT ANALYSIS AND BOOTSTRAPPING TECHNOLOGIES. Vestnik NSU. Series: Information Technologies. 2018;16(4):140-152. (In Russ.) https://doi.org/10.25205/1818-7900-2018-16-4-140-152

Просмотров: 65


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7900 (Print)
ISSN 2410-0420 (Online)