Preview

Вестник НГУ. Серия: Информационные технологии

Расширенный поиск

Извлечение семантических отношений из текстов научных статей

https://doi.org/10.25205/1818-7900-2022-20-3-65-76

Аннотация

В современном мире количество научных публикаций, существующих в виде электронного текста, постоянно растет. В связи с этим задачи, связанные с обработкой текстов научных статей, становятся особо актуальными. Данная работа посвящена задаче извлечения семантических отношений между сущностями из текстов научных статей на русском языке, где в качестве сущностей выступают научные термины. Извлечение отношений может быть полезно в отдельных специализированных областях, таких как поисковые и вопросно-ответные системы, а также при составлении онтологий. В ходе работы нами был создан корпус научных текстов, состоящий из 136 аннотаций научных статей на русском языке, в которых выделены 353 отношения следующих типов: USAGE, ISA, TOOL, SYNONYMS, PART_OF, CAUSE. Данный корпус использовался нами для обучения моделей. Кроме того, мы реализовали алгоритм автоматического извлечения семантических отношений и протестировали его на уже существующем корпусе научных текстов RuSERRC. Для реализации алгоритма использовалась нейросетевая модель BERT. Мы провели ряд экспериментов, связанных с использованием векторов, полученных из различных языковых моделей, а также с двумя нейросетевыми архитектурами. Разработанный инструмент и размеченный корпус выложены в открытый доступ и могут быть полезны для других исследователей.

Об авторах

О. Ю. Тихобаева
Новосибирский государственный университет
Россия


Е. П. Бручес
Институт систем информатики им. А. П. Ершова СО РАН; Новосибирский государственный университет
Россия


Т. В. Батура
Институт систем информатики им. А. П. Ершова СО РАН; Новосибирский государственный университет
Россия


Список литературы

1. Auger A., Barrière C. Pattern-based approaches to semantic relation extraction: A state-of-theart. Terminology, 2008. Vol. 14, no. 1. Pp. 1–19. DOI: 10.1075/term.14.1.02 aug

2. Kambhatla N. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations. Proceedings of the ACL Interactive Poster and Demonstration Sessions, 2004. pp. 178–181. DOI: 10.3115/1219044.1219066

3. Zeng D., Liu K., Lai S., Zhou G., Zhao J. Relation classifcation via convolutional deep neural network. Proceedings of COLING 2014, the 25th international conference on computational linguistics: technical papers, 2014. Pp. 2335–2344.

4. Bruches E., Pauls A., Batura T., Isachenko V. Entity recognition and relation extraction from scientifc and technical texts in Russian. 2020 Science and Artifcial Intelligence conference (S.A.I.ence), IEEE, 2020. Pp. 41–45. DOI: 10.1109/s.a.i.ence50533.2020.9303196

5. Bruches E., Mezentseva A., Batura T. A system for information extraction from scientifc texts in Russian, 2021. arXiv preprint arXiv:2109.06703.

6. Devlin J., Chang M.W., Lee K., Toutanova K. Bert: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota, 2019. Vol. 1 (Long and Short Papers). Pp. 4171–4186. arXiv preprint arXiv:1810.04805. DOI: 10.18653/v1/N19-1423.

7. Luan Y., He L., Ostendorf M., Hajishirzi H. Multi-task identifcation of entities, relations, and coreference for scientifc knowledge graph construction. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 2018. Pp. 3219–3232. DOI: 10.18653/v1/D18-1360

8. Wu S., He Y. Enriching pre-trained language model with entity information for relation classifcation. Proceedings of the 28th ACM international conference on information and knowledge management, 2019. p. 2361-2364. DOI: 10.1145/3357384.3358119

9. Kuratov Y., Arkhipov M. Adaptation of deep bidirectional multilingual transformers for Russian language. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2019”, Moscow, May 29—June 1, 2019. arXiv preprint arXiv:1905.07213

10. Zhang B., Williams P., Titov I., Sennrich R. Improving massively multilingual neural machine translation and zero-shot translation. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020. Pp. 1628–1639, Online. arXiv preprint arXiv:2004.11867. DOI: 10.18653/v1/2020.acl-main.148


Рецензия

Для цитирования:


Тихобаева О.Ю., Бручес Е.П., Батура Т.В. Извлечение семантических отношений из текстов научных статей. Вестник НГУ. Серия: Информационные технологии. 2022;20(3):65-76. https://doi.org/10.25205/1818-7900-2022-20-3-65-76

For citation:


Tikhobaeva O.Yu., Bruches E.P., Batura T.V. Extracting Semantic Relations from the Texts of Scientifc Articles. Vestnik NSU. Series: Information Technologies. 2022;20(3):65-76. (In Russ.) https://doi.org/10.25205/1818-7900-2022-20-3-65-76

Просмотров: 250


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7900 (Print)
ISSN 2410-0420 (Online)