Preview

Вестник НГУ. Серия: Информационные технологии

Расширенный поиск

Метод извлечения многокомпонентных терминологических единиц с правыми определениями из научно-технических текстов

https://doi.org/10.25205/1818-7900-2024-22-3-5-14

Аннотация

   В статье предложен метод извлечения русскоязычных многокомпонентных терминов, в структуре которых есть правые определения. Проведен анализ современных методов и программных средств извлечения специальной терминологии, а на его основе показано, что они охватывают термины только с левыми определениями. Исследована формальная структура многокомпонентных терминологических единиц с правыми определениями, где особое внимание уделено их грамматическим особенностям. Обоснована нецелесообразность применения лемматизации ко всем компонентам  термина. Проанализирована корректность работы морфологических анализаторов в аспекте их применимости к извлечению многокомпонентных терминов. Приведены модели пятикомпонентных терминов, которые стали основой для разработки метода извлечения русскоязычных многокомпонентных терминов с правыми определениями. В моделях определены ядерный элемент, левое и правое определения, а также грамматические признаки правого определения. Проиллюстрированы различия в списках терминов-кандидатов при использовании традиционных подходов, использующих лемматизацию на первом этапе, и предложенного метода извлечения многокомпонентных терминов с правыми определениями.

Об авторе

Ю. И. Бутенко
Московский государственный технический университет им. Н. Э. Баумана
Россия

Юлия Ивановна Бутенко, кандидат технических наук

Москва



Список литературы

1. Nugumanova A., Akhmed-Zaki D., Mansurova M., Baiburin Y., Maulit A. NMF-based approach to automatic term extraction // Expert Systems with Applications. 2022. № 199. P. 117179. DOI: 10.1016/j.eswa.2022.117179

2. Lossio-Ventura J. A., Jonquet C., Roche M. et al. Biomedical term extraction: overview and a new methodology // Inf Retrieval. 2019. № 19. С. 59–99. DOI: 10.1007/s10791-015-9262-2

3. Astrakhantsev N. A., Fedorenko D. G., Turdakov D. Y. Methods for automatic term recognition in domain-specific text collections: A survey // Programming and Computer Software. 2015. Vol. 41, No. 6. P. 336–349. DOI 10.1134/S036176881506002X.

4. Granado N. G., Drouin P., Picton A. From statistical analysis to machine learning: Language in the service of terminology // Ela. Etudes de linguistique appliquee. 2022. № 208(4). Р. 447–467.

5. Клышинский Э. С., Кочеткова Н. А., Карпик О. В. Метод выделения коллокаций с использованием степенного показателя в распределении Ципфа // Новые информационные технологии в автоматизированных системах. 2018. № 21. С. 220–225.

6. Наместников А. М., Филлипов А. А., Шагабутдинов И. М. Подход к извлечению многословных терминов из текстов на естественном языке с применением синтаксических шаблонов // Автоматизация процессов управления. 2021. № 3 (65). С. 87–95. DOI: 10.35752/1991-2927-2021-3-65-87-95

7. Бутенко Ю. И., Строганов Ю. В., Сапожков А. М. Метод извлечения русскоязычных многокомпонентных терминов в корпусе научно-технических текстов // Прикладная информатика. 2021. № 6. С. 21–27. DOI: 10.37791/2687-0649-2021-16-6-21-27

8. Козловская Н. В., Янурик С. ИИ-композиты как объект неологии и неографии в XXI веке // Филологические науки. Научные доклады высшей школы. 2021. № 2. С. 23–30. DOI: 10.20339/PhS.2-21.023

9. Большакова Е. И., Лукашевич Н. В., Нокель М. А. Извлечение однословных терминов из текстовых коллекций на основе методов машинного обучения // Информационные технологии. 2013. № 7. С. 31–36.

10. Бручес Е. П., Батура Т. В. Метод автоматического извлечения терминов из научных статей на основе слабоконтролируемого обучения // Вестник НГУ. Серия: Информационные технологии. 2021. Т. 19, № 2. С. 5–16. DOI: 10.25205/1818-7900-2021-19-2-5-16

11. Гринев-Гриневич С. В., Сорокина Э. А., Молчанова М. А. Терминоведение. Изд. 3-е, испр. и доп. М.: ЛЕНАРД, 2023. 500 с.

12. Бутенко Ю. И., Николаева Н. С., Карцева Е. Ю. Структурные модели англоязычных терминов для автоматической обработки корпусов научно-технических текстов // Вестник Российского университета дружбы народов. Серия: Теория языка. Семиотика. Семантика. 2022. Т. 14, № 1. С. 80–95 DOI: 10.22363/2313-2299-2022-13-1-80-95

13. Бутенко Ю. И., Строганов Ю. В., Сапожков А. М. Система извлечения многокомпонентных терминов и их переводных эквивалентов из параллельных научно-технических текстов // Научно-техническая информация: Серия 2. Информационные процессы и системы. 2022. № 9. С. 12–21. DOI: 10.36535/0548-0027-2022-09-3


Рецензия

Для цитирования:


Бутенко Ю.И. Метод извлечения многокомпонентных терминологических единиц с правыми определениями из научно-технических текстов. Вестник НГУ. Серия: Информационные технологии. 2024;22(3):5-14. https://doi.org/10.25205/1818-7900-2024-22-3-5-14

For citation:


Butenko I.I. Method for Extracting Multi-Component Terminological Units with Right Definitions from Scientific and Technical Texts. Vestnik NSU. Series: Information Technologies. 2024;22(3):5-14. (In Russ.) https://doi.org/10.25205/1818-7900-2024-22-3-5-14

Просмотров: 126


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7900 (Print)
ISSN 2410-0420 (Online)