Preview

Вестник НГУ. Серия: Информационные технологии

Расширенный поиск

Разработка чат-ботов для поддержки поиска по контенту веб-сайтов на основе тематических и жанровых характеристик

https://doi.org/10.25205/1818-7900-2021-19-4-50-66

Аннотация

Рассматривается подход к созданию интеллектуальных помощников в виде чат-ботов, поддерживающих информационный поиск на основе предварительной жанровой и тематической кластеризации контента веб-сайтов. Решаются задачи поиска необходимой информации и обеспечения информационной поддержки пользователя, организации обратной связи для улучшения качества поиска. Особенностью подхода является использование жанровых моделей, разрабатываемых для заданного типа ресурса (образовательный, информационный и т. п.), на основе которых осуществляется жанровая структуризация контента конкретного сайта. Полученные жанровые структуры позволяют более точно определять границы тематических кластеров, относящиеся к теме поискового запроса пользователя. Для обеспечения обратной связи с пользователем разработан простой сценарий, позволяющий не просто уточнить запрос, но и неявно получить информацию о том, что именно не устроило пользователя в результирующей выдаче. Проведено экспериментальное исследование на платформе Telegram, полученные результаты сравнивались с поисковой системой Яндекс.

Об авторах

В. Д. Рублев
Новосибирский государственный университет
Россия

Владислав Дмитриевич Рублев, студент магистратуры

Новосибирск



Е. А. Сидорова
Институт систем информатики им. А. П. Ершова Сибирского отделения Российской академии наук
Россия

Елена Анатольевна Сидорова, кандидат физико-математических наук, старший научный сотрудник

Новосибирск



Список литературы

1. Кутовенко А. Профессиональный поиск в интернете. СПб.: Питер, 2011. 252 с.

2. Stanislaw Osinski, Dawid Weiss. Carrot2 Project. In: Carrot2 – Open Source Search Results Clustering Engine. URL: http://project.carrot2.org/.

3. Radhakrishnan Arun. Hakia’s Semantic Search : The Answer to Poor Keyword Based Relevancy. Search Engine Journal. URL: https://www.searchenginejournal.com/hakias-semantic-search-the-answer-to-poor-keyword-based-relevancy/5246/.

4. Nimavat K., Champaneria T. Chatbots: an overview of types, architecture, tools and future possibilities. Int. J. Sci. Res. Dev., 2017, pp. 1019–1024.

5. Wu Y., Wu W., Xing C., Zhou M., Li Z. Sequential Matching Network: A New Architecture for Multiturn Response Selection in Retrieval-based Chatbots. In: ArXiv:11612.01627, 2017.

6. Kapočiūtė-Dzikienė J. A Domain-Specific Generative Chatbot Trained from Little Data. Applied Sciences, 2020, vol. 10, p. 2221.

7. Heriberto Cuayáhuitl, Donghyeon Lee, Seonghan Ryu, Yongjin Cho, Sungja Choi, Satish Indurthi, Seunghak Yu, Hyungtak Choi, Inchul Hwang, Jihie Kim. Ensemble-based deep reinforcement learning for chatbots. Neurocomputing, 2019, vol. 366, pp. 118–130.

8. Kim Sihyung, Kwon Oh-Woog, Kim Harksoo. Knowledge-Grounded Chatbot Based on Dual Wasserstein Generative Adversarial Networks with Effective Attention Mechanisms. Applied Sciences, 2020, vol. 10.

9. Бахтин М. М. Проблема речевых жанров // Эстетика словесного творчества. М.: Искусство, 1986. C. 250–296.

10. Кононенко И. С., Сидорова Е. А. Жанровые аспекты классификации веб-сайтов // Программная инженерия. 2015. № 8. С. 32–40.

11. Сидорова Е. А. Комплексный подход к исследованию лексических характеристик текста // Вестник СибГУТИ. 2019. № 3. С. 80–88.

12. MacQueen J. B. Some Methods for classification and Analysis of Multivariate Observations. In: Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. University of California Press, 1967, pp. 281–297.

13. Guo J., Hartung S., Komusiewicz C. et al. Exact algorithms and experiments for hierarchical tree clustering. In: Proceedings of the TwentyFourth AAAI Conference on Artificial Intelligence (AAAI-10), 2010, pp. 1–6.

14. Manwar A., Mahalle H., Chinchkhede K. et al. A vector space model for information retrieval: a matlab approach. Indian Journal of Computer Science and Engineering, 2012, no. 3, pp. 222–230.

15. Erendira Rendon, Itzel Abundez, Alejandra Arizmendi et al. Internal versus external clus-ter validation indexes. International Journal of Computers and Communications, 2011, vol. 5, no. 1, pp. 27–34.

16. Yanchi Liu, Zhongmou Li, Hui Xiong et al. Understanding of internal clustering validation measures. In: IEEE International Conference on Data Mining, 2010, pp. 911–916. DOI 10.1109/tsmcb.2012.2220543

17. Olatz Arbelaitz, Ibai Gurrutxaga, Javier Muguerza et al. An extensive comparative study of cluster validity indices. Pattern Recognition, 2013, vol. 46, no. 1, pp. 243–256. DOI 10.1016/j.patcog.2012.07.021

18. Rousseeuw Peter J. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 1987, vol. 20, pp. 53–65. DOI 10.1016/0377-0427(87)90125-7

19. Sirotkin P. F. On Search Engine Evaluation Metrics. In: ArXiv:abs/1302.2318, 2013, pp. 24–26.

20. Белозеров В. Н. Эффективность систем Яндекс и Гугл для поиска учебного материала // Вестник МГУКИ. 2015. № 1. С. 208–213.


Рецензия

Для цитирования:


Рублев В.Д., Сидорова Е.А. Разработка чат-ботов для поддержки поиска по контенту веб-сайтов на основе тематических и жанровых характеристик. Вестник НГУ. Серия: Информационные технологии. 2021;19(4):50-66. https://doi.org/10.25205/1818-7900-2021-19-4-50-66

For citation:


Rublev V.D., Sidorova E.A. Development of Chatbots to Support Web Site Content Search Based on Thematic and Genre Characteristics. Vestnik NSU. Series: Information Technologies. 2021;19(4):50-66. (In Russ.) https://doi.org/10.25205/1818-7900-2021-19-4-50-66

Просмотров: 124


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7900 (Print)
ISSN 2410-0420 (Online)