Preview

Вестник НГУ. Серия: Информационные технологии

Расширенный поиск

О повышении качества выходных данных в вопросно-ответной системе, обрабатывающей климатическую информацию

https://doi.org/10.25205/1818-7900-2024-22-4-5-16

Аннотация

Разработка вопросно-ответной системы (QA), обрабатывающей климатическую информацию, опирается на использование разнородных климатических данных в различных форматах (текстовые, числовые, графические, видео, аудио, географические и данные мониторинга). Обязательным элементом вопросно-ответной системы должен являться инструмент, позволяющий обрабатывать и анализировать подобные данные.
Процессы поиска и извлечения данных выступают центральной частью рассматриваемой системы, поскольку от них во многом зависит качество сгенерированного ответа. Точный способ извлечения данных имеет решающее значение для выходных данных системы QA, а также для проблем принятия решений, так как существуют ситуации, в которых LLM генерирует ответы, соответствующие контексту, но фактически являющиеся неверными и не соответствующими входным данным. Использование правильных метрик и алгоритмов для некоторых типов данных и неправильных для других может привести к превышению допустимого порога нерелевантных данных, что, в свою очередь, может снизить качество ответов. Дополненная поисковая генерация (Retrievalaugmented Generation, RAG) также может использоваться для оптимизации входных данных для этой задачи.
В работе рассматриваются различные алгоритмы извлечения данных и ранжирования документов, а также возможность использования ансамблей агентов LLM при разработке вопросно-ответной системы, обрабатывающей климатическую информацию.

Об авторах

О. Ю. Гавенко
Федеральный исследовательский центр информационных и вычислительных технологий; Новосибирский государственный университет
Россия

Гавенко Ольга Юрьевна, доктор технических наук, кандидат филологических наук, ведущий научный сотрудник; старший преподаватель кафедры математического моделирования

Новосибирск



Н. А. Шашок
Федеральный исследовательский центр информационных и вычислительных технологий
Россия

Шашок Наталья Александровна, аспирант

Новосибирск



Список литературы

1. Hirschman L., Gaizauskas R. Natural language question answering: the view from here // Natural Language Engineering Journal. 2001. Vol. 7, no. 4. P. 275–300. DOI: 10.1017/S1351324901002807

2. Keen P. G. W, Michael S. S. M. Decision support systems: an organizational perspective. Michigan, Addison-Wesley, 1978.

3. Woods W. A. Progress in natural language understanding: an application to lunar geology // Proceedings of the national computer conference and exposition (AFIPS ‘73), 1974, Association for Computing Machinery, New York, NY, USA, p. 441–450. DOI: https://doi.org/10.1145/1499586.1499695

4. Lewis P., Perez E., et al. Retrieval-augmented generation for knowledge-intensive NLP tasks // Proceedings of the 34th International Conference on Neural Information Processing Systems (NIPS ‘20), 2020, Curran Associates Inc., Red Hook, NY, USA, Article 793, p. 9459–9474. DOI: 10.48550/arXiv.2005.11401

5. Wang L., Lo K. et al. CORD-19: The COVID-19 Open Research Dataset. ArXiv, abs/2004.10706, 2020. DOI: 10.48550/arXiv.2004.10706

6. Rajpurkar P., Zhang J., Lopyrev K., Liang P. Squad: 100,000+ questions for machine comprehension of text // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 2016, Association for Computational Linguistics, Austin, Texas, USA, p. 2383–2392. DOI: 10.18653/v1/D16-1264

7. Magesh V., Surani F., Dahl M., Suzgun M. et al. Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools. ArXiv, abs/2405.20362, 2024. DOI: 10.48550/arXiv.2405.20362

8. Page L., Brin S., Motwani R., Winograd T. The PageRank Citation Ranking: Bringing Order to the Web. Technical Report, Stanford InfoLab, 1999.

9. Фадеев С. В. Экологический словарь. СПб., 2011.

10. Florin C., Giovanni T. et al: The Power of Noise: Redefining Retrieval for RAG Systems // Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2024, Association for Computing Machinery, New York, NY, USA, p. 719–729. DOI: 10.1145/3626772.3657834

11. Cormack G. V., Clarke C. L., Büttcher S. Reciprocal rank fusion outperforms condorcet and individual rank learning methods // Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, 2009, Association for Computing Machinery, New York, NY, USA, p. 758–759. DOI: 10.1145/1571941.1572114


Рецензия

Для цитирования:


Гавенко О.Ю., Шашок Н.А. О повышении качества выходных данных в вопросно-ответной системе, обрабатывающей климатическую информацию. Вестник НГУ. Серия: Информационные технологии. 2024;22(4):5-16. https://doi.org/10.25205/1818-7900-2024-22-4-5-16

For citation:


Gavenko O.Yu., Shashok N.A. On Increasing the Quality of the Climate Observations Question-Answering System’s Output Data. Vestnik NSU. Series: Information Technologies. 2024;22(4):5-16. (In Russ.) https://doi.org/10.25205/1818-7900-2024-22-4-5-16

Просмотров: 110


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7900 (Print)
ISSN 2410-0420 (Online)