Абхья Трипати
Резюмирование документа — очень сложная задача в текстовой аналитике. Резюмирование большого документа в кратких коротких предложениях, которые являются подгруппой исходного текста, называется извлекаемым резюмированием. Существуют различные приложения текстового резюмирования, но здесь статьи CNN News резюмируются до его ключевых предложений. В этом проекте алгоритм тематического моделирования скрытое распределение Дирихле используется для создания извлекаемого текстового резюмирования. Он используется для извлечения важных тем из текста, а затем с помощью механизма распределения весов предложения извлекаются из текста. Модель хорошо работает с данными и извлекает резюме для новостной статьи. Это помогает экономить время на чтение длинных текстов или документов. Резюмирование документа — это средство извлечения значимых и релевантных данных из документа и создания фрагмента всеобъемлющей и значимой информации. В этом проекте выполняется извлекаемое обобщение больших документов с использованием сегментированного списка предложений документа и применяется к алгоритму скрытого распределения Дирихле (LDA) для извлечения основных тем. Затем, используя частоту слов этих тем в предложениях, извлекаются ключевые предложения с наивысшим распределением для обобщения текста. Отчет структурирован ниже в следующих разделах. Обзор литературы в разделе II, в котором обсуждается работа различных авторов по обобщению документов и LDA. Раздел III определяет фактическую методологию, реализованную с использованием модели LDA, и включает обработку данных. Эмпирические результаты моделирования текста и обобщения документов обсуждаются в сегменте IV. Наконец, раздел V дает заключение и будущие возможности. Обобщение этой информации имеет большое значение и необходимость. Обобщение документов превратилось в значимое исследование в областях обработки естественного языка (NLP) и больших данных. Извлекаемое обобщение с использованием алгоритма моделирования тем LDA успешно генерирует обобщение важных предложений из исходного документа. Он также обеспечивает хороший уровень разнообразия тем. Позже мы, возможно, захотим исследовать прогрессивные целевые работы и улучшить генерацию резюме и использовать разнообразные методы моделирования тем. Аналогично, мы хотим оценить наш способ работы с различными диалектами. Существует будущая область генерации абстрактных резюме, которые больше похожи на человеческие резюме и потребуют тяжелых инструментов машинного обучения для генерации семантического языка.