Новости

АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ И АННОТИРОВАНИЕ ТЕКСТА

Работа добавлена:






АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ И АННОТИРОВАНИЕ ТЕКСТА на http://mirrorref.ru

«МОСКОВСКИЙ ГОРОДСКОЙ ПЕДАГОГИЧЕСКИЙ УНИВЕРСИТЕТ»

ИНСТИТУТ ИНОСТРАННЫХ ЯЗЫКОВ

КАФЕДРАЯПОНСКОГО ЯЗЫКА

Работа№ 1по теме

«АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ И АННОТИРОВАНИЕ ТЕКСТА»

Дисциплина «Информационные технологии в лингвистике»

41.03.03 - Востоковедение

программа – Языки и литература стран Азии – японский язык

форма обучения – очная

студентка группывя-163

Гвоздева О.Д.

к.т.н., доцент Скотченко А.С.

г. Москва, 2016 г.

Оглавление

  • Оглавление
  • ВВЕДЕНИЕ
  • РЕФЕРИРОВАНИЕ
  • ВИДЫ РЕФЕРАТОВ
  • ОБЩАЯ МЕТОДИКА РЕФЕРИРОВАНИЯ ДОКУМЕНТЫ
  • МЕТОДЫ РЕФЕРИРОВАНИЯ
  • ПРИМЕРЫ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ
  • АННОТИРОВАНИЕ ДОКУМЕНТА
  • ТЕОРЕТИЧЕСКИЕ ОСНОВЫ АННОТИРОВАНИЯ.
  • МЕТОДИКА АННОТИРОВАНИЯ ДОКУМЕНТА.
  • ПРИМЕРЫ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ ТЕКСТА
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ РЕСУРСОВ

ВВЕДЕНИЕ

Автоматическое реферирование и аннотирование текста получили значительную актуальность в связи с развитием Интернета и информационных ресурсов. С помощью таких инструментов, как аннотация и реферат, люди могут найти необходимую им информацию значительно экономя время поиска.

Рефератом называют:

  • доклад или обзор на какую-то конкретную тему, содержащий в себе обзор соответствующих научных, литературных и других источников;
  • изложение в сжатом и обобщенном виде содержания научной работы, книги и т.п..

Под аннотацией понимается очень сжатое изложение содержания и краткая характеристика произведения печати, рукописи или другого источника информации. Вне зависимости от варианта подачи источника информации аннотация обычно приводится после библиографического описания источника, например для книг, либо после заголовка и авторов статьи Аннотацию от реферата отличают:

  • существенно меньший объем у аннотации, нежели у реферата;
  • обязательная констатация назначения аннотируемого произведения
  • содержит в себе информацию исключительно из аннотируемого документа, в отличие от реферата, который может содержать дополнительную информацию в виде каких либо выводов и заключений.

РЕФЕРИРОВАНИЕ

ВИДЫ РЕФЕРАТОВ

Как уже было упомянуто выше, реферат – это краткое изложение содержания какого-либо документа, который включает основные фактические выводы и сведения.  Реферат позволяет ограничиться малым объёмом, при этом, не теряя основу содержания первичного документа.

По своему типу рефераты делятся на несколько основных  категорий:

типы рефератов

категории рефератов

1.

по полноте изложения информации

рефераты-конспекты (информативные)

рефераты-резюме (индикативные)

2.

по количеству первичных источников

монографические

обзорные

3.

по назначению

общие

специализированные

4.

по характеру подачи материала

продуктивные

репродуктивные

Общий реферат  –  в целом передает содержание документа.

Специализированный реферат - ориентирован на узкоспециальную группу определенной сферы деятельности.

Репродуктивный реферат - просто воспроизводит содержание первоисточника, без дополнительного стороннего анализа и отражения точки зрения автора. Репродуктивный реферат содержит элементы   реферата-конспекта  и реферата-резюме.

Реферат-конспект (информативный) - содержит фактическую информацию в обобщённом виде, иллюстрированный материал, различные сведения о методах исследования, результатах исследования и возможностях их применения.

Реферат-резюме (индикативный) - содержит только основные аспекты  положения данной темы, работы.

Обзорный реферат - составляется на основе двух и более  источников литературы по одной исследуемой тематике.

Монографический реферат - в отличие от обзорных рефератов, пишутся на основе одного литературного или научного источника на заданную тему.

В продуктивных рефератах выделяют реферат-доклад и реферат-обзор.

Реферат-обзор - составляется на основе нескольких источников и сопоставляет различные точки зрения по данному вопросу.

Реферат-доклад - представляет собой развернутое изложение информации первоисточников на определенную тему, предназначенное для доклада.

ОБЩАЯ МЕТОДИКА РЕФЕРИРОВАНИЯ ДОКУМЕНТЫ

Как нам уже известно, реферированием называется  процесс выделения наиболее важной информации из первичного документа для создания новой сокращенной версии документа, исходя из конкретной цели.

Этот процесс можно подразделить на несколько этапов:

  1. Ознакомительный – предварительное ознакомление и изучение первоисточника.
  2. Аналитический – выделение реферативных сведений из первичного документа.
  3. Синтетический – суммирование полученных сведений и изложение их в тексте реферата.
  4. Редакционный – проверка текста реферата на соответствие предъявляемым к нему требованиям.
  5. Оформительский – включение текста реферата в библиографическую запись.

Как показывает практика реферирования, первым трем этапам реферирования соответствуют 3 основных вида чтения: ознакомительное, изучающее, реферативное.

  • Формированием общего представления о первичном документе называютознакомительным чтением.
  • Подизучающим видом чтения понимают осознанное и вдумчивое чтение, в процессе которого происходит запоминание содержания  текста.
  • Умение обобщать и извлекать из текста первичного документа наиболее важную и необходимую информацию называютреферативным чтением. В результате такого чтение происходит краткое изложение содержания первоисточника.

Первый этап реферирования.

Первый этап реферирования – это процесс первоначального изучения источника для выявления его информативности.

Информативностью является степень  смысловой и содержательной новизны документа. Она также зависит от ряда факторов, которые подразделяются на  две группы:семантические –влияют на содержание сообщения, ипрагматические –определяет степень полезности для данного потребителя.

Существует несколько основных задач, которые ставятся перед референтом: определить тему текста, проанализировать, понять и осмыслить текст в целом.

Референту необходимо осмыслить данный источник, понять, что именно автор хотел передать в нем читателю, и определить значение и смысл текста.

Работа со справочной литературой

При чтении какого-либо текста обязательно будут встречаться непонятные слова или словосочетания. Незнакомое слово ведет к непониманию мысли, выраженной с его помощью, и, в свою очередь, к непониманию прочитанного. Поэтому одним из важнейших этапов подготовки к реферированию является– работа со справочной литературой.

Она поможет разобраться, устранить все непонятные моменты, возникшие при чтение текста, составить представление об авторе реферируемого источника. В процессе этой работы выясняются значение неясных терминов. Кроме того, если прибегнуть к справочной и дополнительной литературе, то это поможет осмыслить заключенную в первоисточнике информацию, оценить актуальность и релевантность его содержания.

Второй этап реферирования

Этот этап начинается с реферативного чтения. Осуществляется реферативный анализ текста. Для этого данный текст расчленяется на несколько отдельных фрагментов. Главной задачей для референта является извлечь информацию, не теряя степени ее полноты, осмыслить и понять каждый фрагмент. Затем выявляется наиболее важная и ценная информация и определяется способ ее представления в соответствии с целевым назначением  реферата.

Анализ содержания документа – э то совокупность методов, применяемых для извлечения из первичного документа социологической информации при изучении социальных процессов и явлений в целях решения определенных исследовательских задач.

Третий этап реферирования.

На этом этапе происходит обобщение выделенной информации и завещается оформление текста реферата. Реферативное чтение переходит в реферативное изложение.

В процессе этого этапа составляется план реферата. При этом создается новый, целостный текст, который является элементом библиографической записи. Его структура обусловлена логикой взаимосвязей отобранных из первоисточника сведений и может в корне отличаться от композиции материала первичного документа.

Задачей овладения реферативным чтением является формирование навыков не только извлечения, но и обобщения ценной информации, которая содержится в обрабатываемом документе.

Реферативное изложение – это способ изложения текста реферата. Оно углубляет понимание прочитанного при реферативном чтении.

Задачи реферативной информации (сформулированы А.А. Гречихиным и И.Г. Здоровым):

  • Установление новой социальной информации, введенной в систему общения;
  • Научный анализ и оценка новой социальной информации (установление ценной социальной информации);
  • Рекомендация социальной информации, которая необходима для осуществления  данной общественной деятельности, для данного потребителя (установление полезной социальной информации).

Так как возникло изменение характера запросов специалистов (потребность в более многоаспектной и узконаправленной тематике информации)  это направление получило наибольшее внимание в рамках информатики. В информатике делается упор на умение алгоритмически извлекать из текста первоначального документа отдельные информативные конспекты, которые характеризуют разные аспекты содержания.

Реферат формирует совокупность отобранных фрагментов из исходного текста.

Ручные методы обработки обеспечивают максимальное качество переработки текстов, но очевидно, что для обработки более крупных документов придется прибегать к машинным технологиям. Их плюсы заключаются в оперативности, дешевизне, однородности получаемых результатов.

Существуют несколькоспособов изложения информации в реферате:

  • Экстрагирование – метод анализа, благодаря которому достигается цитирование. Построение реферата на основе выписки из изначального текста предложений, которые  содержат смысловые аспекты. То есть текст реферата составляется из предложений текста первичного документа. Эти предложения определяются по внешним признакам, т. с. маркерами (словесными клише, речевыми образцами). Чаще всего этот способ изложения информации применяется при автоматизации реферирования.
  • Перефразирование – один из самых распространённых способов изложения, основанного на построение реферата на основе перефразирования изначального текста, не теряя его основного содержания и сути. При таком методе допускается перестройка текстовых предложений, т.е. замещение, совмещение и обобщение текста. Здесь имеет значение отчасти текстуальное совпадение с исходным документом.
  • Интерпретация - построение реферата на основе обобщенного представления о содержании исходного документа. При таком методе референт оперирует не самим текстом первичного, а его содержанием.
  • Сводный реферат – это реферат, составленный на основе двух и более исходных документов. При этом результаты поиска в отдельных документах группируются, как правило, по категориям.

МЕТОДЫ РЕФЕРИРОВАНИЯ

Существуют несколько методов реферирования, которые были разработаны в библиографии и информатике.

В библиографической системе было большие внимание уделялось разработке методов, с помощью которых можно было бы осмыслить содержание первоначального документа в общем, а не его отдельных частей. Ссылаясь на тему реферата  и информационно-поисковую систему, его отражающего, путем полученного опыта разрабатывались специальные перечни характеристик, присущи этой тематике. Вместе с этим определялась полезность и рациональность включения тех или иных сведений в реферат, их информативность.

В итоге появились такие методы как:

Аспектные методы (поаспектные)

Их использование основано на умении обработчика, обладающего необходимой информацией о предмете, освоить содержание первоначального источника и создать вторичный документ.

При аспектном реферировании применяются отраслевые и универсальные схемы, которые служат управлением для выбора значительной информации в тексте

Метод алгоритмического избирательного свертывания текстов (АИСТ).

В этой методике для каждого типа и жанра документа существует свой процесс анализа, в результате которого достигается как большая последовательность, так и экономичность свертывания.

Существуют такие способы изложения информации в реферате как:

  • Экстрагирование – является одним из методов анализа, благодаря которому достигается цитирование. То есть это значит, что  текст реферата создается из предложений первичного документа текста и определяются по внешним признакам. В большинстве случаев этот способ изложения информации используется при автоматизации реферирования.
  • Перефразирование – наиболее распространённый метод построения реферата, в основу которого входит передача основного содержания исходного документа в изменённом, т.е. перефразированном  виде. Возможны такие элементы как замещение (заменяются одни фрагменты текста другими), обобщение и совмещение (объединяют несколько предложений в одно) текстовых предложений. При таком методе в некоторой мере возможно текстуальное совпадение с изначальным текстом.
  • Интерпретация – один из самых сложных методов построения реферата, где референт пользуется не самим текстом, а его смыслом, содержанием. Содержание документа может раскрываться в реферате либо в последовательности, принятой в тексте, либо на основе обобщенного представления о нем.

Методики составления информативного реферата.

Информативный реферат включает в себя несколько основных частей:

  • библиографическое описание (название документа, название, фамилия и инициалы автора; название издания (например, журнала), год, том, номер или дата выпуска, страницы, язык публикации;
  • текст реферата;
  • дополнительные сведения (адрес организации автора в круглых скобках, сведения о количестве иллюстраций, таблиц и библиографии; первая буква имени и полная фамилия референта - лица, составляла реферата.

Текст реферата всегда пишется с абзаца и начинается с описания сути проблемы, которая рассматривается в реферируемой работе.

Текст реферата состоит из следующих аспектов содержания первичного документа:

  1. Предмет, тема, характер, особенности и цель работы;
  2. Метод или методологию проведения работы;
  3. Конкретные результаты работы (теоретические или экспериментальные), обнаружены взаимосвязи и закономерности;
  4. Область применения результатов работы, отмеченные автором;
  5. Выводы, оценка, предложения, описанные в первоисточнике;
  6. Дополнительная информация.

Текст реферата принято начинать фразой, в которой передана основная тема документа.

Предмет, тема, характер, особенности и цель работы упоминаются тогда, когда они не ясны из заглавия документа. Заглавие документа обычно фиксируется в библиографическом описании и не повторяется в тексте реферата.

Метод или методологию проведения работы важно описывать разумно в том случае, если они отличаются актуальностью и новизной или являются интересными с точки зрения данной работы.

Конкретные результаты работы нужно описывать предельно ясно и информативно. Приводить основные теоретические и экспериментальные результаты, фактические данные, обнаруженные взаимосвязи и закономерности.

Область применения результатов работы  необходимо уточнять для патентных документов.

Выводы также сопровождается предположениями, оценками, описанными в тексте первичного документа.

В составе дополнительной информации включены данные, не имеющие особой значимости для основной цели исследования, но которые имеют значение вне его главной темы.

Помимо этого, можно указывать ссылки на опубликованные ранее документы, они даются:

  • если в реферируемом документе используются обсуждение, критика в ранее опубликованных материалов.
  • если данный документ является продолжением ранее опубликованной тем же автором работы.
  • для обоснования примечания автором.

Обычно ссылки размещаются в тексте реферата в круглых скобках за фразой, к которой она относится или же в конце реферата.

ПРИМЕРЫ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ

В качестве примеров реализации описанных выше методов реферирования можно привести следующие отечественные программные продукты:

  • TextAnalyst 2.0, компании Научно-производственный инновационный центр “МикроСистемы”
  • RCO Top Extractor SDK, пакет разработчика, входит в состав ПО «Технологии анализа и поиска текстовой информации компании» ООО “ЭР СИ О”

TextAnalyst 2.0,персональная система автоматического анализа текста.

TextAnalyst разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:

  • анализа содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей;
  • анализа содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем;
  • смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста;
  • автоматического реферирования текста - формирования его смыслового портрета в терминах наиболее информативных фраз;
  • кластеризации информации - анализа распределения материала текстов по тематическим классам;
  • автоматической индексации текста с преобразованием в гипертекст;
  • ранжирования всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования;
  • автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации;

RCO Top Extractor SDK, пакет для разработки программного обеспечения RCO TopExtractor SDK предназначен для решения задачи построения информационного портрета анализируемого текста в виде набора наиболее значимых терминов, общего реферата, рефератов по каждому термину, карты ассоциативных связей между терминами.

В качестве терминов информационного портрета используются слова и словосочетания, обозначающие предметы и события. При этом в информационный портрет текста не включаются признаки, обозначаемые прилагательными, наречиями или адъективными существительными, либо элементы смысла, характеризующие позицию автора по отношению к описываемым предметам и событиям, и выражающиеся разными языковыми средствами, как лексическими (слова служебных частей речи, строевые глаголы), так и грамматическими (вид, время и залог глагола).

При оценке значимости термина используются такие факторы как:

  • самостоятельность термина ‑ употребляется в составе словосочетаний или независимо;
  • роль в предложении (например, позиция подлежащего соответствует основному фокусу внимания автора);
  • близость к началу документа;
  • частота встречаемости в тексте.

Рефераты составляются из наиболее репрезентативных предложений текста. При отборе предложений, в частности, учитывается количество и значимость входящих в них терминов. При этом по возможности обеспечивается связность и читабельность текста.

Карта ассоциативных связей между терминами строится на основе анализа собственных частот значимых терминов, а также частот их совместной встречаемости в предложениях текста.

АННОТИРОВАНИЕ ДОКУМЕНТА

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ АННОТИРОВАНИЯ.

К стремительному развитию новых видов вторичных документов (включающих рефераты и аннотации) привело развитие общественного производства и значительное усложнение информационных связей внутри науки. Существуют две сферы информационного обслуживания (которые относятся к указанным вторичным документам) – документальные и фактографические.

В настоящее время «аннотация» понимается как вторичный документ, который является результатом в процессе аналитико-синтетической переработки различной документной информации. Также аннотация включает в себя небольшую характеристику первичного документа в общем, отражая его основное содержание, структуру, вид и другие особенности. Это подтверждает тот факт, что аннотация является одним из элементов библиографической записи.

Сам процесс аннотирования интерпретируется как:

  1. процесс аналитико-синтетической переработки информации, чьим результатом и является аннотация;
  2. разновидность информационного свертывания.

МЕТОДИКА АННОТИРОВАНИЯ ДОКУМЕНТА.

Аннотация содержит характеристику главной темы, проблемы объекта, цели данной работы и ее результаты. В ней упоминается актуальность и новизна данного документа по сравнению с другими, схожими по тематике и целевому назначению.

Также аннотация может содержать в себе информацию об авторе первичного документа и преимущества произведения, заимствованные из иных документов.

Современные технологии обработки информации из различных источников обычно включают в себя краткое представление содержащейся в источнике информации в виде аннотации (обзорного реферата). Предполагается, что стандартным способом аннотирования информации является извлечение из источника информации заголовков и связанных с ними нескольких предложений, обычно из разных текстов источника информации.

На сегодняшний день предлагается довольно много методов автоматического аннотирования, но при этом существуют и общие проблемы составления аннотации источника информации:

  • обеспечение неповторяемости при представлении информации,
  • обеспечение актуальности извлекаемой информации и полноты ее представления,
  • обеспечение релевантности, непротиворечивости и смысловой доступности представляемой информации.

Для анализа избыточности в генерируемых системой аннотациях предлагается использование различных подходов поиска сходства между предложениями. Одним из вариантов является предварительная кластеризация, т.е. поиск аналогичных или близких по содержанию и смыслу кластеров информации. Альтернативным вариантом снижения избыточности является исключение из результатов тех кластеров информации которые подобны тем что уже были обработаны.

Для обеспечения релевантности аннотации и уменьшения повторов в работах можно использовать метод построения аннотаций на базе лексических цепочек (групп предложений связанных по смыслу). Релевантность аннотации повышается при моделировании лексической связности исходного материала. Суть метода состоит в том, что повтор исключается путем манипулирования не отдельными словами или предложениями, а набором близких по смыслу слов или предложений.

ПРИМЕРЫ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ ТЕКСТА

Описанные выше методы широко используются при автоматическому аннотировании исходных материалов (статей и т.п.) например новостных сайтов для создания краткой ленты новостей илиRSS канала.

RSS канал это представление новостей и другой, часто обновляемой информации, в сжатом виде для последующей обработки компьютерными программами.

Кроме этого системы автоматического аннотирования и реферирования используются, например, в библиографических задачах и системах, в правовых базах, системах обработки входящей корреспонденции и т.п.

Также в качестве примера программного обеспечения для автоматического аннотирования текста можно привести комплект разработчика реализующий лингвистические технологии компании "МедиаЛингва",  едущего на российском рынке разработчик программного обеспечения, реализующего передовые лингвистические, поисковые и мультимедиа-технологии.

ЗАКЛЮЧЕНИЕ

В данной работе были рассмотрены основные понятия и методы реферирования и аннотирования. В современном мире человек ежедневно сталкивается с результатами работы программ автоматического аннотирования и реферирования.

Что является результатом ответа поисковой системы (Google, Яндекс,Yahoo)? Результатом работы поисковой системы является набор ссылок на информационные ресурсы в сети Интернет подкрепленный краткими аннотациями на содержащуюся по этим ссылкам информации.

СПИСОК ИСПОЛЬЗОВАННЫХ РЕСУРСОВ

  1. Павел Браславский, Василий Густелев,http://rcdl.ru/doc/2007/paper_54_v1.pdf
  2. Л. Б. Зупарова, Т. А. Зайцева, АНАЛИТИКО-СИНТЕТИЧЕСКАЯ ПЕРЕРАБОТКА ИНФОРМАЦИИ, Москва 2007
  3. Лукашевич Н. В., Добров Б. В., Автоматическое аннотирование новостных кластеров на основе тематического представления,http://masters.donntu.org/2014/fknt/stulikova/library/lukashevich_dobrov.pdf
  4. Требования к реферату,http://www.studfiles.ru/preview/3516261/
  5. Интернет

АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ И АННОТИРОВАНИЕ ТЕКСТА на http://mirrorref.ru


Похожие рефераты, которые будут Вам интерестны.

1. Реферат Реферирование, аннотирование и рецензирование научных текстов

2. Реферат Дискретное представление информации: двоичные числа; двоичное кодирование текста в памяти компьютера. Информационный объем текста

3. Реферат Ввод и редактирование текста. Операции с фрагментами текста

4. Реферат Автоматическое выделение отдельно произнесённых слов в речи и их идентификация

5. Реферат АВТОМАТИЧЕСКОЕ УПРАВЛЕНИЕ ЗЕНИТНЫМ УГЛОМ ИСКРИВЛЕНИЯ СТВОЛА СКВАЖИНЫ

6. Реферат Моделирование и автоматическое проектирование устройств связи. Моделирование теплового поля однородного стержня

7. Реферат АДАПТАЦИЯ ТЕКСТА

8. Реферат Ввод и редактирование текста

9. Реферат МОДАЛЬНОСТЬ КРЕОЛИЗОВАННОГО ТЕКСТА

10. Реферат Добавление и редактирование текста