АСПЕКТИ ФОРМУВАННЯ РЕФЕРАТИВНОЇ ІНФОРМАЦІЇ У БІБЛІОТЕЧНИХ ПОРТАЛАХ ЗНАНЬ

ЗаявникКириленко Світлана Едуардівна (Україна)
ФорумМіжнародна наукова конференція «Бібліотека. Наука. Комунікація. Інноваційні трансформації ресурсів і послуг» (2022)
ЗахідСекція 2. Цифрові бібліотечні технології організації знань
Назва доповідіАСПЕКТИ ФОРМУВАННЯ РЕФЕРАТИВНОЇ ІНФОРМАЦІЇ У БІБЛІОТЕЧНИХ ПОРТАЛАХ ЗНАНЬ
Інформація про співдоповідачів
Презентаціяне завантажено
Статтяне завантажено


Тези доповіді

УДК 025.5:[004.65:014.3]
Кириленко Світлана Едуардівна,
ORCID https://orcid.org/0000-0001-8671-1652
молодший науковий співробітник,
відділ наукового формування національних реферативних ресурсів,
Інститут інформаційних технологій,
Національна бібліотека України імені В. І. Вернадського,
Київ, Україна
e-mail: svkirilenko65@gmail.com
АСПЕКТИ ФОРМУВАННЯ РЕФЕРАТИВНОЇ ІНФОРМАЦІЇ

У БІБЛІОТЕЧНИХ ПОРТАЛАХ ЗНАНЬ

Констатовано перевагу інтелектуального реферування першоджерел наукових
праць. Охарактеризовано автоматичне реферування текстів методом екстракції.
Акцентовано, що портали знань відкривають можливість для автореферування,
заснованого на спробах побудови моделі розуміння та синтезу тексту людською
мовою.
Ключові слова: бібліотечний портал, реферативна база даних, реферування,
реферативна інформація, автореферування
Велике різноманіття інформаційних потоків, запровадження аналізу
текстової інформації удосконалює й водночас обтяжує процес пошуку
інформації. Зараз обсяг інформації, що міститься в інформаційних потоках, не
може бути сприйнятий та проаналізований людиною через її психофізіологічні
обмеження. В інформаційному суспільстві XXI століття людині доводиться
обробляти величезну кількість інформації, внаслідок чого постала концепція
«великих даних» (Big Data) − масивів даних великого обсягу та значного
різноманіття, що аналізуються за допомогою спеціальних комп’ютерних
технологій. Новий інформаційний об’єкт − бібліотечний портал − використовує
нові технології, які виступають як посередник при отриманні користувачем
тематичного знання.
Бібліотечний портал − це система комунікації «портал → користувач», що
ґрунтується на єдиному вікні доступу до всіх ресурсів і сервісів бібліотеки.

Статистика показує, що існує необхідність видачі користувачу стиснутої
інформації у формі анотації/оглядового реферату. Дану задачу порталу НБУВ
вирішує РБД «Україніка наукова». Наукові реферати, створені фахівцями
реферативної служби, мають високе семантичне стиснення, суттєву вагу в них
виконують формулювання узагальнень і абстракцій. Під узагальненням
стосовно реферату розуміємо пошук нових, місткіших засобів і форм
відтворення інформації, в результаті чого досягається її згортання. Часто ціла
ланка наведених в першоджерелі видових понять шляхом узагальнення
зводиться до однієї дефініції. Наприклад:  «астрономія», «фізика», «хімія»,
«біологія» − «природничі науки». Внаслідок узагальнення і заміни термінів
іншими, місткішими, стає можливим створення абстракцій. Узагальнення і
абстракції уможливлюють досягнення стислості без втрат ясності, особливо при
реферуванні великих першотворів. Реферат стисло викладає зміст документа,
його частини або колекції документів, включає основні фактичні відомості,
необхідні для початкового ознайомлення з першоджерелом та визначення
доцільності звернення до нього. Наукове реферування першоджерел фахівцями
РБД процес наукоємний і трудомісткий та здійснюється в обсягах тисяч
рефератів за місяць.
Відзначимо, шо обсяги наукової інформації, яку варто подати у стислій
формі вторинної інформації (згенерований абстрактний текст реферату),
зростають у геометричній прогресії. У глобальному інформаційному просторі
це завдання вирішується за допомогою автоматичного реферування.
Автореферування дозволяє на запит користувача надавати не лише метадані
першоджерела, а й стислий автоматично створений опис. Сьогодні
користуються попитом пакети систем автореферування Oracle Text, Microsoft
Office Word AutoSummarize, IBM Tivoli Monitoring Summarization тощо. У
випадку автореферування порядок побудови релевантних інформаційних
масивів у функціонуючих системах відбувається на основі емпіричних та
статистичних методів, основу яких складають частотнолінгвістичні алгоритми.
При виведенні реферату реалізовується аналіз вихідного текстового матеріалу

та синтез тексту анотації. Це накладає жорсткі вимоги до послідовності
розміщення та реалізації зв’язності (тематичної та семантико-синтаксичної).
Шляхи вирішення стосовно автореферування поділяються на два напрями:
квазіреферування та короткого викладу змісту первинних документів.
Квазіреферування засноване на екстрагуванні фрагментів документів −
виділення найбільш інформативних фраз та формуванні з них квазірефератів.
Короткий виклад вихідного матеріалу ґрунтується на виділенні з текстів за
допомогою методів штучного інтелекту та спеціальних інформаційних мов
найбільш тематично-релевантної інформації та породженні нових текстів, що
змістовно узагальнюють первинні документи.
Бібліотечні портали допомагають виділяти тематичні інформаційні
потоки, враховуючи структурні зв’язки між текстами (документами) та
всередині самих текстів. Методи автоматичного реферування все ширше
застосовуються порталами знань. Тексти (публікації) природною мовою можна
лінгвістично сприймати як індивідуальний цілісний текст з певною стійкістю
частот слів. Ґрунтуючись на змісті дослідженого реферованого документа
встановлюють ієрархічний взаємозв’язок і ступінь важливості різних фактів та
ідей. Спосіб формалізованого опису моделі тематичної структури кластера
документів, що враховує ієрархічну природу тексту, дозволяє вдосконалювати
метод автоматичного реферування науково-технічної інформації (НТІ)
природною мовою. Облік для кожної наукової тематики структури текстів
першоджерел допомагає підвищенню зв’язності тексту і використовується під
час розроблювання методу автореферування задля високої якості абстракції
реферату. Зв’язність тексту реферату забезпечується поступовим розкриттям
кожної із заздалегідь заданих тем, а також забезпеченням зв’язку кожної
наступної пропозиції з попередньою загальною темою.
Нагальний попит в реферуванні відчувається здебільшого в царині НТІ,
яка несе переважно нову інформацію. Застосовування рефератів замість
першоджерел дозволяє ефективніше працювати з великими обсягами текстової
інформації. Традиційний процес семантичного стиснення текстового документа

фахівцями реферативних служб дозволяє одержати новий згенерований
документ − оглядовий реферат, за якого найістотніше передається зміст
оригіналу. Сучасний темп нарощування масивів НТІ спонукує автоматизувати
процес реферування. Звичний тип систем автоматичного реферування −
екстрактивний (квазіреферування), при якому реферат складається з окремих,
часом слабко пов’язаних між собою речень першоджерел, не відповідає
вимогам семантичного стиснення інформації, питанням тематичної зв’язності
тексту, а також не враховує алгоритм автоматичної побудови абстрактного
оглядового реферату. Йому на зміну приходить абстрактивний тип реферування,
у якому системи, близькі до систем штучного інтелекту порталів знань, у
скороченому вигляді переказують зміст вихідного документа, коротко
передають загальний зміст. У науковців реферативних служб, що складають
самостійно семантично аналогічний контент викликає зацікавленість аналіз
анотацій, створених за допомогою автореферування, ступень інформаційної
насиченості такого реферату, зіставлення його зі структурою першоджерел.

UDC 025.5:[004.65:014.3]
Svitlana Kyrylenko,
ORCID: https://orcid.org/0000-0001-8671-1652
junior researcher,
Abstracting Department,
Institute of Information Technologies,
Vernadsky Nаtional Library of Ukraine,
Kyiv, Ukraine
e-mail: svkirilenko65@gmail.com
ASPECTS OF THE FORMATION OF REFERENCE INFORMATION

IN THE LIBRARY KNOWLEDGE PORTALS

The advantage of intellectual abstracting of the primary sources of scientific works
has been established. The automatic abstracting of texts by the method of extraction
is characterized. It is emphasized that knowledge portals open the possibility for self-
referencing, based on attempts to build a model of understanding and synthesis of
text in human language.
Keywords: library portal, abstract database, abstract, abstract information, self-
referencing