Релевантність пошукових запитів контенту РБД «Україніка наукова»

ЗаявникКириленко Світлана Едуардівна (Україна)
ФорумМіжнародна наукова конференція «Бібліотека. Наука. комунікація: актуальні тенденції у цифрову епоху» (2019)
ЗахідСекція 3. Наукові бібліотеки в дослідницькій інфраструктурі України
Назва доповідіРелевантність пошукових запитів контенту РБД «Україніка наукова»
Інформація про співдоповідачівЧала Надія Іванівна провідний бібліотекар Національна бібліотека України імені В. І. Вернадського Київ, Україна e-mail: chala@nbuv.gov.ua
Презентаціяне завантажено
СтаттяЗавантажити статтю


Тези доповіді

УДК 004.78:025.4.036]:[004.65:014.3]:070(477)
Кириленко Світлана Едуардівна,
молодший науковий співробітник,
Національна бібліотека України імені В. І. Вернадського,
Київ, Україна
ORCID https://orcid.org/0000-0001-8671-1652
Чала Надія Іванівна,
провідний бібліотекар,
Національна бібліотека України імені В. І. Вернадського,
Київ, Україна

РЕЛЕВАНТНІСТЬ ПОШУКОВИХ ЗАПИТІВ КОНТЕНТУ РБД «УКРАЇНІКА НАУКОВА»

Розглянуто розвиток інтелектуальної бібліотечної технології щодо сучасної організації пошуку за масивом науково-технічної інформації реферативної бази даних (РБД) «Україніка наукова». Проведено аналіз необхідності покращення релевантності пошуку текстових документів із метою якісного аналізу даних знаннєвого ресурсу системи реферування. Звернено увагу на підвищення якості пошуку текстових документів. Означено методи пошуку текстових документів, проаналізовано критерії відбору, підкреслено перевагу семантичного пошуку.
Ключові слова: пошук текстової інформації, пошукові елементи, релевантність, семантика слів, база даних «Україніка наукова», науково-технічна інформація.

Постановка проблеми. В усьому світі, зокрема і в Україні, у процесі наукової комунікації формується масив потоків науково-технічної інформації (НТІ). Потоки НТІ — це динамічна сукупність наукових документів, що містять наукову інформацію, призначену для користувачів. Склад його частин фіксується конкретними ознаками (приналежністю публікацій до певної тематики, автору, мови, року видання), які й виступають надалі в ролі пошукових елементів. Сьогоднішні інформаційні системи здебільшого застосовують незначний набір методів пошуку, зберігання, обробки та подання інформації. Вони переважно репрезентують користувачеві знання та дані у вигляді окремих текстових документів. Однак для людини найбільш природною формою подачі інформації є подання її у вигляді мережі взаємопов’язаних фактів. Для більш повної подачі інформації важливо налагодити ефективну роботу пошукових операторів, які застосовують не тільки звичні механізми пошуку за ключовими словами, а й ураховують семантику слів, що входять до запиту, та визначають його контекст.
Метою статті є аналіз пошукових можливостей РБД «Україніка наукова» з акцентом на семантичному пошуку задля розширення якісних інформаційних послуг національної системи реферування.
Виклад основного матеріалу. Зараз широковживаною методологією в області текстового пошуку є та, яка базується на тематичному аналізі й ідентифікації документів. І саме обрання моделі пошуку визначає вибір того чи іншого методу аналізу текстової інформації, а також здійснення конкретного варіанта пошуку.
Немало систем послуговуються простими моделями пошуку. Найпростішою з них є модель дескриптивного пошуку. У цих системах подання документа описується сукупністю слів чи словосполучень лексики предметної області, яка розкриває суть документа. Такі слова/словосполучення називаються дескрипторами. Індексують документ у системах дескриптивного пошуку за допомогою призначення для нього сукупності дескрипторів. Переважно дескриптор ідентифікує документ за складом його змісту або на основі його назви. Ця пара процесів іменується відповідно індексуванням за змістом та індексуванням за заголовком документа [4]. Дескрипторні системи належать до класу систем, орієнтованих на бібліографічний пошук або пошук «за каталогом».
Друга проста модель – це модель, ґрунтована на класифікаторах. У такій моделі документи подаються ідентифікаторами класів в ієрархічній структурі класифікатора, до яких відноситься цей документ. Тобто документ набуває вигляду сукупності асоційованих із ним атрибутів. Атрибутами є ідентифікатори класів, за якими опрацьовується цей документ. Класи створюють ієрархічну структуру класифікатора. При цьому релевантними вважаються документи, які належать якомусь з указаних у запиті класів чи його підкласу. Поширена й булева модель пошуку, що укладена складніше та вимагає від користувача формулювати запит у вигляді булевого виразу, використовуючи для цього оператори логіки І, АБО, НІ [6].
Проте, зауважимо, що ідеальний результат пошуку повинен задовольняти вимогам єдності, повноти та несуперечності. Звернемо увагу, що такі найоптимальніші результати надає семантичний метод. Застосування семантичної моделі пошуку на сьогодні набуває все більшого поширення, оскільки вони є наочно зрозумілими користувачеві та технічно стали можливими завдяки високій продуктивності процесорів обчислювальних машин, зростанню об’єму їх зовнішньої пам’яті прямого доступу. У моделях контекстного пошуку як складової семантичного методу використовується представлення документа у вигляді сукупності всіх слів і словосполучень, що зустрічаються в його тексті, з урахуванням їх семантики.
Описані моделі пошуку поширені в сучасних бібліотеках, зокрема у Національній бібліотеці України ім. В. І. Вернадського (НБУВ). Серед наявної великої кількості БД на сайті НБУВ розглянемо РБД «Україніка наукова» та пов’язаний із нею контентом повнотекстовий ресурс «Наукова періодика». Пошук за контентом РБД «Україніка наукова» здійснюється шляхом уведення таких пошукових елементів, як прізвища авторів, редакторів та укладачів творів друку; назва публікації; ключові слова (пошук за будь-яким словом із бібліографічного опису або тексту реферату); галузь знання; назва періодичного видання; індекс Рубрикатора НБУВ; рік видання; вид видання [2].
В результаті дослідження здійснено запити за доступними видами пошуку в РБД. Так, за одним пошуковим елементом, що складається з одного слова (роком видання, автором (редактором) тощо) виявлено високу відповідність знайдених записів запиту, тобто критерій релевантності пошуку за одним пошуковим елементом складає понад 95%. Пошук за одним пошуковим елементом, що складається зі словосполучень, наприклад, за назвою публікації чи галуззю знання, підтягує невелику частку інформаційного шуму, критерій релевантності складає до 80%. Пошук документа за кількома ознаками асоційованих із ним атрибутів одночасно, наприклад, за роком та автором одночасно; за галуззю і назвою публікації одночасно; за ключовими словами тексту реферату тощо, видає багато інформаційного шуму, відповідність запиту складає понад 50%. Отже, дескрипторна система пошуку за РБД забезпечує високий рівень релевантності запиту; моделі пошуку, ґрунтовані на класифікаторах, мають середній рівень щодо критерію релевантності та потребують удосконалення. Стосовно булевої моделі пошуку, яка також реалізована на сайті, то вона не дає можливості ранжирування знайдених документів за ступенем релевантності та проблематична для використання пересічним користувачем, оскільки йому складно вільно оперувати булевими операторами, формулюючи свій запит.
Додаткові можливості пошуку за контентом РБД «Україніка наукова» надає функція контекстного пошуку «знайти подібні», за допомогою якої користувач із легкістю може віднайти чималий масив рефератів першоджерел, пов’язаних із темою, яка його цікавить. А це, у свою чергу, підвищує рівень релевантності системи реферування, оскільки надає можливість знайти (завдяки штучному інтелекту) навіть те, чого не шукав, але саме те, що є необхідним. Це також додає відкритості інформаційним ресурсам з інтуїтивно зрозумілою логікою організації інформації [1].
Відомо, що без допомоги реферативної інформації фахівець може ознайомитися не більше, ніж з 6% опублікованих робіт, а за допомогою реферативних баз даних — близько 80%. Отже, РБД компенсує такий наслідок диференціації науки, як розсіювання публікацій; сприяє інтеграції науки, дозволяє фахівцеві стежити за досягненнями в суміжних галузях науки або техніки та використовувати ці досягнення у своїй галузі [3]. Тому для ефективного пошуку користувачеві спочатку варто шукати інформацію за контентом РБД, і коли належна інформація буде знайдена, переходити за посиланням на повний текст до порталу «Наукова періодика». Порівняно з повнотекстовим порталом «Наукова періодика», пошук у РБД «Україніка наукова» більш розширений і має безпосередньо фаховий пошук – за індексом Рубрикатора (НБУВ). Науковець К. В. Лобузіна зазначає: «У Національній бібліотеці України імені В. І. Вернадського дійшли думки про те, що на сьогодні бібліотека не може відмовитися від власної класифікаційної системи (Рубрикатор НБУВ), бо вона використовується у багатьох технологічних ланках» [5]. Рубрикатор розроблено на базі системи Бібліотечно-бібліографічної класифікації (ББК). Пошук за індексом рубрикатора є виправданим для застосування, адже інформація зосереджується в систематичному порядку згідно з розділами тематичного пошуку, що дозволяє швидко віднайти відповідний матеріал. Фахівці служби реферування застосовують у текстах рефератів сталу та нову наукову термінологію, забезпечують високе семантичне наповнення рефератів.
Висновки. Запропоновано користуватися для оперативного пошуку РБД, адже загальновідомо, що серед рефератів першоджерел пошук швидший. Реферати, створені фахівцями реферативної служби, мають високе семантичне наповнення, що сприяє вищому критерію релевантності пошуку.
Елементи семантичного пошуку за РБД, реалізованого в категорії «знайти подібні», оптимальніше відповідають сучасним потребам користувача та підвищують рівень релевантності реферативних текстів. Перспективними визнаються моделі контекстного пошуку, оскільки вони враховують семантику слів, що входять до запиту, дозволяють використовувати взаємозв’язки між окремими структурними елементами інформації (відомості про співавторів, видання, інституції).

Бібліографічні посилання
1. Гарагуля С. Моделі інтеграції електронних джерел наукової інформації у бібліотеках. Бібл. вісник. 2015. № 6. C. 16-21. URL: http://irbis-nbuv.gov.ua/everlib/item/er-0000000080
2. Гриценко Н., Клюшнікова О., Сандул О. Реферативні бази даних у системі інформаційного забезпечення освіти та науки. Наукові праці Національної бібліотеки України імені В. І. Вернадського. 2018. Вип. 50. С. 308-320. URL: http://nbuv.gov.ua/UJRN/npnbuimviv_2018_50_25
3. Добровська С. В., Кириленко С. Е., Балагура І. В. "Інформаційні технології" у реферативній базі даних "Україніка наукова". Бібліотечний вісник. 2012. № 4 (210). С. 12-17. URL: http://nbuv.gov.ua/UJRN/bv_2012_4_2
4. Кушнірецька О. І., Кушнірецька І. І., С Берко А. Ю. Семантичний пошук і зберігання даних науково-технічної інформаційної системи [Електронний ресурс]. Електронний науковий архів Науково-технічної бібліотеки Національного університету "Львівська політехніка". URL: http://ena.lp.edu.ua/bitstream/ntb/29786/1/30_310-318.pdf
5. Лобузіна К., Галицька С., Орєшина Н. Адаптація лінгвістичних засобів наукової бібліотеки до вимог інтернет-середовища та міжнародних стандартів. Бібліотечний вісник. 2017. № 4. С. 3-8. URL: http://nbuv.gov.ua/UJRN/bv_2017_4_3
6. Токман М. В., Сокол В. В., Лісна Н. С. Моделі і методи поліпшення релевантності пошуку текстових документів. Системи обробки інформації. 2012. Вип. 5 (103). С. 109-113. URL: http://irbis-nbuv.gov.ua/cgi-bin/irbis_nbuv/cgiirbis_64.exe?C21COM=2&I21DBN=UJRN&P21DBN=UJRN&IMAGE_FILE_DOWNLOAD=1&Image_file_name=PDF/soi_2012_5_28.pdf

References
1. Harahulia, S. (2015). Modeli intehratsii elektronnykh dzherel naukovoi informatsii u bibliotekakh [The models of integration of electronic sources of scientific information in libraries]. Bibliotechnyi visnyk — Library bulletin, no. 6, pp. 16-21. Retrieved from http://irbis-nbuv.gov.ua/everlib/item/er-0000000080 [in Ukrainian].
2. Hrytsenko, N., Kliushnikova, O., Sandul, O. (2018). Referatyvni bazy danykh u systemi informatsiinoho zabezpechennia osvity ta nauky [Abstract Databases in the System of Information Providing of Education and Science]. Naukovi pratsi Natsionalnoi biblioteky Ukrainy imeni V. I. Vernadskoho — Transactions of V. I. Vernadsky Nаtional Library of Ukraine, issue 50, pp. 308-320. Retrieved from http://nbuv.gov.ua/UJRN/npnbuimviv_2018_50_25 [in Ukrainian].
3. Dobrovs'ka, S. V., Kirilenko, S. E., Balahura, I. V. (2012). "Informatsiyni tekhnolohiyi" u referatyvniy bazi danykh "Ukrayinika naukova" [Scientometric analysis of the study of Information Technology using abstract database "Ukrainika naukova"]. Bibliotechnyi visnyk — Library bulletin, no. 4 (210), pp. 12-17. Retrieved from http://nbuv.gov.ua/UJRN/bv_2012_4_2 [in Ukrainian].
4. Kushniretska, O. I., Kushniretska, I. I., Berko, A. Yu. Semantychnyi poshuk i zberihannia danykh naukovo-tekhnichnoi informatsiinoi systemy [Semantic search and storage of scientific and technical information system data] [Electronic resource]. Elektronnyi naukovyi arkhiv Naukovo-tekhnichnoi biblioteky Natsionalnoho universytetu "Lvivska politekhnika" — Lviv Polytechnic National University Institutional Repository. Retrieved from http://ena.lp.edu.ua/bitstream/ntb/29786/1/30_310-318.pdf [in Ukrainian].
5. Lobuzina, K., S. Halytska, S., Orieshyna, N. (2017). Adaptatsiia linhvistychnykh zasobiv naukovoi biblioteky do vymoh internet-seredovyshcha ta mizhnarodnykh standartiv [Adaptation of the linguistic resources of the scientific library to the requirements of the internet environment and international standards]. Bibliotechnyi visnyk — Library bulletin, no. 4, pp. 3-8. Retrieved from http://nbuv.gov.ua/UJRN/bv_2017_4_3 [in Ukrainian].
6. Tokman, M. V., Sokol, V. V., Lisna, N. S. (2012). Modeli i metody polipshennia relevantnosti poshuku tekstovykh dokumentiv [Models and methods of improvement of relevance search of text documents]. Systemy obrobky informatsii — Information processing systems, issue 5 (103), pp. 109-113. Retrieved from http://irbis-nbuv.gov.ua/cgi-bin/irbis_nbuv/cgiirbis_64.exe?C21COM=2&I21DBN=UJRN&P21DBN=UJRN&IMAGE_FILE_DOWNLOAD=1&Image_file_name=PDF/soi_2012_5_28.pdf [in Ukrainian].

UDC 004.78:025.4.036]:[004.65:014.3]:070(477)
Kyrylenko Svitlana,
junior researcher,
Vernadsky Nаtional Library of Ukraine,
Kyiv, Ukraine
ORCID: https://orcid.org/0000-0001-8671-1652
Chala Nadiia,
leading librarian,
Vernadsky Nаtional Library of Ukraine,
Kyiv, Ukraine
RELEVANCE OF THE CONTENT SEARCH QUERIES OF THE ABSTRACT DATABASE «UKRAYINIKA NAUKOVA»
The development of intellectual library technology in relation to the modern organization of search on the array of scientific and technical information of the abstract database «Ukrainika naukova» is considered. The analysis of the need to improve the relevance of searching for text documents for the purpose of qualitative data mining of the knowledge resource of the referencing system has been carried out. The attention was paid to improving the quality of the search for text documents. The methods of searching for text documents are indicated, the criteria of selection are analyzed, the advantage of semantic search is emphasized.
Keywords: search of text information, search elements, relevance, semantics of words, «Ukrainika naukova» database, scientific and technical information.