Наукова термінологія у пошукових системах бази даних "Україніка наукова"

ЗаявникПоліщук Тетяна Валентинівна (Україна)
ФорумМіжнародна наукова конференція "Бібліотека.Наука.Комунікація"
ЗахідСекція 5. Електронні інформаційні ресурси наукової бібліотеки в сучасному веб-середовищі
Назва доповідіНаукова термінологія у пошукових системах бази даних "Україніка наукова"
Інформація про співдоповідачівПоліщук Т.В. провідний редактор Відділ наукового формування національних реферативних ресурсів
Презентаціяне завантажено
Статтяне завантажено


Тези доповіді

Досліджено питання організації роботи в пошукових системах. Проаналізовано різноманітні підходи до класифікації термінів в інформаційно-пошукових системах, а також структуру бази даних, яка забезпечує повнотекстову індексацію та зберігання документів.
Пошукові слова: інформаційно-пошукові системи, бази даних, наукові документи, терміни.

Issues of the organization of the work in the searching systems were investigated. The various approaches to classification of the terms in the information storage and retrieval systems and also the structure of the database, that provides full-text indexing and document storage, were analyzed.
Keywords: information storage and retrieval systems, databases, scientific documents, terms.

Сьогодні в світі існує величезна кількість пошукових систем (Google, Yahoo, Bing, Мета тощо), і під час здійснення інформаційного пошуку використовуються терміни, яким надається функція ключових слів (обов'язково в описі наукового тексту). Специфіка пошукових систем розглянута з різних ракурсів: від вузького (написання алгоритмів пошуку) до широкого (виокремлення одного чи кількох головних параметрів). Також варто враховувати і вимоги, за якими проводиться пошук: поняття, яке досліджують, місце створення терміна, час створення, наука/галузь, що його використовує тощо. Поняттям може бути одне слово чи словосполучення (можлива компіляція з двох і більше одиниць загального походження). В свою чергу, це сприяє більш глибокому розумінню досліджуваного явища. Однак для знаходження документів користувачі часто звертаються до тематичних каталогів інтернет-ресурсів, що є структурованими наборами посилань на документи відповідної тематики. Пошук наукових документів у сфері українського інтернету досить обмежений, навіть не враховуючи індексованість тільки документів у науковому стилі (структура документа в науковому стилі, наявність УДК, терміни, спеціальна загальнонаукова лексика).
Також варто відзначити широке різноманіття термінів, що використовуються для концентрації пошукових робіт. А саме виокремлення синонімів понять (мовознавство - лінгвістика) чи вживання іншомовних варіантів (укр. мовознавство - рос. языкознание - анг. linguistics), або багатозначність слова-терміну, що є типовим для мови і ускладнює роботу з стандартизації наукової чи науково-технічної термінології.
Класифікація термінів відбувається за кількома параметрами: мова рубрик (рубрикатор абетковий) (це переробка природної мови через наукову термінологію); природна мова (багатомовність системи); галузевість. Добір документів, які будуть входити до БД, залежить від критеріїв, які формуватимуть вимоги до змісту (загальний обсяг, що відводиться певній дисципліні; не слід забувати і різномовність пошукових критеріїв - паралельний переклад назви чи анотації).
Задоволення інформаційних потреб користувачів відбувається в постійному оновленні, оскільки зібрати в одній БД абсолютно всю інформацію неможливо. Такий підхід ідеальний для організації одержання максимальної повноти інформації у системі БД. Також постійною проблемою є наявність необхідної інформації навіть не на перших сторінках запиту інформаційно-пошукової системи (ІПС), оскільки специфіка пошуку наукових документів має меншу кількість посилань (документ є, але він не "популярний").
Терміноодиниці відображають зміст і тему документів, які входять в інформаційну базу системи і є інструментом пошуку. Це монографії, збірники, статті, анотації тощо. Окремо варто відзначити терміни такого походження: власні назви (прізвище науковця, особливо коли досліджується питання, що є предметом його зацікавлення), географічні назви (де проводилося дослідження та де презентувалися результати, наприклад, конференція) і збірні назви (наукове товариство, навчальний заклад і т.д.), а також загальні назви: загальномовні одиниці, слова, що часто повторюються в документі (конференція, лексема, поняття) та інші.
Майже кожен із науковців намагається вирізнитися власною термінологією, що теж інколи заважає розумінню головної ідеї дослідження, оскільки документи позиціонуюються як "чисті" наукові тексти. Іноді тлумачення терміна ускладнюється за умов розбіжностей у підходах до його визначення.
В БД "Україніка наукова" реалізовано добір мовних одиниць (термінів) згідно критеріїв, які окреслюють тематичне коло пошукової системи. Відповідно, класифікаційні ІПС доповнено предметною ІПС. Для добору відібрано тексти, бібліографічні описи, що формують загальний масив. Їх можливо доповнити словниками, граматиками, енциклопедіями тощо. Аналізуючи системи пошуку термінів, а також рівень розвитку галузей наук варто відзначити різний рівень розвитку термінології, наприклад, мовознавства.
Термінологічна система поширює своє наукове поле із розвитком певних дисциплін (що саме на піку популярності; рівень активності певного наукового питання дозволяє його вивести в окрему підгрупу). Кількість організацій, що працюють у тій чи іншій науковій сфері, а також веб-сайтів, що знайомлять з цінною і новою інформацією необхідної тематики, як правило, досить невелика. На даний момент найбільша група - це синтаксис, морфологія та словотворення; найменша - морфологія (не враховуючи зовсім нещодавні виокремлення). Так, наприклад, індексація будь-якого терміна має свою ієрархію: словник - двомовний словник, власна назва - гідронім. В зв'язку зі складністю ситуації на сході України великий поштовх у розвитку термінології військової справи (техніка, медицина), в психології виділили військовий посттравматичний синдром тощо.
Інформаційні потреби науковців у процесі наукового пошуку характеризуються високою чіткістю, тому фільтрація джерел дуже важлива. Так, наприклад у хронологічному порядку легко відстежити всі етапи розвитку понять, розширення тлумачень термінів чи трансформацію його визначення в системі знань. Інформаційний потік забезпечує БД оперативність розповсюдження (передача інформації відбувається майже миттєво) й ефективне використання в "Україніці науковій".
Конкретні критерії включення слова або словосполучення залежать від виду ІПС. Так, в універсальних пошукових системах як інформативні розглядаються практично всі слова, включаючи службові. У спеціалізованих ІПС, для яких набір ключових слів - один з компонентів структури документа, навпаки, безліч інформативних слів зазвичай будуються на основі предметного покажчика відповідної предметної галузі, тоді як слова, що відносяться до "загальновживаної" лексики, до інформативних не включають [2]. Крім того, можна аналізувати ключові слова, транслітеровані з одного алфавіту в інший, переклад слів та інші модифікації ключових слів. Ще варто акцентувати увагу на різноманітних форматах зберігання наукової інформації в ІПС.
Важливо відзначити, що реальні технології створення переважної більшості БД такі, що однорідні документи з одного сайту мають практично однакову HTML-розмітку. Багато систем використовують механізм корекції запиту за релевантністю. Це означає, що процедура пошуку носить інтерактивний і ітеративний характер. На наступних ітераціях система розширює/уточнює запит термінами з цих документів і знову виконує пошук. Ця обставина дає змогу автоматизувати процес індексації даних електронного документа за допомогою зазначення шаблону документів того чи іншого сайту, тобто явної вказівки команд мови HTML, охоплюючи основні характеристики документа: автори, назва, ключові слова, анотація тощо.

Література:
1. Понятійно-категоріальний апарат архівних інформаційно-пошукових систем / О. М. Збанацька // Бібліотекознавство. Документознавство. Інформологія. - 2013. - № 1. - С. 74-77. - Режим доступу: http://nbuv.gov.ua/UJRN/bdi_2013_1_17
2. З. Е. Рудник-Карватова Упорядкування термінології для потреб інформаційно-пошукової системи ISYBISLAW // Українська мова. - №3. - 2016. - С. 105-117.
3. В. Струнгар Інформаційно-пошукова система бібліотеки як інструмент прискорення опрацювання даних // Вісник книжкової палати. - 2013. - №10. - С. 1-3.
4. Д. С. Яковчук Особливості пошуку наукових матеріалів / Магістерська програма: «Інформаційні управляючі системи та технології». - Київ. - 2009. - 40 с. - Режим доступу: www.ukma.edu.ua/~gor/courses/.../Yakovchuk.doc
5. К. Нежива Інформаційно-пошукові системи. - Режим доступу: https://sites.google.com/site/socialnafnformatika/home/informacijno-posukovi-sistemi