Наукова термінологія в пошукових системах

ЗаявникПоліщук Тетяна Валентинівна (Україна)
ФорумМіжнародна наукова конференція «Адаптація завдань і функцій наукової бібліотеки до вимог розвитку цифрових інформаційних ресурсів» (2013)
ЗахідРозвиток інформаційно-аналітичної діяльності в умовах цифрового середовища
Назва доповідіНаукова термінологія в пошукових системах
Інформація про співдоповідачів
Презентаціяне завантажено
Статтяне завантажено


Тези доповіді

Можна сказати, що в основі всієї людської цивілізації лежить вдосконалення засобів накопичення та обробки знань. Світ вступив в еру безпаперової, електронної інформації всіх видів. І як засіб боротьби з величезними обсягами потрібної та непотрібної інформації сьогодні виступають інформаційно-пошукові системи (ІПС). Вважається, що сьогодні до 70 - 80 % всієї інформації, необхідної користувачам Інтернету, надходить через пошукові системи. Інформаційно-пошукові системи - це різновид автоматизованих інформаційних систем, в яких завершальна обробка даних не передбачається. Вони призначені для пошуку текстів (документів, їх частин, фактографічних записів) в сховищах (базах даних) за формальними характеристиками. Тому в роботі ІПС можна виділити два основних етапи: перший - збір і зберігання інформації, другий - пошук і видача інформації користувачам. У роботі ІПС неминуче виникає потреба у створенні тезаурусу системи, тобто набору спеціальних термінів для кодування понять та зв'язків між ними. Тезаурус дозволяє презентувати зміст документів та запитів формалізованою інформаційною мовою.
Найбільш поширеними в сучасних автоматизованих ІПС є тезауруси з використанням мов дескрипторного типу, на відміну від тезаурусів з мовами класифікаційного типу, що використовуються, наприклад, в бібліотечно- бібліографічній класифікації з фіксованим обмеженим списком слів і словосполучень. Дескрипторами можуть бути окремі слова або словосполучення з групи синонімічних чи близьких за значенням слів, що використовуються в системі для контрольованого індексування (кодування) змісту документів і запитів встановленням відповідності між текстом документа і набором ключових дескрипторів. Це обумовлює точність їх словесного виразу і, таким чином, використання спеціальної термінології - наукової термінології. Наукові терміни справедливо вважаються інструментами однозначності висловлення. Але ось який парадокс: чим більше визначень, тим розмитішим стає сам термін.
Рисами, які визначають культуру наукової мови, є точність, ясність і стислість. Науковий стиль є засобом спілкування в сфері науки та навчально- наукової діяльності. Звідси домінуюча форма оцінки - констатація ознак, притаманних слову, яке визначають. Науковий текст характеризується смисловою завершеністю, цілісністю й логічною послідовністю. Найважливішим засобом вираження зв'язків є специфічна фразеологія, що вказує на послідовність розвитку думки (спочатку, насамперед, потім, по- перше, по-друге, отже і т. ін.), заперечення (проте, тимчасом, але у той час і як, тим не менше, аж ніяк), причинно-наслідкові відношення (таким чином, тому, завдяки цьому, відповідно до цього, внаслідок цього, крім того, до того ж), перехід від однієї думки до іншої (відтак раніше ніж перейти до, звернімося до, розглянемо, зупинимось на, розглянувши, перейдемо до, необхідно зупинитися на, необхідно розглянути результат, висновок, підсумовуючи, слід сказати). До обов'язкових вимог об'єктивності викладу матеріалу належить посилання на джерело повідомлення, автора висловленої думки. У тексті дану умову можна реалізувати за допомогою спеціальних вставних слів і словосполучень (на думку, за даними, за словами, як слушно зазначає).
Інформаційно-пошукова мова (ІПМ) також є механізмом представлення основного змісту документів і запитів. Основні вимоги до ІПМ - це однозначність між вираженням і змістом (кожна лексична одиниця співвідноситься з одним поняттям, і навпаки - кожне поняття має унікальне ім'я, і, як наслідок, кожен запис на ІПМ має тільки одне значення). Це спеціалізована штучна мова, призначена для передачі змісту і формальних ознак документів, а також інформаційних запитів пошуку потрібних документів. Як будь-яка мова, ІПМ має абетку (система графічних знаків для запису слів і виразів), лексику (сукупність слів, якими користується мова), граматику (засоби, правила, якими користуються для побудови і поєднання слів). Індексуючи документ, здійснюють переклад відомостей про нього з природної мови на штучну - інформаційно-пошукову.
Варто зауважити, що індексування - це присвоєння документу набору ключових слів або кодів, які слугують вказівником змісту документа і використовуються для його пошуку. Слід не плутати поняття «індексування» та «індексацію», оскільки ці поняття різні. Індексування - процес перекладу змісту документів із природної мови на штучну ІПМ, в результаті чого створюється пошуковий образ документа та пошуковий образ запиту. У такий спосіб відбувається згортання інформації, що знаходиться в документі, та перетворення її на ІПМ у вигляді індексу, рубрики, коду (класифікаційною мовою) або дескриптора, ключового слова (дескрипторною мовою). Залежно від ІПМ, яка використовується в тому чи іншому пошуковому масиві, документи підлягають обробці за такими видами індексування: систематизація, предметизація, координатне індексування. Головна змістова проблема, яка вирішується під час індексування, в тому, які терміни приписувати документам, де їх брати. Хоча індексуються повні тексти веб-документів, але не завжди всі їх терміни потрапляють в індекс. Зазвичай використовують лише частину документа (початок).
Зміст індексації базується на тому, що спираючись на певний алгоритм пошукова система, намагається «зрозуміти» про що говориться на даній сторінці, виявляє ключові слова\терміни\пошукові слова. Ті слова, на яких базуються рейтинги пошукових сайтів.
Важливість наукової термінології у пошукових системах зумовлена самою суттю поняття «термін» - слово або словосполучення, яке точно і однозначно визначає чітко окреслене спеціальне поняття тематичного напряму для будь-якої галузі науки, техніки, мистецтва, суспільного життя тощо та його співвідношення з іншими поняттями в межах спеціальної сфери, а застосування є однозначним і позбавленим експресії.
Ще одним важливим пунктом у дослідженні наукових текстів в пошукових системах є різноманіття мов в інформаційному просторі Інтернету (50 % всієї інформації мережі представлено англійською мовою, друга половина - решта мов світу).
Тож, чим точніше\лаконічніше буде сформульовано необхідний запит, тим «зрозумілішою» буде наведена інформація.