Виявлення ключових понять з тексту за допомогою контент-аналізу

ЗаявникКузнєцов Олександр Юрійович (Україна)
ФорумМіжнародна наукова конференція «Адаптація завдань і функцій наукової бібліотеки до вимог розвитку цифрових інформаційних ресурсів» (2013)
ЗахідСемінар "Бібліометрія та бібліотека: світовий досвід, українська перспектива"
Назва доповідіВиявлення ключових понять з тексту за допомогою контент-аналізу
Інформація про співдоповідачів
Презентаціяне завантажено
Статтяне завантажено


Тези доповіді

УДК 004.774.6. : 001.82
Кузнєцов Олександр Юрійович
наук. співроб. НБУВ

Виявлення ключових понять з тексту
за допомогою контент-аналізу

Контент-аналіз вчені визначають як специфічну техніку дослідження, спрямовану на об'єктивне, систематичне та кількісне описання змісту повідомлення, яке відповідає цілям дослідника.
Одним з важливих завдань контент-аналізу є виявлення ключових понять з тексту. Правомірність використання контент-аналізу в різних соціальних дослідженнях визначається тим, що текст документа, який є для контент-аналізу реальністю першого порядку, є завжди продуктом людської діяльності, тому він містить наслідки різноманітних соціальних і психологічних факторів. Звідси виникає можливість виявлення та вимірювання даних факторів шляхом реєстрації в тексті відповідних індикаторів або їх референтів.
Метою контент-аналізу є освідомлення більш глибокої «позатекстової» реальності, латентних закономірностей, на основі такого аналізу можна зробити висновки про реальність історичної події, явища тощо.
Перелік задач, що вирішує контент-аналіз, вражає: кількісний і якісний аналіз текстів, визначення тематичного спрямування, оптимізація пошукових запитів, аналіз контенту сайтів для успішного їх просування, визначення плагіату, різних соціологічних досліджень, аналіз засобів масової інформації. Контент-аналіз визначає досьє на автора книги або статті (його профорієнтація, психологічний портрет, стиль) і зворотне завдання – написання книг або статей у вказаному стилі.
Автором запропоновано критерій виявлення ключових понять з тексту, що створені людиною: лінійний розподіл коефіцієнта тематичного напряму (КТН), за оптимальної кількості визначень. З одного боку їх кількість повинна бути достатньою (загальна кількість значущих слів не менш сотні), а з другого неприпустимо повторення КТН із заданою точністю. КТН визначається для кожного фрагменту текстів та упорядковується за зменшенням. Також слід врахувати, що чим менше значення КТН, тим специфічніші властивості поняття. Ширина діапазону КТН визначає спектр поняття.
У запропонованій методиці вихідними текстами можуть бути як цілісні тексти так і окремі текстові фрагменти, пов'язані лише згадкою досліджуваного ключового поняття. Коефіцієнт тематичного напряму рахується за частотним складом ключових слів кожного фрагменту текстів, де є згадування дослідного поняття, його визначення або будь-які інші критерії.
Для виявлення ключових понять з текстів потрібно: кожен окремий фрагмент порівняти з іншими по частотному складу ключових слів з підрахунком коефіцієнта тематичного напряму; побудувати графік зміни КТН, упорядкувавши його значення за зменшенням; обрати ділянку на графіку або задати інтервал значень КТН і для кожного значення знайти відповідний текстовий фрагмент; для кожного фрагменту знайти унікальні ключові слова чи словосполучення, з яких визначити ключові поняття.
Лінійний розподіл КТН може бути використано як критерій надмірності кількості дослідних визначень. Наявність на графіку КТН спотворень типу «сходинка», свідчить про зайві визначення. Якщо є декілька визначень поняття з майже однаковими значеннями КТН, то для подальшого дослідження логічно залишити одне.
За сучасних обсягів і динаміки інформаційних потоків Інтернету, надана технологія може сприяти значному підвищенню якості інформаційно-аналітичної роботи, створенню динамічної бази даних актуальних понять (терміни, тематичні рубрики, географічні назви, імена персон, назви компаній), на основі обробки інформаційного потоку.