Колекції оцифрованих газет: аналіз міжнародного досвіду та особливості організації в Національній бібліотеці України імені В. І. Вернадського

ЗаявникКоцюба Євгенія Юріївна (Україна)
ФорумМіжнародна наукова конференція «Бібліотека. Наука. Комунікація» (2015)
ЗахідСекція 4.Електронні бібліотеки. Автоматизація бібліотечної технології
Назва доповідіКолекції оцифрованих газет: аналіз міжнародного досвіду та особливості організації в Національній бібліотеці України імені В. І. Вернадського
Інформація про співдоповідачівХоменко О. О., провідний бібліотекар відділу інформаційно-комунікаційних технологій НБУВ
Презентаціяне завантажено
Статтяне завантажено


Тези доповіді

У всьому світі бібліотечні фонди розглядаються як головний ланцюг системи збереження культурного надбання нації. Важливою ланкою збереження бібліотечних фондів є переведення видань в електронну форму, при цьому важливо отримувати цифрові копії, придатні для страхового зберігання, якісного розпізнавання тексту і подальшого використання документів в інформаційних системах. Одним із важливих затребуваних користувачами цифрових ресурсів є оцифровані газети. З метою забезпечення організації виготовлення якісних цифрових копій та надання доступу до них віддаленим користувачам було проведено дослідження міжнародного та вітчизняного досвіду онлайнової публікації газетних фондів на базі провідних бібліотек світу. Інформацію проаналізовано за наступними критеріями: доступ авторизований чи вільний, чи потрібно для доступу мати читацький квиток бібліотеки, перегляд газет платний чи безкоштовний, чи можна обирати мову інтерфейсу, з якого року є архів випусків, які види пошуку доступні – по назві газети, по змісту випуску, по ключовим словам; чи є повнотекстовий пошук; чи є посилання на аналогічні сайти.
Europeana Newspaper – проект спрямований на відбір та агрегацію європейських газет, на цілісне вирішення проблем, пов'язаних з оцифруванням газетних матеріалів: використання методів розпізнавання тексту (OCR), постатейна сегментація матеріалів (OLR), визначення імен осіб (NER); якість цифрових копій; узгодження локальних моделей метаданих та моделі метаданих Європейської бібліотеки (EDM); стандартизація метаданих у співпраці з зацікавленими спеціалістами державного та приватного сектору. Europeana Newspapers фінансується Єврокомісією, що дає можливість проекту опрацьовувати, об'єднувати та надавати дослідникам онлайновий доступ до історичних газет із 23 європейських бібліотек.
Британська бібліотека надає доступ до колекцій історичних газет в межах ресурсу British Newspaper Archive. Цей ресурс містить понад 10 млн. сторінок повнотекстового пошуку і налічує більше 200 газетних назв із кожної частини Великобританії та Ірландії. Сайт продовжує розвиватися, в передбачається оцифрувати 40 млн. газетних сторінок, щоденно додаються тисячі сторінок. За хронологією це газети в XVIII – ХІХ сторіччя, вони охоплюють всі аспекти місцевих, регіональних і національних новин. Пошук можна проводити за темами: сімейні новини; некрологи; національні, регіональні, місцеві події; ілюстрації, об’яви, листи. Пошук в архіві безкоштовний. Перегляд тексту газети безкоштовний у читальних залах бібліотеки і платний через передплату.
Національна бібліотека Швеції в рамках проекту «Цифрові колекції» містить розділ «Газети і журнали» («Dagstidningar & tidskrifter»), до якого надається доступ у двох режимах: пошук ( Söka ) та огляд ( Bläddra ). Режим «Огляд» дає можливість без здійснення пошукового запиту переглянути назви, роки і загальну кількість сторінок оцифрованих бібліотекою газет, отримати доступ до повного тексту обраної газети. Режим «Пошук» дає можливість доступу до інформації за такими параметрами: ключові слова, назва та рік видання газети. Всі ресурси знаходяться у вільному доступі. Газету можна передивитися, завантажити у PDF-форматі або роздрукувати.
Національна бібліотека Ізраїлю та Тель-Авівський університет запустили проект «Історична єврейська преса», для якого сканують і завантажують в Інтернет сотні тисяч сторінок з єврейських газет, починаючи з ХІХ століття і до наших днів. Вони створили сайт JPRESS (The Historical Jewish Press). Серед оцифрованих видань – перша щоденна газета на івриті, що видавалася в Санкт-Петербурзі (1886–1888 роки), Palestine Post – попередник Jerusalem Post, і всі випуски газети «Маарів» з 1968 року. На сайті також можна знайти єврейські газети, що випускалися у Франції, Німеччині, Марокко, Єгипті та в ряді інших країн. Сайт дозволяє виконувати повнотекстовий пошук та переглядати текст оцифрованої газети. Пошук газет можна здійснювати за такими параметрами: назви газет, мова видання, колекція, країна, роки видання. Майже до кожної газети написано коротенький зміст. Вхід на сайт вільний.
Цифровий проект Національної бібліотеки Австралії, а саме пошукова система Trove забезпечує доступ до більш ніж 90 млн. одиниць зберігання, отриманих із понад 1000 бібліотек і культурних установ по всій країні. Пошукова система була створена на базі проекту з оцифрування газет. Програмне забезпечення дало можливість реалізувати оптичне розпізнавання символів для автоматичного перетворення зображень газет в цифровий формат. Дрібний шрифт і нечіткість друку деяких сторінок зробили процес перетворення складним і не завжди точним. В результаті більше 5 000 інтернет-користувачів допомагали виправляти отриманий текст. Газетні матеріали також аналізуються оператором і розбиваються на статті, сегменти, сторінки (зони), забезпечуються метаданими.
Бібліотека Конгресу США надає доступ до цифрового ресурсу «Historic Newspapers» («Історичні газети»»). Це результат розробки National Digital Newspaper Program (NDNP) – Національної програми оцифрування газет, яка призначена для забезпечення розширеного доступу до газет США, виданих між 1826-1922 роками, кількість оцифрованих сторінок майже 9,5 млн. Газети упорядковані за роками, штатами, місцями видання, назвами, темами. Є можливість проводити пошук за ключовими словами та переглядати повний бібліографічний опис газети (альтернативні назви, перейменування, роки виходу тощо).
Серед українських проектів слід відзначити «Acta Diurna» – потужний проект Наукової бібліотеки Львівського національного університету імені Івана Франка, який передбачає наповнення двох великих розділів – самого цифрового репозиторія повнотекстових копій і загального каталогу періодики. Каталог періодичних видань – частина комплексного проекту, що передбачає можливість бібліографічної ідентифікації газет, опублікованих в Україні, або українськими політичними, громадськими, культурними та релігійними представництвами за кордоном. Проект було започатковано 2012 р., сьогодні є доступ до 12 найменувань газет, 374 номерів, 4797 сторінок української періодики за 1919–1944 роки, представлено три колекції: «Єврейська міжвоєнна періодика Галичини та Волині», «Пропагандистська преса окупованих українських територій», «Українська міжвоєнна преса Галичини».
В Національній бібліотеці України імені В. І. Вернадського (НБУВ) перша спроба з оцифрування газет була здійснена у 2005 році, перше оцифроване видання – газета «Краківські Вісті». У 2010 році в НБУВ була створена група з оцифрування документів, яка виготовляє електронні версії документів згідно планових завдань. Головними пріоритетами оцифрування в НБУВ є найбільш цінні та унікальні документи, до яких відносяться також і газети. Станом на початок 2015 року оцифровано 19 найменувань, 66 річних комплектів, 12 904 номерів, 68 903 зображень сторінок. Здійснюється постійний облік робіт та бібліографічний опис газет для подальшої публікації на порталі НБУВ. У процесі підготовки номерів газет до онлайнової публікації цифрові копії проходять низку технологічних операцій: перевірка якості та повноти зображень сторінок, розкладання за номерами, підготовка електронних версій повних текстів для читання у браузері, внесення відповідних метаданих до бази даних. До оцифрованих газет на порталі НБУВ надається доступ у двох інформаційних блоках «Цифрова бібліотека історико-культурної спадщини» та «Газетний фонд». Є можливість перегляду інформації за ключовими словами, назвою газети, роками видання. Доступ до перегляду газет вільний, можливість завантажувати зображення сторінок заборонена. Сьогодні віддаленим користувачам доступна лише незначна частина колекції оцифрованих газет, на якій було відпрацьовано технологію підготовки газет до онлайнової публікації. Решта колекції знаходиться у стадії опрацювання і найближчим часом буде доступна на порталі НБУВ.
Проведений аналіз дає змогу зробити висновки, що оцифруванням газет у різних країнах займається значна кількість бібліотек – це є важливим внеском у збереження та розширення доступу до національного історико-культурного надбання. Кожна бібліотека обирає зручний для себе спосіб надання читачам інформації, узгоджений з іншими технологічними рішеннями бібліотеки та національним законодавством. Основними принципами організації газетних матеріалів є можливість перегляду інформації за колекціями (тематичними або регіональними), назвами газет, річними комплектами, окремими випусками газети. Найбільш розвинені газетні системи забезпечені введенням змісту випусків газет та повнотекстовим пошуком, але ці можливості для повноцінної реалізації потребують значних часових та людських ресурсів. Важливим принципом організації бібліотечного електронного каталогу газет є також інформування користувачів про повноту комплектів газетного видання, історичні зміни назви газети та всі наявні варіанти представлення (втілення) газетних матеріалів: паперовий, мікрофіші, цифрові копії тощо. Під час укладання опису газет необхідно дотримуватись загальноприйнятих стандартів та рекомендацій з метою подальшої інтеграції колекцій цифрових газет до міжнародних бібліотечних проектів.