18 мая 2018
Цифровые издания и семантическая разметка — Анастасия Бонч-Осмоловская
87

Лингвист Анастасия Бонч-Осмоловская о новых способах сохранения культурного наследия, стандартах семантической разметки и виртуальных архивах. В цифровых гуманитарных технологиях, которые еще принято называть Digital Humanities (этот термин плохо переводится на русский и все остальные языки), есть очень важная серия задач — сохранение культурного наследия, или Digital Heritage. С одной стороны, она включает в себя все, что касается изобразительного искусства (например, создается много виртуальных музеев), с другой — это работа с текстами, сохранение рукописей, редких изданий и их дигитализация. И именно об этом и хотелось бы рассказать подробнее. Дело в том, что, с точки зрения обывателя, оцифрованные рукописи — это просто их очень качественная фотография. И если задаться целью, скажем, найти архивы газет 80-х годов XX века в Сети, то можно обнаружить, что они действительно оцифрованы таким образом: каждая страничка, например, газеты «Известия» сфотографирована и выложена в Сеть. Она хранится онлайн и как бы сохранена.   Но такие фотографии — это несколько устаревшее представление о том, как нужно сохранять редкие и ценные источники. И в современном мире под оцифровкой подразумевают прежде всего распознавание самих данных и, главное, их разметку. Эта разметка называется семантической. Слово «семантическая» не должно здесь смущать: это не совсем та семантика, которая имеется в виду в лингвистике. То есть это не наука о смысле, а скорее некоторая технически осмысленная разметка. Текст сам по себе, с картинкой или заметками, сделанными другим человеком, — все эти данные представляются не как некоторый набор букв, а как упорядоченные наборы букв, про каждый из которых мы знаем, что это за слова, к какому уровню текста они принадлежат, кто их сделал, почему они вообще тут. Всегда есть некоторая важная информация про текст, которую мы как читатели часто можем вывести из того, как, например, в тексте расположены абзацы, буквы: вот это заглавие, это эпиграф, это основной текст. Когда мы переводим текст в цифровой вид — в файл, в текстовый документ, — мы эту информацию теряем. Мы теряем ту информацию, которая подспудно содержится в редакторском форматировании, не говоря уже о той информации, которая содержится в материальном источнике, — например, что-то неразборчивое, накарябанное, но предположительно, скажем, авторства Пушкина. То есть какие-то очень ценные нюансы могут не сохраняться. Экспертное знание о том, что именно было дополнительно написано, какие там могут быть буквы и кто это мог сделать, — это тоже очень важная информация, которую можно сохранить.

Чтобы пользоваться нашим сервисом, вам нужно принять пользовательское соглашение.

Мы используем файлы cookies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с нашей Политикой использования файлов cookie, нажмите здесь.