Цифровые издания и семантическая разметка — Анастасия Бонч-Осмоловская
48
Лингвист Анастасия Бонч-Осмоловская о новых способах сохранения культурного наследия, стандартах семантической разметки и виртуальных архивах. В цифровых гуманитарных технологиях, которые еще принято называть Digital Humanities (этот термин плохо переводится на русский и все остальные языки), есть очень важная серия задач — сохранение культурного наследия, или Digital Heritage. С одной стороны, она включает в себя все, что касается изобразительного искусства (например, создается много виртуальных музеев), с другой — это работа с текстами, сохранение рукописей, редких изданий и их дигитализация. И именно об этом и хотелось бы рассказать подробнее. Дело в том, что, с точки зрения обывателя, оцифрованные рукописи — это просто их очень качественная фотография. И если задаться целью, скажем, найти архивы газет 80-х годов XX века в Сети, то можно обнаружить, что они действительно оцифрованы таким образом: каждая страничка, например, газеты «Известия» сфотографирована и выложена в Сеть. Она хранится онлайн и как бы сохранена.   Но такие фотографии — это несколько устаревшее представление о том, как нужно сохранять редкие и ценные источники. И в современном мире под оцифровкой подразумевают прежде всего распознавание самих данных и, главное, их разметку. Эта разметка называется семантической. Слово «семантическая» не должно здесь смущать: это не совсем та семантика, которая имеется в виду в лингвистике. То есть это не наука о смысле, а скорее некоторая технически осмысленная разметка. Текст сам по себе, с картинкой или заметками, сделанными другим человеком, — все эти данные представляются не как некоторый набор букв, а как упорядоченные наборы букв, про каждый из которых мы знаем, что это за слова, к какому уровню текста они принадлежат, кто их сделал, почему они вообще тут. Всегда есть некоторая важная информация про текст, которую мы как читатели часто можем вывести из того, как, например, в тексте расположены абзацы, буквы: вот это заглавие, это эпиграф, это основной текст. Когда мы переводим текст в цифровой вид — в файл, в текстовый документ, — мы эту информацию теряем. Мы теряем ту информацию, которая подспудно содержится в редакторском форматировании, не говоря уже о той информации, которая содержится в материальном источнике, — например, что-то неразборчивое, накарябанное, но предположительно, скажем, авторства Пушкина. То есть какие-то очень ценные нюансы могут не сохраняться. Экспертное знание о том, что именно было дополнительно написано, какие там могут быть буквы и кто это мог сделать, — это тоже очень важная информация, которую можно сохранить.
Плейлист
Лингвистика на ПостНауке
Все, что нужно знать о структуре языков, их сходстве и различиях за два часа. В курсе предлагается знакомство с основными понятиями тех направлений науки о языке, которые изучают языковое разнообрази...
24 февраля 2019
42
Специалист в области Computer Science Иван Смирнов о современных задачах анализа языка, способах их решения и о том, как анализ текста помогает выявлять депрессию Иван Смирнов кандидат физико-математ...
12 декабря 2018
26
О диалектах идиша, теориях происхождения языка и славянских заимствованиях в идише рассказывает лингвист Александра Полян Расшифровку читайте здесь — https://postnauka.ru/video/89299 Александра Поля...
21 ноября 2018
21
13 октября 2017
50
11 сентября 2017
35
04 августа 2017
22
16 мая 2017
110
25 октября 2016
24
21 октября 2016
32
18 октября 2016
6
31 марта 2016
12