Цифровые издания и семантическая разметка — Анастасия Бонч-Осмоловская
27
Описание
Лингвист Анастасия Бонч-Осмоловская о новых способах сохранения культурного наследия, стандартах семантической разметки и виртуальных архивах. В цифровых гуманитарных технологиях, которые еще принято называть Digital Humanities (этот термин плохо переводится на русский и все остальные языки), есть очень важная серия задач — сохранение культурного наследия, или Digital Heritage. С одной стороны, она включает в себя все, что касается изобразительного искусства (например, создается много виртуальных музеев), с другой — это работа с текстами, сохранение рукописей, редких изданий и их дигитализация. И именно об этом и хотелось бы рассказать подробнее. Дело в том, что, с точки зрения обывателя, оцифрованные рукописи — это просто их очень качественная фотография. И если задаться целью, скажем, найти архивы газет 80-х годов XX века в Сети, то можно обнаружить, что они действительно оцифрованы таким образом: каждая страничка, например, газеты «Известия» сфотографирована и выложена в Сеть. Она хранится онлайн и как бы сохранена.   Но такие фотографии — это несколько устаревшее представление о том, как нужно сохранять редкие и ценные источники. И в современном мире под оцифровкой подразумевают прежде всего распознавание самих данных и, главное, их разметку. Эта разметка называется семантической. Слово «семантическая» не должно здесь смущать: это не совсем та семантика, которая имеется в виду в лингвистике. То есть это не наука о смысле, а скорее некоторая технически осмысленная разметка. Текст сам по себе, с картинкой или заметками, сделанными другим человеком, — все эти данные представляются не как некоторый набор букв, а как упорядоченные наборы букв, про каждый из которых мы знаем, что это за слова, к какому уровню текста они принадлежат, кто их сделал, почему они вообще тут. Всегда есть некоторая важная информация про текст, которую мы как читатели часто можем вывести из того, как, например, в тексте расположены абзацы, буквы: вот это заглавие, это эпиграф, это основной текст. Когда мы переводим текст в цифровой вид — в файл, в текстовый документ, — мы эту информацию теряем. Мы теряем ту информацию, которая подспудно содержится в редакторском форматировании, не говоря уже о той информации, которая содержится в материальном источнике, — например, что-то неразборчивое, накарябанное, но предположительно, скажем, авторства Пушкина. То есть какие-то очень ценные нюансы могут не сохраняться. Экспертное знание о том, что именно было дополнительно написано, какие там могут быть буквы и кто это мог сделать, — это тоже очень важная информация, которую можно сохранить.
Плейлист
Все, что нужно знать о структуре языков, их сходстве и различиях за два часа. В курсе предлагается знакомство с основными понятиями тех направлений науки о языке, которые изучают языковое разнообрази...
24 февраля 2019
6
Специалист в области Computer Science Иван Смирнов о современных задачах анализа языка, способах их решения и о том, как анализ текста помогает выявлять депрессию Иван Смирнов кандидат физико-математ...
12 декабря 2018
9
О диалектах идиша, теориях происхождения языка и славянских заимствованиях в идише рассказывает лингвист Александра Полян Расшифровку читайте здесь — https://postnauka.ru/video/89299 Александра Поля...
21 ноября 2018
5
13 октября 2017
38
11 сентября 2017
14
4 августа 2017
13
16 мая 2017
21
25 октября 2016
8
21 октября 2016
18
18 октября 2016
2
11 октября 2016
17
15 августа 2016
20
31 марта 2016
9
Item 1 of 3