Слушайте все подкасты в одном месте

Каналы Познание Big dateЦифровые издания и семантическая разметка — Анастасия Бонч-Осмоловская

18 мая 2018

Цифровые издания и семантическая разметка — Анастасия Бонч-Осмоловская

Лингвист Анастасия Бонч-Осмоловская о новых способах сохранения культурного наследия, стандартах семантической разметки и виртуальных архивах. В цифровых гуманитарных технологиях, которые еще принято называть Digital Humanities (этот термин плохо переводится на русский и все остальные языки), есть очень важная серия задач — сохранение культурного наследия, или Digital Heritage. С одной стороны, она включает в себя все, что касается изобразительного искусства (например, создается много виртуальных музеев), с другой — это работа с текстами, сохранение рукописей, редких изданий и их дигитализация. И именно об этом и хотелось бы рассказать подробнее. Дело в том, что, с точки зрения обывателя, оцифрованные рукописи — это просто их очень качественная фотография. И если задаться целью, скажем, найти архивы газет 80-х годов XX века в Сети, то можно обнаружить, что они действительно оцифрованы таким образом: каждая страничка, например, газеты «Известия» сфотографирована и выложена в Сеть. Она хранится онлайн и как бы сохранена. Но такие фотографии — это несколько устаревшее представление о том, как нужно сохранять редкие и ценные источники. И в современном мире под оцифровкой подразумевают прежде всего распознавание самих данных и, главное, их разметку. Эта разметка называется семантической. Слово «семантическая» не должно здесь смущать: это не совсем та семантика, которая имеется в виду в лингвистике. То есть это не наука о смысле, а скорее некоторая технически осмысленная разметка. Текст сам по себе, с картинкой или заметками, сделанными другим человеком, — все эти данные представляются не как некоторый набор букв, а как упорядоченные наборы букв, про каждый из которых мы знаем, что это за слова, к какому уровню текста они принадлежат, кто их сделал, почему они вообще тут. Всегда есть некоторая важная информация про текст, которую мы как читатели часто можем вывести из того, как, например, в тексте расположены абзацы, буквы: вот это заглавие, это эпиграф, это основной текст. Когда мы переводим текст в цифровой вид — в файл, в текстовый документ, — мы эту информацию теряем. Мы теряем ту информацию, которая подспудно содержится в редакторском форматировании, не говоря уже о той информации, которая содержится в материальном источнике, — например, что-то неразборчивое, накарябанное, но предположительно, скажем, авторства Пушкина. То есть какие-то очень ценные нюансы могут не сохраняться. Экспертное знание о том, что именно было дополнительно написано, какие там могут быть буквы и кто это мог сделать, — это тоже очень важная информация, которую можно сохранить.

Плейлист

Big date

Большие данные в лингвистике – Анастасия Бонч-Осмоловская

04 июня 2018

Цифровые издания и семантическая разметка — Анастасия Бонч-Осмоловская

18 мая 2018

Поэзия и нейронные сети — Борис Орехов

16 апреля 2018

Классическое моделирование и машинное обучение

31 марта 2017

Сверточные нейронные сети

12 августа 2016