Frontier who watches the watchmen?

Метачушь

Оригинал написан в 2001 году Кори Доктороу, поэтому не удивляйтесь многочисленным отсылкам в прошлое, которое вы уже и не помните.

1. Введение

Метаданные это «данные о данных» — ключевые слова, длина страницы, заголовок, количество слов, выжимка, месторасполажение, SKU, ISBN, и так далее.

Явные, созданные людьми метаданные недавно вошли в моду, особенно в мире XML. Типичный сценарий выглядит примерно так: несколько поставщиков собираются вместе и соглашаются о стандарте метаданных — Определении Типа Документа (Document Type Definition, DTD) или схеме, для определенной предметной области, скажем, посудомоечных машинах.

Они согласовывают общий словарь для описания посудомоек: размер, вместимость, потребление энергии и воды, цена. Затем создают машиночитаемые базы данных своего ассортимента, которые доступны поисковым агентам и другим базам данных; так что потребитель может ввести параметры посудомойки, которую он ищет, и запросить одновременно множество сайтов, получив исчервывающий список производимых и подходящих под критерии посудомоечных машин.
И если все примут участие в такой системе и создадут хорошие метаданные с целью описать товары, сервисы и информацию, то найти в интернете высококачественную контексто-зависимую информацию станет проще простого: фанат сможет скачать всю музыку определенного жанра, производитель сможет эффективно находить поставщиков, а путешественники с лёгкостью выбрать комнату в отеле для предстоящего путешествия.

Мир избыточных и надёжных метаданных был бы утопией. Равно как и несбыточной мечтой, основанной на самообмане, гордыне нёрдов и истерически раздутом рынке возможностей.

2. Проблемы

Существует как минимум семь непреодолимых препятствий между миром, каким мы его знаем, и метаутопией. Я обозначил их ниже:

2.1 Люди лгут.

Метаданные существуют в мире конкуренции. Поставщики соревнуются в продаже своих товаров, фанатики соперничают в попытках донести свои псевдонаучные теории (mea culpa), артисты конкурируют за аудиторию. Количество доступного внимания и кошельки могут быть ненулевой суммой, но они чертовски близки к этому. И вот почему:

Поиск по любому часто употребляемому термину в поисковом движке, например, Альтависте, зачастую выдаст как минимум одну порноссылку в первой десятке результатов. Ваш почтовый ящик забит спамом с темой навроде «Re: Информация, которую вы запрашивали».

Что-то вроде

Publisher’s Clearing House рассылает рекламу, которая кричит: «Ты уже наверняка победитель!» Пресс-релизы содержат гаргантюанские списки ничего не значащих, но зато модных слов.
Метаутопия — это мир надёжных метаданных. Когда отравление колодца приносит пользу отравителям, метаводы очень скоро станут отвратительно ядовиты.

2.2 Люди ленивы

Вы и я вовлечены в невероятно серьёзное дело — создание информации. Здесь, в инфобашне из слоновой кости, мы понимаем всю важность создания и поддерживания безупречных метаданных для нашей информации. Но инфограждане потрясающе равнодушны касательно их информации. Ваша ничего не подозревающая тётя шлёт письма без указанной темы, половина страниц на Geocities называется «Please title this page», а ваш начальник хранит все файлы на рабочем столе с говорящими названиями вроде UNTITLED.DOC.

И этой лени нет предела. Никакая «простота использования» не поможет. Чтобы понять настоящую глубину металени, скачайте десять случайных MP3 файлов с Napster. Шансы таковы, что как минимум один из них будет без названия, исполнителя или информации о треке — несмотря на то, что добавление этих данных сводится к клику «Получить информацию о треке из CDDB» в любом mp3-режущем приложении.

И без ломания пальцев или высылания отрядов мстительных инфониндзей ради добавления метаданных к файлам среднестатистического пользователя, мы никогда не достигнем цели.

2.3 Люди глупы

Даже когда есть выгода в создании хороших метаданных, люди постоянно отказываются заботиться о создании метаданных. Например, eBay: у каждого продавца есть чертовски хорошая причина дважды проверить свои лоты на опечатки и ошибки. Поищите «plam» на eBay. Прямо сейчас там девять лотов «Plam Pilots». Лоты с неправильно написанными словами не покажутся в поиске по запросу без ошибок, а потому соберут меньше ставок и цена продажи будет ниже. Почти всегда можно выгодно прикупить Plam Pilot на eBay.

Тонкие (и грубые) области грамотности — правописания, пунктуация, грамматика — ускользают от подавляющего большинства пользователей Интернета. И верить, что пользователи (J. Random Users) внезапно и все вместе научатся правописанию и пунктуации — оставим в стороне точную категоризацию их информации относительно иерархии, в которой им предполагается пользоваться — это самообман чистой воды.

2.4 Миссия невыполнима: познай себя

В метаутопии каждый увлечен пьянящим занятием описывания вещей, сопоставлением вещей с другими и точным угадыванием свойств вещей, записывая всё это по ходу дела.

Простое наблюдение покажет ошибочность этого предположения. Когда Нильсен использовал дневники, чтобы собрать данные о привычках просмотра в наблюдаемых семьях, результаты сильно смещались к Шедеврам Театра и Улице Сезам. Замена дневников на тв-приставки, которые сообщали о каналах, на которых работали телевизоры, показала, что средняя американская семья действительно смотрела: рестлинг полуголых карликов, «Самые смешные неудачные пластические операции Америки» и Джерри Шпрингера, заявлявшего: «Моя дочь одевается как шлюха!»

Спросите программиста, сколько времени займёт написание конкретного модуля, или подрядчика — сколько уйдёт времени на ремонт крыши. Узнайте у лаконичного южанина, как далеко ещё до ручья. Или ещё лучше, сыграйте в дартс — ответы будут примерно той же надёжности.

У людей плохо получается наблюдать за своим поведением. Целые религии основаны с целью помочь людям понять самих себя лучше; терапевты загребают миллиарды, работая в этой сфере.

Так почему мы должны верить, что метаданные помогут J. Random User достичь своей природы Будды?

2.5 Схемы не нейтральны

В метаутопии одетые в халаты охранники эпистемологии сидят и рационально расчерчивают иерархию идей, что-то вроде:

Ничто: 
    Чёрные дыры

Что-то: 
    Материя:
        Земля:
            Планеты
            Посудомоечные машины
        Ветер:
            Кислород
            Пердёж
        Огонь:
            Деление ядер
            Слияние ядер
            Острый соус из Луизианы «Mean Devil Woman»

В определенной области, скажем, посудомоечных машинах, эксперты согласятся с подиерархиями, включающими классы надёжности, энергопотребление, цвет, размеры и так далее.
Это подразумевает, что существует «правильный» способ категоризации идей, и что разумные люди с достаточным количеством времени и финансов, могут согласиться о подходящих критериях для построения иерархии.

Ничто не может быть так далеко от правды. Любая иерархия идей непременно подразумевает важность определенных осей над другими. Производитель небольших, экологичных машин нарисует иерархию навроде такой:

Энергопотребление:
    Потребление воды:
        Габариты:
            Вместимость:
                Надёжность

Тогда как производитель роскошных посудомоечных машин с тоннами опций захочет что-то вроде:

Цвет:
    Габариты:
        Программируемость:
            Надёжность

Вера в то, что конкурирующие интересы легко согласуются в единый словарь, игнорирует мощь организационных принципов на рынке.

2.6 Метрики влияют на результат

Соглашение относительно общего критерия для измерения важных вещей в любой сфере обязательно даёт преимущество товарам, которые высоко оцениваются по этой метрике, вне зависимости от пригодности в целом. IQ-тесты дают преимущество людям, которые хороши в прохождении IQ-тестов. Рейтинги Нильсона благоволят 30- и 60-минутным телепередачам (и поэтому MTV не показывает больше ролики — Нильсен не смог создать рейтинги для трёхминутных мини-программ, а потому MTV не смогли продемонстрировать ценность рекламирования в их сети), чистые мегагерцы дают фору CISC-чипам Intel против RISC-чипов Motorola. Оси оценок взаимоисключающи: ПО, которое хорошо оценивается по безопасности, плохо показывает себя в рейтинге удобства, десерты хороши на вкус, но плохи для здоровья. Каждый игрок, принимающий участие в создании стандарта метаданных, хочет подчеркнуть то, в чём у него есть преимущества, и запрятать (или, если возможно, вообще не включать) те оси, с которыми у него всё плохо.

Верить в то, что группа из людей, продвигающих свои планы, будет единодушно довольна любой иерархий знаний — значит принимать желаемое за действительное. В лучшем случае, мы можем надеяться на компромисс, который каждому не подходит.

2.7 Существует более чем один способ описать что-либо

«Я не смотрю мультики! Это культурная антропология» «Это не порно, это искусство» «Это вовсе не проплешина, а солнечная панель для секс-машины»

Разумные люди могут дискутировать бесконечно о том, как описать что-либо. Спорно, но ваше Я — это совокупность ассоциаций и описаний, которые вы приписываете к идеям. Требовать от каждого использовать тот же словарь — значит обнажать когнитивный ландшафт, что влечёт однородность идей.

А это просто неправильно.

3. Надёжные метаданные

Так что, выбрасываем метаданные?

Конечно нет. Метаданные довольно полезны, если использовать с подходящей щепоткой соли. Метаутопия никогда не наступит, но метаданные, зачастую, дают хорошия основания для грубых предположений о информации, которая путешествует по сети.

Определенные разновидности неявно выраженных метаданных, на самом деле, чертовски полезны. Гугл использует метаданные о структуре мировой сети: изучая количество ссылок на страницу (и количество ссылок на каждый источник), Гугл может извлечь статистику о количестве веб-авторов, которые уверены в важности страницы настолько, чтобы сослаться на неё, и из этого сделать невероятно надёжные догадки о том, насколько информация на странице достоверна.

Такого рода метаданные из наблюдений намного надёжнее, нежели то, что люди создают с целью, чтобы их документы нашли. Они прогрызаются свозь маркетинговую чушь, самообман и коллизии словарей.

Более общно, такой вид метаданных можно рассматривать как родословную: кто думает, что этот документ ценен? Насколько сильно коррелируют ценности этого человека с моими за прошедшее время? Такой вид неявного подтверждения информации намного больше подходит для информационноаггрегирующей панацеи, нежели все схемы мира вместе взятые.

//это перевод, оригинал: http://www.well.com/~doctorow/metacrap.htm