Углеводные базы данных – выводы из последнего десятилетия
Иллюстративные материалы к лекции

Скачать комплект слайдов в высоком разрешении (PDF, 1.8 Mb)

Список слайдов
(нажмите на название для быстрого перехода)

Краткое содержание

В настоящее время объем накопленной информации об углеводах многократно превысил уровень, позволяющий ориентироваться в ней без специальных средств. Поэтому прогресс гликобиологии во многом зависит от наличия единого информационного пространства данных по структуре, свойствам и функциям углеводов, связанных с таксономией и свойствами их природных источников. Основным средством создания такого пространства являются базы данных (БД) гликомики. Однако, в отличие от геномики и протеомики, информатизация гликомики все еще находится в процессе становления. Существующие проекты гликоинформатики не полностью совместимы друг с другом как по покрытию, так и по форматам данных и представленной информации; каждый из них направлен на решение своего класса задач.

Наиболее востребованными являются углеводные БД с широким покрытием: GLYCOSCIENCES (импорт Carbbank + углеводы млекопитающих + данные ЯМР), GlycoSuiteDB (O- и N-гликаны млекопитающих), CFG Glycan Database (углеводы млекопитающих из Carbbank и Glycominds), KEGG (в основном импорт Carbbank), GlycoBase-Dublin (N-гликаны + данные масс-спектрометрии), GlycoBase-Lille (углеводы амфибий + данные ЯМР), ECODAB (О-антигены E. сoli), Bacterial CSDB (бактериальные углеводы + данные ЯМР), а также мета-репозитория GlyTouCan.

Исторически первой универсальной углеводной БД была Carbbank, претендовавшая на полноту покрытия по всем структурам, опубликованным до 1996-го года, в котором прекратилась ее поддержка. Поскольку сбор и оцифровка первичных данных из публикаций – наиболее трудоемкая часть работы по созданию БД, почти все современные проекты в том или ином виде используют данные Carbbank, а также идеологию этой базы.

Отличительными особенностями, как и критериями оценки углеводных баз данных являются: представленные типы информации, полнота покрытия, качество данных, функциональность (а также стабильность и производительность), интерфейс пользователя, возможность интеграции с другими проектами и, косвенно, внутренняя архитектура БД.

Типы информации, хранение и обработка которых необходимы для углеводной базы - это как минимум первичная структура молекул, их таксономические и библиографические аннотации. Часто БД также включают экспериментальные данные, например ЯМР-спектры. Возможность записи биохимической, генетической, медицинской и другой информации как правило присутствует, но покрытие по этим полям оставляет желать лучшего. Таксономические и библиографические аннотации также присутствуют не во всех базах или не для всех записей. В тех базах, где есть спектры ЯМР, ЯМР-покрытие составляет от 5% до 35% структур.

Высокая полнота покрытия существенно увеличивает полезность БД, так как даже негативный ответ на поисковый запрос является в таком случае значимой научной информацией. Полнота покрытия лимитируется невозможностью автоматизации процесса поиска статей с первичными данными. В настоящее время на полное (>80%) покрытие в рамках выбранного класса соединений претендует только Bacterial CSDB. Покрытие остается актуальным при своевременном обновлении базы; приемлемым можно считать временной лаг между публикацией и попаданием в базу около 1-2 лет. Универсальное решение для повышения актуальности данных – это требование редакций журналов обязательно размещать описываемые структуры в базах данных перед публикацией, с предоставлением ссылки на запись. Такой подход давно реализован в геномике, но отсутствует в гликомике из-за недостаточной стандартизации языков описания структур, корни которой лежат в высокой химической вариативности углеводов.

Процесс заполнения БД данными не поддается полной автоматизации не только на уровне отбора источников данных, но и на уровне интерпретации текстов публикаций. Как следствие, все химические и биологические БД содержат ошибки (в порядке распространения): привнесенные операторами, перекочевавшие из других БД, присутствующие в публикациях изначально, возникшие из-за несовершенства архитектуры БД и программных ошибок в импортерах и автоаннотаторах. По результатам нашего направленного исследования, большинство записей в Carbbank содержит ошибки, причем более трети – две и более ошибок, наиболее частая из которых – неверная таксономическая привязка структуры. Также обнаружены значительные пробелы в полноте покрытия. Поскольку большинство современных проектов использует данные Carbbank, эти ошибки проявляются и в них. Некоторые типы ошибок можно выявить (а иногда - исправить) автоматически, и такой контроль ведется в нескольких проектах, однако для достижения действительно высокого качества данных необходим ретроспективный экспертный анализ публикаций.

Функциональность БД – это ее способность обрабатывать поисковые запросы разных типов, комбинировать их в разных логических сочетаниях, уточнять их с использованием данных других типов. Например, “найти все опубликованные за период 2001-2005 гг. структуры, содержащие такой-то фрагмент, а также связанный с моносахаридом лизин либо аланин, кроме синтетических и тех, которые найдены в гамма-протеобактериях, после чего вывести их ЯМР-спектры”. Также к функциональности относятся сопутствующие сервисы углеводной тематики (генерирование конформационных карт, предсказание спектров, поиск структурных закономерностей и т.д.). В отличие от простых в реализации схем поиска по библиографии, ключевым словам, фрагментам текстов, таксономии и пр., поиск структур, содержащих указанный фрагмент, а также поиск структур или спектров, «похожих» на указанные, – задача, требующая изощренного программирования и значительных вычислительных ресурсов. В этой связи становится значимой внутренняя архитектура БД, правильность проектирования которой критична для достижения разумной скорости обработки структурных запросов. Несколько лет назад исследовательский коллектив GLYCOSCIENCES сформулировал “Десять заповедей построения углеводной базы данных”, объединивших опыт немецкой и российской групп. Ключевые положения этого документа включают использование таблицы связности для внутреннего представления структур, максимально возможную индексацию, минимальное количество свободнотекстовых данных (которыми, к сожалению, грешат почти все проекты) и однозначный контролируемый словарь для множества типов данных, в первую очередь - для названий остатков. Попытка вывести словарь мономеров из зоны ответственности конкретных проектов была сделана в рамках базы MonosaccharideDB.

Возможность правильной обработки структурной информации напрямую связана со способом записи углеводных структур. Несовершенство и несовместимость форматов этих записей долгое время являлись камнем преткновения для развития гликоинформатики. Языки записи структур, используемые для внутреннего представления данных и/или для пользовательского интерфейса, оцениваются по следующим критериям:

В настоящее время указанными характеристиками в наибольшей степени обладают языки CSDB Linear и GlycoCT. Однако первый не поддерживает некоторые топологии, а второй нечеловекочитаем. В отличие от ситуации в геномике и протеомике, общепризнанного углеводного языка до сих пор не существует, кроме крайне несовершенного IUPAC. Один из упомянутых языков может стать таким стандартом в будущем.

Сложившиеся представления о качественном продукте гликоинформатики подразумевают, что интерфейс пользователя (как и интерфейс администраторов) должен быть интуитивно понятен, хорошо документирован и бесплатно доступен научной общественности через Интернет. Понятность касается в том числе форматов ввода и вывода структур, которым пользователю не придется специально учиться. В этом аспекте чрезвычайно плодотворна реализация ввода фрагментов структур с помощью самостоятельных сервисов, в том числе специальных редакторов, имеющих программный интерфейс, позволяющий любой БД пользоваться интерфейсом других БД. Интеграция между проектами гликоинформатики подразумевает не только общий интерфейс поисковых запросов, но и возможность автоматического обмена данными. Это касается и взаимодействия с неуглеводными базами данных, как минимум NCBI Taxonomy и NCBI Pubmed. Первыми проектами, разработавшими протоколы автоматического обмена данными об углеводах, были GLYCOSCIENCES и Bacterial CSDB, после чего стандартизация форматов и разработка программных web-сервисов гликомики значительно ускорились.

Особняком стоит EurocarbDB, которая была профинансирована как БД, полностью лишенная недостатков и обеспечивающая любую мыслимую функциональность, а на деле ограничилась разработкой подходов (без их реального воплощения, которое и является «узким местом» БД из-за человеческого фактора) и импортом Carbbank. На противоположном конце идеологической иерархии находится мета-репозиторий Glytoucan, который заведомо не предоставляет собственных данных, но интегрируется со множеством других проектов, импортируя их данные и являясь по сути «базой баз», обеспечивающей межпроектную работу в едином интерфейсе.

В рамках проекта Carbohydrate Structure Dadatbase (CSDB) мы попытались спроектировать архитектуру БД и реализовать ее в программном продукте, который был бы лишен основных недостатков других БД гликомики, а также обеспечить поддержку и регулярное обновление данных. Ключевыми особенностями является полнота покрытия по бактериям (и в будещем по грибам) и полностью верифицируемый контент. За последние 12 лет своего существования CSDB стала основным источником данных по углеводам микроорганизмов и платформой для множества сервисов гликоинформатики. Проект нацелен создание современной и всеобъемлющей базы природных углеводов, которая идеологически заменит собой Carbbank.

Слайды


ScienceДом : Наука NMRНаука : CSDB CoursesДом : Преподавание

Последнее обновление: 2017 октябрь 29      Домой