Углеводные базы данных

Углеводные базы данных – выводы из последнего десятилетия
Иллюстративные материалы к лекции

Скачать комплект слайдов в высоком разрешении (PDF, 1.8 Mb)

Список слайдов
(нажмите на название для быстрого перехода)

Обзор углеводных баз

Углеводы – один из наиболее химически-разнообразных классов биомакромолекул. С открытием гликозилирования белков и выяснения роли углеводных антигенов в межклеточных взаимодействиях интерес к ним непрерывно возрастает. К настоящему времени объем накопленной информации об углеводах многократно превысил уровень, позволяющий ориентироваться в этом океане данных без специальных средств. Поэтому прогресс гликобиологии во многом зависит от наличия единого информационного пространства данных по структуре, свойствам и функциям углеводов, связанных с таксономией и свойствами их природных источников. Основным средством создания такого пространства являются базы данных (БД) гликомики и прогностические сервисы, использующие данные из этих баз. В отличие от геномики и протеомики, стандарты идентификации структур и протоколы обмена информацией в гликомике были стандартизированы лишь в последние годы; этот процесс еще полностью не завершен. Появившиеся проекты новой области биоинформатики - гликоинформатики - не полностью совместимы друг с другом как по покрытию, так и по форматам данных и возможностям, предоставляемым химикам, биологам, генетикам, фармацевтам. Каждый из таких проектов направлен на решение своего класса задач, тем не менее видится явная тенденция к взаимной интеграции.

Наиболее востребованными являются углеводные БД с широким покрытием: GLYCOSCIENCES (импорт Carbbank + углеводы млекопитающих + данные ЯМР), UniCarbKB (O- и N-гликаны млекопитающих), KEGG Glycan (в основном, импорт Carbbank), Carbohydrate Structure Database (CSDB; углеводы прокариот, растений и грибов + данные ЯМР)/ Также следует отметить специализированные GlycoBase-Dublin (N-гликаны + данные масс-спектрометрии), GlycoBase-Lille (углеводы амфибий + данные ЯМР), ECODAB (О-антигены E. сoli) и мета-репозитория структур GlyTouCan. Исторически первой универсальной углеводной БД была Carbbank, претендовавшая на полноту покрытия по всем структурам, опубликованным до 1996-го года, в котором прекратилась ее поддержка. Поскольку сбор и оцифровка первичных данных из публикаций – наиболее трудоемкая часть работы по созданию БД, почти все современные проекты в том или ином виде используют данные Carbbank, а также идеологию этой базы.

Отличительными особенностями, как и критериями оценки углеводных баз данных являются: представленные типы информации, полнота покрытия, качество данных, функциональность (а также стабильность и производительность), интерфейс пользователя, возможность интеграции с другими проектами и, косвенно, внутренняя архитектура БД.

Типы информации, хранение и обработка которых необходимы для углеводной базы - это как минимум первичная структура молекул, их таксономические и библиографические аннотации. Часто БД также включают экспериментальные данные, например ЯМР-спектры. Возможность записи биохимической, генетической, медицинской и другой информации как правило присутствует, но покрытие по этим полям оставляет желать лучшего. Таксономические и библиографические аннотации также присутствуют не во всех базах или не для всех записей. В тех базах, где есть спектры ЯМР, ЯМР-покрытие составляет от 5% до 35% структур.

Полнота покрытия существенно увеличивает полезность БД, так как даже негативный ответ на поисковый запрос является в таком случае значимой научной информацией. Полнота покрытия лимитируется невозможностью автоматизации процесса поиска статей с первичными данными. В настоящее время на полное (>80%) покрытие в рамках выбранного класса соединений претендует только бактериальная и грибная части CSDB. Покрытие остается актуальным при своевременном обновлении базы; приемлемым можно считать временной лаг между публикацией и попаданием в базу около 1-2 лет. Универсальное решение для повышения актуальности данных – это требование редакций журналов обязательно размещать описываемые структуры в базах данных перед публикацией, с предоставлением ссылки на запись. Такой подход давно реализован в геномике, но отсутствует в гликомике из-за недостаточной стандартизации языков описания структур, корни которой лежат в высокой химической вариативности углеводов.

Процесс заполнения БД данными не поддается полной автоматизации не только на уровне отбора источников данных, но и на уровне интерпретации текстов публикаций. Как следствие, все химические и биологические БД содержат ошибки (в порядке распространения): привнесенные операторами, перекочевавшие из других БД, присутствующие в публикациях изначально, возникшие из-за несовершенства архитектуры БД и программных ошибок в импортерах и автоаннотаторах. По результатам нашего направленного исследования, большинство записей в Carbbank содержит ошибки, причем более трети – две и более ошибок, наиболее частая из которых – неверная таксономическая привязка структуры. Также обнаружены значительные пробелы в полноте покрытия. Поскольку большинство современных проектов использует данные Carbbank, эти ошибки проявляются и в них. Некоторые типы ошибок можно выявить (а иногда - исправить) автоматически, и такой контроль ведется в нескольких проектах, однако для достижения действительно высокого качества данных необходим ретроспективный экспертный анализ публикаций.

Функциональность БД – это ее способность обрабатывать поисковые запросы разных типов, комбинировать их в разных логических сочетаниях, уточнять их с использованием данных других типов. Например, “найти все опубликованные за период 2001-2005 гг. структуры, содержащие такой-то фрагмент, а также связанный с моносахаридом лизин либо аланин, кроме синтетических и тех, которые найдены в гамма-протеобактериях, после чего вывести их ЯМР-спектры”. Также к функциональности относятся сопутствующие сервисы углеводной тематики (генерирование конформационных карт, предсказание спектров, поиск структурных закономерностей и т.д.). В отличие от простых в реализации схем поиска по библиографии, ключевым словам, фрагментам текстов, таксономии и пр., поиск структур, содержащих указанный фрагмент, а также поиск структур или спектров, «похожих» на указанные, – задача, требующая предварительных исследований, изощренного программирования и значительных вычислительных ресурсов. В этой связи становится значимой внутренняя архитектура БД, правильность проектирования которой критична для достижения разумной скорости обработки структурных запросов. На этапе становления гликоинформатики в 2010-х годах исследовательский коллектив GLYCOSCIENCES сформулировал “Десять заповедей построения углеводной базы данных”, объединивших опыт немецкой и российской групп. Ключевые положения этого документа включают использование таблицы связности для внутреннего представления структур, максимально возможную индексацию, минимальное количество свободнотекстовых данных (которыми, к сожалению, грешат почти все проекты) и однозначный контролируемый словарь для множества типов данных, в первую очередь - для названий остатков. Попытка вывести словарь мономеров из зоны ответственности конкретных проектов была сделана в рамках базы MonosaccharideDB. Дальнейшее совершенствование этих правил Консорциумом по гликоинформатике и консультативной группой по гликоинформатике при NCBI включало стандартизацию представления углеводов в статьях (SNFG), компьютерных ресурсах (дополнения к номенклатуре IUPAC) и курс на использование семантической паутины (модель Resource Description Framework) для получения неявно заданных знаний, не зависящих от конкретных баз. Адаптация этой модели к химии и биологии углеводов выразилась в появлении онтологий GlycoRDF (общая) и GlycoCoO (гликоконъюгаты).

Возможность правильной обработки структурной информации напрямую связана со способом записи углеводных структур. Несовершенство и несовместимость форматов этих записей долгое время являлись камнем преткновения для развития гликоинформатики. Языки записи структур, используемые для внутреннего представления данных и/или для пользовательского интерфейса, оцениваются по следующим критериям:

однозначность (строгие правила для записи каждой химически различной структуры единственным образом);
способность обрабатывать максимально возможное число реально существующих структур (полимерные, олигомерные и комбинированные углеводы, гликолипиды, гликопротеины), в том числе с неуглеводными компонентами и с поддержкой всевозможных «особых случаев» (нестандартные остатки, связи через фосфор и серу, циклические эфиры, амидные и сложноэфирные связи и т.д.);
способность работать с неполными (частично определенными) структурами как на уровне остатков, их конфигураций и позиций замещения, так и на уровне топологий и стехиометрии боковых цепей;
машиночитаемость (без необходимости сложного парсинга, как, например, в случае с языком Extended IUPAC) и человекочитаемость (необходима для контроля ошибок, неизбежно возникающих при «человеческой» работе с данными), включая понятные гликобиологам имена остатков;
совместимость с существующими форматами и атомарными моделями (наличие конвертеров, облегчающих освоение языка и переход между БД);
независимость от ресурсов, курируемых вручную, таких как словари мономеров, лигандов и т.д.

В настоящее время указанными характеристиками в наибольшей степени обладают языки CSDB Linear, GlycoCT и WURCS. Однако первый не поддерживает некоторые топологии, а два других нечеловекочитаемы. В отличие от ситуации в геномике и протеомике, общепризнанного углеводного языка до сих пор не существует, кроме крайне несовершенного IUPAC. Один из упомянутых языков может стать таким стандартом в будущем.

Сложившиеся представления о качественном продукте гликоинформатики подразумевают, что интерфейс пользователя (как и интерфейс администраторов) должен быть интуитивно понятен, хорошо документирован и бесплатно доступен научной общественности через Интернет. Понятность касается в том числе форматов ввода и вывода структур, которым пользователю не придется специально учиться. В этом аспекте чрезвычайно плодотворна реализация ввода фрагментов структур с помощью самостоятельных сервисов, в том числе специальных редакторов, имеющих программный интерфейс, позволяющий любой БД пользоваться интерфейсом других БД. Интеграция между проектами гликоинформатики подразумевает не только общий интерфейс поисковых запросов, но и возможность автоматического обмена данными. Это касается и взаимодействия с неуглеводными базами данных: библиографическими (напр., NCBI Pubmed), таксономическими (NCBI Taxonomy), генетическими (NCBI Genbank), протеомными (Uniprot) и др. Первыми проектами, разработавшими протоколы автоматического обмена данными об углеводах, были GLYCOSCIENCES и Bacterial CSDB, после чего стандартизация форматов и разработка программных web-сервисов гликомики значительно ускорились.

Особняком стоит EurocarbDB, которая была профинансирована как БД, полностью лишенная недостатков и обеспечивающая любую мыслимую функциональность, а на деле ограничилась разработкой подходов (без их реального воплощения, которое и является «узким местом» БД из-за человеческого фактора) и импортом Carbbank. На противоположном конце идеологической иерархии находится мета-репозиторий Glytoucan, который заведомо не предоставляет собственных данных, но интегрируется со множеством других проектов, импортируя их данные и являясь по сути «базой баз», обеспечивающей межпроектную работу в едином интерфейсе.

Li X., Xu Z., Hong X., Yan Zhang Y., Zou X. Databases and Bioinformatic Tools for Glycobiology and Glycoproteomics // Int. J. Mol. Sci. 2020. T. 21. № 18. ID 6727. DOI: 10.3390/ijms21186727
Abrahams J.L., Taherzadeh G., Jarvas G., Guttman A., Zhou Y., Campbell M.P. Recent advances in glycoinformatic platforms for glycomics and glycoproteomics // Curr. Opin. Struct. Biol. 2020. T. 62. С. 59-69. DOI: 10.1016/j.sbi.2019.11.009
Scherbinina S. I., Toukach P. V. Three-Dimensional Structures of Carbohydrates and Where to Find Them // Int. J. Mol. Sci. 2020. Т. 21. №20. ID 7702. DOI: 10.3390/ijms21207702
Copoiu L., Malhotra S. The current structural glycome landscape and emerging technologies // Curr. Opin. Struct. Biol. 2020. T. 62. С. 132-139. DOI: 10.1016/j.sbi.2019.12.020
Aoki-Kinoshita K. F. (Ed.) A Practical Guide to Using Glycomics Databases // Japan: Springer, 2017. DOI: 10.1007/978-4-431-56454-6
Lutteke T., Frank M. (eds.) Glycoinformatics // series: Methods in Molecular Biology, v. 1273. New York: Humana Press, 2015. DOI: 10.1007/978-1-4939-2343-4
Aoki-Kinoshita K. F. Using Databases and Web Resources for Glycomics Research // Mol. Cell. Proteomics. 2013. T. 12. № 4. С. 1036–1045. DOI: 10.1074/mcp.R112.026252

Место CSDB в гликоинформатике

В рамках проекта Carbohydrate Structure Dadatbase (CSDB) мы попытались спроектировать архитектуру БД и реализовать ее в программном продукте, который был бы лишен основных недостатков других БД гликомики, а также обеспечить поддержку и регулярное обновление данных. Ключевыми особенностями являются полнота покрытия и полностью верифицируемый контент. За 15 лет своего существования CSDB стала основным источником данных по углеводам микроорганизмов и платформой для множества сервисов углеводной тематики. Проект нацелен создание современной и всеобъемлющей базы природных углеводов, которая идеологически заменит собой Carbbank.

Коллектив CSDB проводит систематическую работу по информатизации гликомики [11,14]. Во взаимодействии с мировым сообществом гликоинформатиков сформированы критерии качества программ и сервисов в этой области, созданы стандарты и онтологии компьютерного представления и визуализации углеводных данных, разработана платформа CSDB, включающая тематические базы данных и расчетные модули. Все возможности проекта бесплатно доступны гликохимикам и гликобиологам через Интернет (http://csdb.glycoscience.ru).

Из важнейших компонентов CSDB можно выделить:

Базу данных природных углеводов бактерий, архей, грибов, растений и простейших [7]. По прокариотам и грибам база обеспечивает покрытие, близкое к полному (т.е. включает практически все опубликованные данные, что делает даже отрицательный ответ на поисковый запрос значимой научной информацией). База содержит данные о первичной структуре гликанов и гликоконъюгатов, их таксономию вплоть до штаммов, подробные библиографические аннотации, спектры ЯМР, и отчасти- биохимические, генетические, медицинские и другие аннотации.
Базу данных конформаций гликозидных мостиков в олигосахаридах и родственных структурных фрагментах [21], заполненную данными низкотемпературной молекулярной динамики с явным учетом растворителя [16]. Интерфейс базы позволяет изучать и экспортировать карты энергий и заселенностей с размерностью до 4.
Базу данных гликозилтрансфераз с полным покрытием по экспериментально подтвержденным активностям гликозилтрансфераз трех наиболее изученных представителей каждого царства [10,15,18]: бактерии E. coli, грибу S. cerevisiae, растению А. thaliana, а также A. baumannii.
Сервисные базы агликонов, гликоэпитопов [23], структурных компонентов природных углеводов (моносахаридов, полиолов, аминокислот, жирных кислот, растительных агликонов и других молекулярных строительных блоков) с подробными структурно-химическими аннотациями.
Многочисленные инструменты поиска, фильтрации [4,9], сопоставления, статистической обработки [5,20] и кластеризации структурных, таксономических, биосинтетических, конформационных, библиографических, ЯМР-спектроскопических и прочих данных по нескольким десяткам критериев.
Визуальный онлайн-редактор углеводных структур [19], позволяющий собирать сложные биомолекулы с помощью интуитивных операций в браузере. Редактор способен экспортировать результат во все современные форматы гликоинформатики, в атомарные форматы (MOL, PDB), структурные формулы, трехмерные модели, и имеет собственный оптимизатор и визуализатор геометрии [13], оптимизированный для молекулярной механики сложных углеводов.
Модуль предсказания одно- и двумерных спектров ЯМР произвольных углеводов [8] и предсказания структуры по спектрам [12] и данным других эксприментов. Предсказание спектров базируется на собственной теории [2] и использовании базы данных и обеспечивает точность 0.07 м.д. (1H) и 0.6 м.д. (13С), намного превосходящую аналоги, в том числе нейросетевые и квантовомеханические [3].
Интеграцию с другими проектами [1] глико-, хемо- и био-информатики на уровне программного интерфейса, кросс-ссылок, универсальных идентификаторов, RDF-онтологии [6], договоренностей о стандартах и форматах данных, исходных данных [22]. Используемая собственная углеводная нотация (язык CSDB Linear [17]) имеет трансляторы на другие углеводные языки и из них.
Инструменты автоматизации аннотирования оригинальных публикаций, выявления ошибок в публикациях и в базах данных, программы для повышения эффективности и снижения стоимости ретроспективного анализа публикаций коллективом CSDB.

Каждый год обновляется и дополняется контент, ищутся и устраняются ошибки (в том числе в публикациях гликобиологов), появляются новые сервисы.

Литература к разделу "Место CSDB в гликоинформатике"

Aoki-Kinoshita K. F., Bolleman J., Campbell M. P., Kawano S., Kim J. D., Lutteke T., Matsubara M., Okuda S., Ranzinger R., Sawaki H., Shikanai T., Shinmachi D., Suzuki Y., Toukach P., Yamada I., Packer N. H., Narimatsu H. Introducing glycomics data into the Semantic Web // J. Biomed. Semantics. 2013. T. 4. № 1. ID 39. DOI: 10.1186/2041-1480-4-39
Kapaev R. R., Egorova K. S., Toukach P. V. Carbohydrate structure generalization scheme for database-driven simulation of experimental observables, such as NMR chemical shifts // J. Chem. Inf. Model. 2014. T. 54. № 9. C. 2594-2611. DOI: 10.1021/ci500267u
Kapaev R. R., Toukach P. V. Improved carbohydrate structure generalization scheme for (1)H and (13)C NMR Simulations // Analyt. Chem. 2015. T. 87. № 14. C. 7006-7010. DOI: 10.1021/acs.analchem.5b01413
Toukach P. V., Egorova K. S. Bacterial, Plant, and Fungal Carbohydrate Structure Databases: daily usage // Glycoinformatics. New York: Humana Press, 2015. Гл. 5, C. 55-85. DOI: 10.1007/978-1-4939-2343-4_5
Egorova K. S., Kondakova A. N., Toukach P. V. Carbohydrate Structure Database: tools for statistical analysis of bacterial, plant and fungal glycomes // Database (Oxford). 2015. T. 2015. ID. bav073. DOI: 10.1093/database/bav073
Ranzinger R., Aoki-Kinoshita K. F., Campbell M. P., Kawano S., Lutteke T., Okuda S., Shinmachi D., Shikanai T., Sawaki H., Toukach P., Matsubara M., Yamada I., Narimatsu H. GlycoRDF: an ontology to standardize glycomics data in RDF // Bioinformatics. 2015. T. 31. № 6. C. 919-925. DOI: 10.1093/bioinformatics/btu732
Toukach P. V., Egorova K. S. Carbohydrate structure database merged from bacterial, archaeal, plant and fungal parts // Nucleic Acids Research. 2016. T. 44. № D1. C. D1229-D1236. DOI: 10.1093/nar/gkv840
Kapaev R. R., Toukach P. V. Simulation of 2D NMR spectra of carbohydrates using GODDESS software // Journal of Chemical Information and Modeling. 2016. T. 56. № 6. C. 1100-1104. DOI: 10.1021/acs.jcim.6b00083
Egorova K. S., Toukach P. V. Carbohydrate Structure Database (CSDB): examples of usage // A Practical Guide to Using Glycomics Databases. Japan: Springer, 2017. Гл. 5, C. 75-113. DOI: 10.1007/978-4-431-56454-6_5
Egorova K. S., Toukach P. V. CSDB_GT: a new curated database on glycosyltransferases // Glycobiology. 2017. T. 27. № 4. C. 285-290. DOI: 10.1093/glycob/cww137
Egorova K. S., Toukach P. V. Glycoinformatics: bridging isolated islands in the sea of data // Angewandte Chemie Intl. Ed. 2018. T. 57. № 46. C. 14986-14990. DOI: 10.1002/anie.201803576
Kapaev R. R., Toukach P. V. GRASS: semi-automated NMR-based structure elucidation of saccharides // Bioinformatics. 2018. T. 34. № 6. C. 957-963. DOI: 10.1093/bioinformatics/btx696
Chernyshov I. Y., Toukach P. V. REStLESS: automated translation of glycan sequences from residue-based notation to SMILES and atomic coordinates // Bioinformatics. 2018. T. 34. № 15. C. 2679-2681. DOI: 10.1093/bioinformatics/bty168
Тоукач Ф.В. Дисс. «Информационные технологии в структурной гликохимии и гликобиологии», докт. хим. наук. Москва: ФГБУН Институт органической химии им. Н.Д. Зелинского РАН, 2019. PDF
Egorova K. S., Knirel Y. A., Toukach P. V. Expanding CSDB_GT glycosyltransferase database with Escherichia coli // Glycobiology. 2019. T. 29. № 4. C. 285-287. DOI: 10.1093/glycob/cwz006
Stroylov V.S., Panova M.P., Toukach Ph.V. Comparison of methods for bulk automated simulation of glycosidic bond conformations // Int. J. Mol. Sci. 2020, Т. 21. №20. ID 7626. DOI: 10.3390/ijms21207626
Toukach Ph.V., Egorova K.S. New features of CSDB Linear, as compared to other carbohydrate notations // J. Chem. Inf. Model. 2020. Т. 60. № 3. С. 1276-1289. DOI: 10.1021/acs.jcim.9b00744
Egorova K. S., Smirnova N.S., Toukach P. V. CSDB_GT, a curated glycosyltransferase database with close-to-full coverage on three most studied non-animal species // Glycobiology. 2021. T. 31. № 5. C. 524-529. DOI: 10.1093/glycob/cwaa107
Bochkov A.Y., Toukach P. V. CSDB/SNFG Structure Editor: an online glycan builder with 2D and 3D structure visualization // J. Chem. Inf. Model. 2021. T. 61. № 10. C. 4940-4948. DOI: 10.1021/acs.jcim.1c00917
Toukach Ph.V., Egorova K.S. Examining the diversity of structural motifs in fungal glycome // Comput. Struct. Biotechnol. J. 2022. Т. 20. С. 5466-5476. DOI: 10.1016/j.csbj.2022.09.040
Scherbinina S.I., M. Frank M., Toukach Ph.V. Carbohydrate Structure Database (CSDB) oligosaccharide conformation tool // Glycobiology 2022. Т. 32. № 6. С. 460-468. DOI: 10.1093/glycob/cwac011
Toukach Ph.V., Egorova K.S. Source files of the Carbohydrate Structure Database: the way to sophisticated analysis of natural glycans // Sci. Data 2022. Т. 9. ID. 131. DOI: 10.1038/s41597-022-01186-9
Toukach Ph.V. Supplementing the Carbohydrate Structure Database with glycoepitopes // Glycobiology 2023. Т. 0. № 0. С. 0-0. DOI: 10.1093/glycob/cwad043

Слайды

Дом : Наука

Наука : CSDB

Дом : Преподавание

Последнее обновление: 2023 сентябрь 1 Домой