![]() ![]() ![]() |
|
Гликомика - активно развивающаяся область знания, особенно в 21-м веке, что связано с ее возрастающим значением в биохимических и иммунологических исследованиях. Однако использование информационных технологий в гликомике все еще находится в процессе становления: не выработаны единые стандарты представления данных, не хватает компьютерных инструментов анализа, моделирования и верификации, существующие базы данных неполны и содержат множество контентных ошибок.
Представленный проект - база данных бактериальных, растительных и грибных углеводов (Carbohydrate Structure Database, CSDB) – это непрерывно обновляемый инструмент доступа к опубликованной информации по природным углеводам с установленной первичной структурой. Эта инициатива направлена на привнесение в гликомику уровня информационной обеспеченности, сравнимого с существующим в геномике и протеомике. В настоящее время CSDB - единственный в мире свободно доступный ресурс, объединяющий первичные данные по углеводам из указанных таксономических доменов вплоть до 2019 года.
Ключевые отличительные особенности CSDB – это стремление к полноте покрытия и продуктивная верификация данных. Базы данных CSDB содержат структурную, таксономическую, библиографическую, ЯМР-спектроскопическую и прочую информацию приблизительно для 21 тыс. углеводов и гликоконьюгатов (включая гликолипиды и гликопротеины), опубликованных в 8 тыс. статей и ассоциированных с 10 тыс. организмов. Это соответствует 90%-му покрытию по бактериям и археям (до 2019 года), покрытию по грибам до 2012 года и по растениям - до 1997-го года. Покрытие по прокариотическим углеводам практически является полным, что делает даже отрицательный ответ на поисковый запрос значимой научной информацией. Ежегодный прирост данных составляет ~1000 записей.
Данные, содержащиеся в CSDB, попадают в нее из реферируемой литературы и других бах данных (включая Carbbank), всесторонне проверяются и корректируются, что делает CSDB одной из немногих первичных баз гликоинформатики с полностью модерируемым контентом. Сравнительный анализ качества данных свободно доступных углеводных баз данных позволяет констатировать выдающиеся показатели CSDB (менее 10% ошибочных структур). Кроме структурной информации и библиографии, база данных содержит рефераты публикаций, таксономические аннотации, методы установления структуры, отнесения спектров ЯМР 1H и 13C, а в ряде записей - медицинские, биохимические, генетические, конформационные и другие данные.
Интерфейс CSDB реализован в виде web-сайта, позволяющего пользователю, не обладающему специальными знаниями, осуществлять любые запросы к базе данных с помощью визуальных операций. Поиск данных возможен по составу, по фрагментам структуры, по спектрам ЯМР, и по индексированным полям: библиографическим данным, природному происхождению, ключевым словам, тривиальным названиям. Интерфейс также включает защищенную административную часть и программные средства для автоматического обмена данными с другими проектами гликомики (GlyTouCan, NCBI Taxonomy, NCBI PubMed, Glycosciences), универсальные инструменты импорта, экспорта и конвертирования данных.
На платформе CSDB реализованы дополнительные сервисы:
База данных CSDB доступна для свободного использования и модерируемого пополнения по адресу http://csdb.glycoscience.ru/.
Разработка CSBD началась в рамках партнерского проекта Международного Научно-Технологического Центра при поддержке "Программы по Уменьшению Угрозы" министерства обороны США. Далее финансирование осуществлялось со стороны Российского Фонда Фундаментальных Исследований, Совета по грантам Президента РФ, Немецкого Центра Исследования Рака и Российского Научного Фонда. Моя роль в проекте состояла в разработке архитектуры и идеологии базы данных, общем проектировании базы, программного движка и форматов данных, разработке языка кодирования структур, программировании поисковых и дополнительных сервисов, верификации данных, web-дизайне, координации процессов наполнения БД и разработке стандартов взаимодействий с другими БД, создании надстроек и общем менеджменте проекта. В рамках работ над проектом были сформулированы и протестированы многие современные правила гликоинформатики, в том числе разработан полный, однозначный, но в то же время человеко-читаемый язык кодирования структурной информации, превосходящий по возможностям существующие аналоги.
Школьникам и студентам: Приглашение к сотрудничеству
Постер "Merged CSDB", 2015 (18th European Carbohydrate Symposium) (JPG, 566Kb)
Постер "Bacterial, plant and fungal CSDB", 2014 (6th Baltic Meeting on Bacterial Carbohydrates) (JPG, 637Kb)
Постер "Bacterial CSDB", 2009 (4th Baltic Meeting on Bacterial Carbohydrates) (JPG, 876Kb)
Углеводные базы данных: проблемы и решения (лекция)
K.S. Egorova, Yu.A. Knirel, Ph.V. Toukach
"Expanding CSDB_GT glycosyltransferase database with Escherichia coli"
(Glycobiology, 2019, v. 29(4), pp. 285-287)
I.Yu. Chernyshov, Ph.V. Toukach
"REStLESS: automated translation of glycan sequences from residue-based notation to SMILES and atomic coordinates"
(Bioinformatics, 2018, v. 34(15), pp. 2679-2681)
K.S. Egorova, Ph.V. Toukach
"Glycoinformatics: bridging isolated islands in the sea of data"
(Angewandte Chemie International Edition, 2018, v. 57, pp. 14986-14990)
R.R. Kapaev, Ph.V. Toukach
"GRASS: semi-automated NMR-based structure elucidation of saccharides"
(Bioinformatics, 2018, т. 34(6), стр. 957-963)
Ph. Toukach, K. Egorova
"Carbohydrate Structure Database (CSDB): examples of usage"
(глава в "A Practical Guide to Using Glycomics Databases", ред.: K.F. Aoki-Kinoshita, Springer Japan, 2017, гл.5, стр. 75-113, ISBN 978-4-431-56452-2)
K.S Egorova, Ph.V. Toukach
"CSDB_GT : a new curated database on glycosyltransferases"
(Glycobiology, 2017, т.27(4), стр.285-290)
Ph.V. Toukach, K.S Egorova
"Carbohydrate Structure Database merged from bacterial, archaeal, plant and fungal parts"
(Nucleic Acid Research Database Issue, 2016, т. 44(D1), стр. D1229-D1236)
K.S Egorova, A.N. Kondakova, Ph.V. Toukach
"Carbohydrate Structure Database: tools for statistical analysis of bacterial, plant and fungal glycomes"
(Database, 2015, ID bav073)
Ph. Toukach, K. Egorova
"Bacterial, Plant, and Fungal Carbohydrate Structure Databases: daily usage"
(глава в "Glycoinformatics", ред.: T. Lütteke, M. Frank, серия: Methods in Molecular Biology, т. 1273. Springer New York, 2015, гл. 5, стр. 55-85, ISBN 978-1-4939-2342-7)
R.R. Kapaev, Ph.V. Toukach
"Improved carbohydrate structure generalization scheme for 1H and 13C NMR simulations"
(Analytical Chemistry, 2015, т. 87(14), стр. 7006-7010)
R. Ranzinger, K.F. Aoki-Kinoshita, M.P. Campbell, S. Kawano, T. Lütteke, S. Okuda, D. Shinmachi, T. Shikanai, H.Sawaki, Ph.V. Toukach, M. Matsubara, I. Yamada, H. Narimatsu
"GlycoRDF: An ontology to standardize Glycomics data in RDF"
(Bioinformatics, 2015, т. 31(6), стр. 919-925)
R.R. Kapaev, K.S. Egorova, Ph.V. Toukach
"Carbohydrate structure generalization scheme for database-driven simulation of experimental observables, such as NMR chemical shifts"
(Journal of Chemical Information and modeling, 2014, т. 54, стр. 2594-2611)
Ph. Toukach, K. Egorova
"Bacterial, Plant, and Fungal Carbohydrate Structure Database (CSDB)"
(глава в "Glycoscience: Biology and Medicine", ред.: T. Endo, P.H. Seeberger, G.W. Hart, C-H. Wong, N. Taniguchi, Springer Japan, 2014, гл. 29, стр. 241-250, ISBN 978-4-431-54840-9)
K.S. Egorova, Ph.V. Toukach
"Expansion of coverage of Carbohydrate Structure Database (CSDB)"
(Carbohydrate Research, 2014, т.389, стр.112–114)
K.F. Aoki-Kinoshita, J. Bolleman, M.P. Campbell, S. Kawano, J. Kim, T. Lütteke, M. Matsubara, S. Okuda, R. Ranzinger, H. Sawaki, T. Shikanai, D. Shinmachi, Y. Suzuki, Ph.V. Toukach, I. Yamada, N.H. Packer, H. Narimatsu
"Introducing glycomics data into the Semantic Web"
(Journal of Biomedical Semantics, 2013, т.4, id.39)
K.S. Egorova, Ph.V. Toukach
"Critical analysis of CCSD data quality"
(Journal of Chemical Information and modeling, 2012, т.52(11), стр.2812-2814)
Ph.V. Toukach
"Bacterial Carbohydrate Structure Database 3: Principles and Realization"
(Journal of Chemical Information and modeling, 2011, т.51(1), стр.159-170)
S. Herget, Ph.V. Toukach, R. Ranzinger, W.E. Hull, Y. Knirel, C.-W. von der Lieth
"Statistical analysis of the Bacterial Carbohydrate Structure Data Base (BCSDB): Characteristics and diversity of bacterial carbohydrates in comparison with mammalian glycans"
(BMC Structural Biology, 2008, т.8, id.35)
Ph. Toukach, H. Joshi, R. Ranzinger, Yu. Knirel, C.-W. von der Lieth
"Sharing of worldwide distributed carbohydrate-related digital resources: online connection of the Bacterial Carbohydrate Structure DataBase and GLYCOSCIENCES.de"
(Nucleic Acid Research - Database Issue, 2007, т.35, стр. D280-D286)
![]() |
![]() |