Merged CSDB Bacterial CSDB Plant and Fungal CSDB

 
База данных по структурам природных углеводов
(CSDB)

Гликомика - активно развивающаяся область знания, особенно в 21-м веке, что связано с ее возрастающим значением в биохимических и иммунологических исследованиях. Однако использование информационных технологий в гликомике все еще находится в процессе становления: не выработаны единые стандарты представления данных, не хватает компьютерных инструментов анализа, моделирования и верификации, существующие базы данных неполны и содержат множество контентных ошибок.

Представленный проект - база данных бактериальных, растительных и грибных углеводных структур (Carbohydrate Structure Database, CSDB) – это непрерывно обновляемый инструмент доступа к опубликованной информации по природным углеводам с установленной первичной структурой. Эта инициатива направлена на привнесение в гликомику уровня информационной обеспеченности, сравнимого с имеющимся в геномике и протеомике. В настоящее время CSDB - единственный в мире свободно доступный ресурс, объединяющий первичные данные по углеводам из указанных таксономических доменов вплоть до 2015 года.

Ключевые отличительные особенности CSDB – это стремление к полноте покрытия и продуктивная верификация данных. Базы данных CSDB содержат структурную, таксономическую, библиографическую, ЯМР-спектроскопическую и прочую информацию приблизительно для 19 тыс. углеводов и гликоконьюгатов (включая гликолипиды и гликопротеины), опубликованных в 7 тыс. статей и ассоциированных с 9 тыс. организмов. Это соответствует 90%-му покрытию по бактериям и археям и 30%-ному покрытию по растениям и грибам. Покрытие по прокариотическим углеводам практически является полным, что делает даже отрицательный ответ на поисковый запрос значимой научной информацией. Ежегодный прирост данных составляет ~600 записей.

Данные, содержащиеся в CSDB, попадают в нее из реферируемой литературы и других бах данных (включая Carbbank), всесторонне проверяются и корректируются, что делает CSDB единственным проектом гликоинформатики с полностью модерируемым контентом. Сравнительный анализ качества данных свободно доступных углеводных баз данных позволяет констатировать выдающиеся показатели CSDB (менее 10% ошибочных структур). Кроме структурной информации и библиографии, база данных содержит рефераты публикаций, таксономические аннотации, методы установления структуры, отнесения спектров ЯМР 1H и 13C, а в ряде записей - медицинские, биохимические, генетические, конформационные и другие данные.

Интерфейс CSDB реализован в виде web-сайта, позволяющего пользователю, не обладающему специальными знаниями, осуществлять любые запросы к базе данных с помощью визуальных операций. Поиск данных возможен по составу, по фрагментам структуры, по спектрам ЯМР, и по индексированным полям: библиографическим данным, природному происхождению, ключевым словам, тривиальным названиям. Интерфейс также включает защищенную административную часть и программные средства для автоматического обмена данными с другими проектами гликомики (GlycomeDB, NCBI Taxonomy, NCBI PubMed, Glycosciences, универсальные инструменты импорта, экспорта и конвертирования данных).

На платформе CSDB реализованы дополнительные сервисы:

База данных CSDB доступна для свободного использования и модерируемого пополнения по адресу http://csdb.glycoscience.ru/.

Разработка CSBD началась в рамках партнерского проекта Международного Научно-Технологического Центра при поддержке "Программы по Уменьшению Угрозы" министерства обороны США. Далее финансирование осуществлялось со стороны Российского Фонда Фундаментальных Исследований, Совета по грантам Президента РФ и Немецкого Центра Исследования Рака. Моя роль в проекте состояла в разработке архитектуры и идеологии базы данных, общем проектировании базы, программного движка и форматов данных, разработке языка кодирования структур, программировании поисковых и дополнительных сервисов, верификации данных, web-дизайне, координации процессов наполнения БД и разработке стандартов взаимодействий с другими БД. В рамках работ над проектом были сформулированы и протестированы многие современные правила гликоинформатики, в том числе разработан полный, однозначный, но в то же время человеко-читаемый язык кодирования структурной информации, превосходящий по возможностям существующие аналоги.


Дополнительные материалы

Poster 2015 Poster 2014 Poster 2009

  Веб-сайт проекта CSDB

  Постер "Merged CSDB", 2015 (18th European Carbohydrate Symposium) (JPG, 566Kb)

  Постер "Bacterial, plant and fungal CSDB", 2014 (6th Baltic Meeting on Bacterial Carbohydrates) (JPG, 637Kb)

  Постер "Bacterial CSDB", 2009 (4th Baltic Meeting on Bacterial Carbohydrates) (JPG, 876Kb)

  Углеводные базы данных: проблемы и решения (лекция)


Избранные публикации:


Other papersПубликации : гликоинформатика ScienceДом : Наука
 
Последнее обновление: 2015 октябрь      Домой