б — представление окружения гена в виде сети. Закрашенные окружности показывают гены, которые принадлежат к окружению, автоматически вычлененному с использованием алгоритма, описанного в Rogozin et al., 2002; показана только часть окружения. Незакрашенная окружность соответствует гену, который принадлежит окружению, но не был включен в него автоматической процедурой. Стрелки показывают связь между генами в оперонах (жирные стрелки соответствуют связям внутри окружения, а пунктирные стрелки — внешним связям). Толщина стрелок примерно пропорциональна числу геномов, в которых представлена данная пара генов.
Большинство оперонов находится не в сложном окружении, включающем разнообразные связи, а представляет собой простую последовательность от двух до четырех генов, порядок которых может различаться. Идентичные или похожие в смысле организации генов опероны часто обнаруживаются в сильно различающихся организмах и в различных функциональных системах. Примечательны в данном случае многочисленные опероны транспорта метаболитов, которые состоят из расположенных в одинаковом порядке генов, кодирующих трансмембранные пермеазы, АТФазы и периплазматические субъединицы так называемых ABC-транспортеров (три субъединицы обозначаются соответственно A, B и C). Присутствие таких общих оперонов в разнообразных бактериях и археях было интерпретировано в рамках гипотезы эгоистичного оперона (Lawrence, 1999), которая постулирует, что оперон так хорошо сохраняется не из-за функциональной важности совместной регуляции входящих в него генов, а из-за «эгоистичности» этой компактной генетической единицы, которая склонна к горизонтальному распространению среди прокариот (ниже в этой главе мы еще вернемся к данной концепции при обсуждении горизонтального переноса генов).
Систематическое сравнение расположения ортологичных генов в архейных и бактериальных геномах выявило относительно небольшую долю сохраняющихся (предсказанных) оперонов и гораздо большую распространенность уникальных директонов (последовательностей генов, считываемых в одинаковом направлении и разделенных короткими межгенными участками; Wolf et al., 2001). Как было показано, возможно несколько неожиданно, директоны довольно точно предсказывают опероны: большинство директонов в действительности, по-видимому, являются оперонами (Salgado et al., 2000). Таким образом, архейные и бактериальные геномы сформированы на оперонных принципах с небольшим числом высококонсервативных оперонов и намного более многочисленными редкими и уникальными оперонами. С учетом этого обстоятельства модель консервации оперонов, по крайней мере качественно, напоминает распределение кластеров ортологичных генов, с его трехкомпонентной структурой (см. выше): редкие гены и редкие опероны гораздо более многочисленны, чем повсеместно распространенные гены и опероны.
Степень «оперонизации» генома у бактерий и архей широко варьирует: некоторые геномы, например как у гипертермофильной бактерии Thermotoga maritima, почти полностью состоят из (предсказанных) оперонов, в то время как другие, как у большинства цианобактерий, по-видимому, содержат очень немного оперонов. Остается неясным, что определяет распространенность оперонов в организме, хотя высказывались предположения, что степень «оперонизации» зависит от баланса между интенсивностью рекомбинации и горизонтального потока генов, а также факторов отбора, препятствующих разрушению оперонов.
Бактерии и археи обладают сложной и элегантной системой регуляции экспрессии генов. Сравнительная геномика драматически изменила существующие взгляды на принципы организации, распределение в природе и эволюцию этих регуляторных механизмов. Концепция оперона Жакоба и Моно, представленная в предыдущем разделе как основной принцип локальной архитектуры бактериальных и архейных геномов, также является концепцией регуляции экспрессии генов и передачи сигналов у прокариот. В модели Жакоба—Моно регулятор (репрессор лактозы в их оригинальной работе) является сенсором внеклеточных и внутриклеточных сигналов (в данном случае концентрации лактозы), что влияет на структуру белка-регулятора и, опосредованно, на экспрессию оперона (в случае лактозного оперона репрессор, связывая лактозу, отсоединяется от регуляторной части оперона, делая тем самым возможной транскрипцию). В течение полувека, прошедших с момента фундаментального открытия Жакоба—Моно, было обнаружено множество вариаций этой темы, включая регуляторы, которые симметрично влияют на транскрипцию разных расположенных по соседству генов, и глобальные регуляторы, которые контролируют экспрессию многочисленных разрозненных генов и оперонов, в противоположность репрессору простого оперона в модели Жакоба—Моно. Наиболее заметными глобальными регуляторами являются белки — подавители катаболизма (CRP) и регулятор ответа на стресс (SOS) LexA. С учетом открытия этих и других глобальных регуляторов концепция оперона была усовершенствована понятием регулона — набора генов, экспрессия которых регулируется одним и тем же белком-регулятором. Сравнительный геномный анализ регулонов выявил их чрезвычайную эволюционную пластичность с существенными различиями между регулонами даже у близкородственных организмов (Lozada-Chavez et al., 2006). Глобальные регуляторы транскрипции, такие как LexA, широко распространены и высококонсервативны в различных бактериях, но состав генов в регулоне LexA является очень вариативным. Пластичность регулонов, наряду с изменчивостью архитектуры генома (см. выше), хорошо согласуется с идеей, что регуляция экспрессии генов и архитектура генома в эволюции архей и бактерий тесно взаимосвязаны. В резком контрасте с изменчивостью и пластичностью регулонов, регуляторы транскрипции у бактерий и архей демонстрируют примечательное единство архитектуры и структуры. Как правило, эти регуляторы содержат домен, связывающий небольшие молекулы-сенсоры и ДНК-связывающий домен. Подавляющее большинство ДНК-связывающих доменов являются вариациями одной и той же структурной темы, спираль — поворот — спираль. Более специфические, но тоже распространенные домены связывания с ДНК включают мотивы лента — спираль — спираль и цинковая лента (Aravind et al., 2005; Aravind and Koonin, 1999).
Более сложная схема передачи сигналов и регуляции экспрессии генов, которая процессирует сигналы, приходящие из окружающей среды, основана на так называемых двухкомпонентных системах (Casino et al., 2010). Двухкомпонентные системы состоят из мембранных гистидин-киназ и растворимых регуляторов ответа, между которыми сигнал передается путем переноса фосфата. Примечательно, что классические регуляторы транскрипции и гистидин-киназы содержат много общих сенсорных доменов. Это родство указывает на то, что регуляторы транскрипции (однокомпонентные системы) и двухкомпонентные системы образуют единую, интегрированную структуру передачи сигналов и регуляции экспрессии. Однокомпонентные системы, которые распространены практически повсеместно и, как правило, численно доминируют у бактерий и архей, предположительно являются наиболее древними устройствами передачи сигналов, в то время как двухкомпонентные системы, вероятно, являются произошедшей от них более сложной формой передачи сигнала, которая эволюционировала как механизм реагирования на стимулы, приходящие из окружающей среды (Ulrich et al., 2005).
Сравнительная геномика бактерий и архей внесла решающий вклад в открытие новых, до того неизвестных, но в действительности весьма распространенных систем передачи сигналов. В течение многих лет было известно, что широко распространенная форма глобальной регуляции у бактерий использует в качестве посредника цАМФ (циклический АМФ), при участии различных аденилатциклаз (яркий пример неортологичной замены генов), многочисленных белков, содержащих сенсоры цАМФ, такие как GAF-домен, a также белки катаболитной репрессии (CRP и FNR) и другие регуляторы транскрипции, которые тоже содержат цАМФ-связывающие домены. Сравнительный анализ выявил многочисленные неклассифицированные белки, содержащие гомологичные сенсорные домены, которые типичны для цАМФ-зависимых регуляторов и двухкомпонентных систем, объединенные с одним или двумя новыми доменами, GGDEF и EAL (обозначенными так по соответствующим мотивам консервативных последовательностей аминокислот). Геномный контекст этих доменов и наблюдение, что домен GGDEF является отдаленным гомологом одного из семейств аденилатциклаз, привели к гипотезе, что эти белки являются компонентами новой системы (или систем) передачи сигналов. Впоследствии эти предсказанные системы были открыты после того, как было показано, что домен GGDEF обладает активностью ди-ГМФ-циклазы, в то время как EAL является ди-ГМФ-фосфодиэстеразой. Зависимая от ц-ди-ГМФ передача сигнала, существование которой даже не предполагалось в догеномную эру, начинает рассматриваться как главная регуляторная система бактерий и архей (Seshasayee et al., 2010).
Другая интересная тема дискуссий — широкое представительство у прокариот различных модулей сложных систем передачи сигналов, которые, как считалось ранее, характерны только для эукариот. В частности, сравнительный геномный анализ убедительно показал, что белковые серин-треонин-киназы и соответствующие фосфатазы широко распространены и диверсифицированы среди архей и бактерий и являются важным компонентом многогранной системы передачи сигналов у прокариот. Анализ большего количества бактериальных геномов неожиданно выявил гомологи белков, которые, как считалось ранее, имеются только у эукариот, где они вовлечены в известные пути передачи сигналов, такие как программируемая клеточная смерть (ПКС), или апоптоз. Эти белки включают протеазы из суперсемейства каспаз, семейство апоптозных АТФаз и семейство ГТФаз NACHT; все они вовлечены в различные формы ПКС растений и животных (Koonin and Aravind, 2002; Leipe et al., 2004). Как правило, эти белки обладают сложной мультидоменной модульной архитектурой, для которой характерно соединение каталитических доменов с разнообразными доменами, обес