Геном человека — страница 8 из 53

1973 год

С. Коэн и Г. Бойер разработали стратегию переноса генов в бактериальную клетку.

1974 год

С. Милстайн и Г. Келер создали технологию получения моноклональных антител. Ровно десять лет спустя они (вместе с Н. К. Ерне) получили за это Нобелевскую премию по физиологии и медицине.

Р. Д. Корнберг описывает структуру хроматина (нуклеосомы).

1975 год

С. Тонегава показал различное расположение генов, кодирующих вариабельную и константную часть иммуноглобулинов, в ДНК эмбриональных и миелоидных клеток, что дало основание для вывода о перегруппировках генов иммуноглобулинов при образовании клеток иммунной системы (Нобелевская премия по физиологии и медицине в 1987 г.).

Осуществлено первое клонирование кДНК.

Е. Саузерн описал метод переноса фрагментов ДНК на нитроцеллюлозные фильтры, метод получил название Саузерн-блот гибридизации.

1976 год

Открытие у животных (на примере дрозофилы) «прыгающих генов», сделанное Д. Хогнессом (США) и российскими учеными во главе с Г. П. Георгиевым и В. А. Гвоздевым.

Основана первая генно-инженерная компания (Genentech), использующая технологию рекомбинантных ДНК для производства различных ферментов и лекарственных средств.

Д. М. Бишоп и Г. Э. Вармус сообщили, что онкоген в вирусе представляет собою не истинный вирусный ген, а клеточный ген, который вирус «подхватил» когда — то давно в ходе репликации в клетках и теперь сохраняет в измененном мутациями виде. Было также показано, что его предшественник, клеточный протоонкоген, в здоровой клетке играет важнейшую роль — управляет ее ростом и делением. В 1989 г. оба этих ученых получили Нобелевскую премию по физиологии и медицине за фундаментальные исследование канцерогенных генов опухоли.

1977 год

Опубликованы быстрые методы определения (секвенирования) длинных нуклеотидных последовательностей ДНК (У. Гилберт и А. Максам; Ф. Сенгер с соавт.). Появилось реальное средство анализа структуры генов как основа для понимания их функций. В 1980 году У. Гильберт и Ф. Сенгер совместно с П. Бергом получили Нобелевскую премию по химии «за существенный вклад в установление первичной структуры ДНК; за фундаментальные исследования биохимических свойств нуклеиновых кислот, в том числе рекомбинантных ДНК».

Полностью секвенирован геном бактериофага φΧ174 (5386 п. н.).

Секвенирован первый ген человека — ген, кодирующий белок хорионный соматомаммотропин.

П. Шарп и Р. Робертс показали, что гены у аденовирусов (позднее выяснилось, что и у эукариотических организмов) имеют мозаичную экзонинтронную структуру, и открыли явление сплайсинга (Нобелевская премия по физиологии и медицине в 1993 г.).

К. Итакура с соавт. синтезируют химически ген соматостатина человека и осуществляет искусственный синтез гормона соматостатина в клетках кишечной палочки E. coli.

1978 год

Компания Genentech осуществила перенос эукариотического гена инсулина в бактериальную клетку, где на нем синтезирован белок — проинсулин.

Определена полная последовательность нуклеотидов ДНК вируса SV40 и фага fd.

1979 год

Показано, что химически трансформированные клетки содержат активированный онкоген BAS.

1980 год

Дж. Гордоном с соавт. получена первая трансгенная мышь. В про-нуклеус оплодотворенного одноклеточного эмбриона микроинъекцией введен ген тимидин-киназы вируса простого герпеса и показано, что этот ген работает во всех соматических клетках мыши. С тех пор трансгеноз стал основным подходом как для фундаментальных исследований, так и для решения практических задач сельского хозяйства и медицины.

1981 год

Определена полная нуклеотидная последовательность митохондриальной ДНК человека.

Несколько независимых исследовательских групп сообщили об открытии человеческих онкогенов.

1982 год

Определена полная нуклеотидная последовательность бактериофага λ (48502 п. н.).

Показано, что РНК может обладать каталитическими свойствами, как и белок.

1983 год

С помощью биоинформатики найдена гомология фактора роста PDGF с известным онкобелком, кодируемым онкогеном SIS.

Показано, что разные онкогены кооперируют при опухолевой трансформации клеток.

Ген болезни Хантигтона локализован на хромосоме 4 человека.

1984 год

У. Мак-Гиннис открыл гомеотические (Hox) регуляторные гены, ответственные за построение общего плана тела животных.

А. Джеффрис создает метод геномной дактилоскопии, в котором нуклеотидные последовательности ДНК используются для идентификации личности.

1985 год

Создание К. Б. Мюллисом революционизирующей технологии — полимеразной цепной реакции, ПЦР — наиболее чувствительного до сих пор метода детектирования ДНК. Эта технология получила широкое распространение (Нобелевская премия по химии за 1993 г.).

Клонирование и определение нуклеотидной последовательности ДНК, выделенной из древней египетской мумии.

1986 год

Клонирование гена RB — первого антионкогена — супрессора опухолей. Начало эпохи массированного клонирования генов опухолеобразования.

1987 год

Созданы первые дрожжевые искусственные хромосомы — YAC (Yeast Artificial Chromosomes). Они сыграют большую роль как векторы для клонирования больших фрагментов геномов.

1988 год

Создание международного проекта «Геном человека», поставившего своей целью полное секвенирование ДНК человека.

Под эгидой Комитета по науке и технике в СССР начала работу программа «Геном человека», которую возглавил Научный совет по геномной программе во главе с академиком А. А. Баевым.

Показана возможность анализа митохондриальной ДНК из очень древних образцов при исследовании мозга человека давностью 7000 лет.

Предложен метод «нокаута» генов.

1989 год

Т. Р. Чех и С. Альтман получили Нобелевскую премию по химии за открытие каталитических свойств некоторых природных РНК (рибозимов).

1990 год

Создана Международная организация по изучению генома человека (HUGO), вице-президентом которой в течение нескольких лет был российский академик А. Д. Мирзабеков.

Ф. Коллинз и Л.-Ч. Тсуи идентифицировали первый ген человека (CFTR), ответственный за наследственное заболевание (кистозный фиброз), который расположен на хромосоме 7.

В. Андерсоном осуществлено первое успешное применение генной терапии для лечения больной с наследственным иммунодефицитом.

Определена полная последовательность генома вируса осповакцины (192 т. п. н.).

1992 год

Э. Кребсу и Э. Фишеру присуждена Нобелевская премия по физиологии и медицине за открытие обратимого фосфорилирования белков как важного регулирующего механизма клеточного метаболизма.

1995 год

Определена полная последовательность генома первого самостоятельно существующего организма — бактерии Haemophilus influenzae (1 830 137 п. н.). Становление геномики как самостоятельного раздела генетики.

1997 год

Определена полная последовательность нуклеотидов геномов кишечной палочки E. coli и дрожжей Saccharomyces cerevisiae.

Нобелевская премия по физиологии и медицине присуждена американцу С. Прузинеру за вклад в изучение болезнетворного агента белковой природы, приона, вызывающего губчатую энцефалопатию, или «коровье бешенство» у крупного рогатого скота.

Я. Вильмут с сотрудниками впервые клонировали млекопитающее — овцу Долли.

1998 год

Определена полная нуклеотидная последовательность первого высшего организма — нематоды Caenorhabditis elegans.

У нематоды C. elegans обнаружен механизм РНК-интерференции.

1999 год

Полностью секвенирована ДНК хромосомы 22 человека.

Роберт Фурчготт, Луис Игнарро и Ферид Мурад получили Нобелевскую премию за открытие роли оксида азота в качестве сигнальной молекулы (то есть, регулятора и переносчика сигналов) сердечно-сосудистой системы.

Клонировали мышь и корову.

2000 год

Вчерне завершено полное секвенирование генома человека и дрозофилы.

Нобелевская премия по физиологии и медицине присуждена А. Карлссону, П. Грингарду и Э. Кенделу за открытие, касающееся «передачи сигналов в нервной системе».

Клонировали свинью.

2001 год

Нобелевская премия по физиологии и медицине присуждена Л. Хартвеллу, Т. Ханту и П. Нерсу за открытие ключевых регуляторов клеточного цикла.

2002 год

Полностью секвенирован геном мыши.

Нобелевская премия по физиологии и медицине присуждена С. Бреннеру, Р. Хорвитцу и Дж. Салстону за их открытия в области генетического регулирования развития органов и запрограммированной клеточной смерти.

ГЕНЫ — ОСНОВНОЙ ТЕКСТ ГЕНОМА

Гены — это атомы наследственности.

С. Бензер

Орлы летают одиноко, бараны пасутся стадами.

Ф. Сидни

Необходимо отметить, что термин «ген» многие, даже неспециалисты, воспринимают легко без всякого специального пояснения. Слишком много и давно об этом говорят и довольно часто используют этот термин в разных ситуациях. И всем вроде бы все ясно: ген — это участок ДНК, который кодирует определенный белок. Согласно центральной догме молекулярной биологии, информация, записанная в ДНК с помощью четырехбуквенного нуклеотидного алфавита, переводится простым механическим способом на другой, аминокислотный, алфавит из 20 букв, которым записывается строение белковых молекул. «Один ген — один белок» — вот каким был многие годы основополагающий тезис молекулярных генетиков. Для того, чтобы ген правильно работал, необходимы специальные знаки, обозначающие начало и конец инструкции для синтеза сначала мРНК, а потом белка. Для того, чтобы началась считывание (транскрипция) гена, в первую очередь необходим структурный элемент, получивший название промотора (старт-сигнал транскрипции). Для окончания транскрипции существует другой специальный сигнал. Обязательными элементами гена являются также сигналы, определяющие начало и конец трансляции мРНК на рибосомах. Все эти старт- и стоп-сигналы записаны в ДНК с помощью того же самого четырехбуквенного алфавита, что и информация для построения молекулы белка. Между двумя такими знаками препинания записаны инструкции для синтеза белка. В таком упрощенном виде ген определяют как последовательность нуклеотидов, расположенных между старт-сигналом и стоп-сигналом и кодирующих одну белковую цепь (полипептид). Однако на самом деле все обстоит намного сложнее. Кроме генов, кодирующих белки, существуют гены, кодирующие РНК, которые выполняют в клетке только структурную роль и не транслируются. Более того, в последние годы было обнаружено большое число ранее неизвестных РНК, которые выполняют в клетке специальные регуляторные функции. Обо всем этом мы поговорим далее. Современное понимание того, что же из себя представляет ген, складывалось на протяжении всех этих долгих лет, наполняясь постепенно конкретным и обобщенным содержанием, преодолевая сомнения, заблуждения и неожиданные повороты. В результате на сегодняшний день трудно дать однозначное определение термину «ген», хотя вроде бы этот вопрос в общем виде был решен Менделем почти 140 лет назад.

Конечно же, в секвенированном ДНКовом тексте генома человека в первую очередь внимание ученых было обращено на участки, кодирующие белки, то есть на белок-кодирующие гены. Отметим, что первый ген человека — ген, кодирующий белок со сложным названием хорионный соматомаммотропин, — был секвенирован еще в 1977 году. А что же выяснилось в результате секвенирования всего генома человека? Оказалось, что в геноме человека нуклеотидные последовательности, кодирующие белки (экзоны), занимают лишь 1,1–1,4 % от длины всех молекул ДНК. Но именно эти мизерные проценты ДНКового текста человека и стали объектом пристального внимания. Для сравнения отметим, что у червя C. elegans доля таких последовательностей в геноме составляет 27 %, у мухи дрозофилы — 20 %, у дрожжей — 70 %, а у бактерий — 86 %. То есть, просматривается закономерность: по мере усложнения организмов доля кодирующих белки участков ДНК в их геномах резко падает.

Генам при их открытии, как людям при рождении, сразу же присваивают различные имена. Без этого невозможно было бы разобраться, о чем идет речь и что изучают разные ученые в каждом конкретном случае. Правда, путаница в этом вопросе пока еще существует, особенно если ген одновременно открывают в разных лабораториях и при этом называют по-разному. Известно, что в лингвистике существует целая наука об именах людей — ономастика. Эта наука давно уже отметила влияние разных факторов и причин на формирование имен, связь с историей, географией и многими другими науками, а также процессами, протекающими в обществе. Так, в постреволюционные годы появились имена Вилен (В. И. Ленин), Даздраперма (Да здравствует первое мая), при Б. Ельцине появились Борели, а при В. Путине уже официально зарегистрированы такие имена, как Путилла, Владпут и даже Затерсор (замочим террористов в сортире).

Конечно, и на имена, присваиваемые генам, также влияют разные обстоятельства. Но вообще-то этот процесс довольно стихийный. Нередко наименование гена связывают с выполняемой им функцией (например, дистрофин — ген, мутации в котором ответственны за дистрофию мышц). В других случаях используют особенности структуры гена (например, присутствие специфической последовательности в гене, называемой homeo box, автоматически приводит к имени Hox). Иногда авторы напрягают свою фантазию, и тогда появляются такие экзотические имена, как харакири (ген-самоубийца), икарус, vang (по имени художника ван Гога) или indy (первые буквы от слов I'm not dead yet — я еще не умер — название для гена, который влияет на продолжительность жизни). Ген SHH назван в честь популярной видеоигры Соника Хеджхога, (англ. hedgehog — ежик). Некоторые гены называются именами богов (например, гефестин — от греческого бога огня и кузнечного дела Гефеста). На практике генетики используют сокращенные обозначения генов, состоящие обычно из 3–5 латинских букв. Поскольку функции многих генов еще не известны, а удается только определить, что какая-то конкретная область генома человека способна теоретически кодировать белок, то часто пока еще перед названиями генов появляется слово «гипотетический».

Анализ генома человека позволил на конец 2002 года обнаружить порядка 30 000–40 000 генов, кодирующих белки. Эти гены сильно отличаются друг от друга по размерам. Подсчитано, что средняя длина гена у человека составляет около 27 тыс. п. н. Такой усредненный ген содержит 9 экзонов (средний размер каждого около 150 п. н.) и 8 интронов (средний размер каждого чуть меньше 3400 п.н.). Но это лишь средние значения. Самые короткие гены содержат всего два десятка букв-нуклеотидов, например, гены эндорфинов — полипептидов, вызывающих ощущение удовольствия. В то же время самый длинный ген, кодирующий один из белков мышц, — миодистрофин содержит 2,4 млн. п. н.

Кроме того, гены не равномерно распределены между разными хромосомами. При средней плотности один ген на 100 т. п. н. генома их содержание в хромосоме 19 составляет около 2 на 100 т. п.н., а в хромосомах 2, 13 и Y-хромосоме — от 0,15 до 0,7. Если сравнить плотность генов с плотностью расселения людей, то Y-хромосома напоминает нашу Сибирь, а хромосома 19 — Европейскую часть России. Для сравнения: в геноме бактерий содержится свыше 1000 генов на 1,0 млн. п. н., у дрожжей около 450 генов на 1,0 млн. п. н., а у червя C. elegans — около 200. Следовательно, плотность расположения генов на единицу длины генома заметно падает по мере эволюционного усложнения организмов.

«Жи, ши — пиши через и»

После секвенирования генома человека и ряда других организмов был проведен детальный компьютерный анализ нуклеотидных последовательностей. Подсчитано, например, сколько в ДНК может идти подряд букв А, или как часто Г встречается после Ц. И тут выяснилось, что в генах эти сочетания подчиняются определенным правилам, тогда как в промежутках между генами, там, где ничего существенного в ДНК не записано, частота сочетаний разных нуклеотидов близка к случайной. Где много генов, там много букв Г и Ц, а где генов нет, там много букв А и Т. Здесь опять можно провести параллель с обычным текстом. По правилам грамматики русского языка, которые мы учили в школе, «жи, ши — пиши через и», в словах после букв ж и ш буква ы не встречается. Нечто подобное характерно и для генетических текстов — в кодирующих участках некоторые сочетания нуклеотидов практически не встречаются, а распределение других сочетаний сильно отличается от случайного. Это был один из первых, но далеко не единственный результат анализа ДНК.

Знаки препинания (Генетическая пунктуация)

Как в письменном языке пунктуация (точки, запятые, тире и т. д.) используется для членения и графической организации текста, так и в ДНКовом тексте существуют всевозможные знаки-сигналы, обозначающие границы отдельных функциональных элементов. Без таких сигналов генетическая информация не может быть правильно считана с носителя. Классический пример из лингвистики — предложение «Убить нельзя помиловать». Если не поставить запятую, то остается непонятным, то ли убить, то ли помиловать. Так и в гене. Знаки препинания, в отличие от генетического кода, не так универсальны в живом мире. Часть из них у низших организмов (прокариот) существенно отличаются по сравнению с высшими (эукариотами), включая человека.

Вот как выглядит, например, одна из страниц ДНКового текста, содержащаяся в томе (хромосоме) 11 человека (рис. 17).


Рис. 17. Страница Энциклопедии человека, на которой записана последовательность нуклеотидов ДНК человека, кодирующая белок альфа-интерферон. Ген интерферона выделен курсивом. Подчеркнут участок, кодирующий белок, состоящий из 188 аминокислот. Жирным шрифтом выделены знаки пунктуации в этом гене, обеспечивающие его правильную транскрипцию с образованием мРНК и последующую правильную трансляцию этой мРНК


Глядя на этот рисунок, даже специалисту сразу трудно что-то понять. Однако простая компьютерная программа быстро позволяет найти здесь участок, кодирующий белок интерферон. Это осуществляется в результате того, что в генах имеются специальные сигналы-ярлычки, которые можно рассматривать как знаки препинания в ДНКовом тексте. И компьютер способен их различить. Рассмотрим главные их них.

Так, в генах человека, как и у других высших организмов, имеются специальные последовательности-сигналы, которые определяют начало и конец процесса транскрипции, то есть синтеза мРНК.

Фермент, называемый РНК-полимеразой, узнает эти сигналы и осуществляет синтез «правильных» молекул мРНК (со строго запрограммированными в геноме концами). Одним из таких знаков препинания в ДНКовом тексте, отмечающим начало процесса транскрипции, служит короткая последовательность нуклеотидов: ТАТА (как пример, см. рис. 17).

Для процесса трансляции, то есть синтеза белка на мРНК, также имеются свои специальные знаки препинания. Таковыми являются отдельные тройки нуклеотидов (триплеты). На рис. 17 они выделены жирным шрифтом. Место, с которого начинается кодирование белка, — старт-сигнал — триплет АУТ. Далее следуют триплеты, которые кодируют аминокислоты в белке. А в конце текста имеется специальный стоп-сигнал (триплет УГА).

Но это еще не все. ДНК иногда претерпевает некоторые химические изменения. Известна такая химическая модификация ДНК, как метилирование, которая происходит строго по динуклеотидам-сигналам, представляющим собой пару нуклеотидов, в которой первым идет Г, а за ним Ц. Наконец, важными сигналами в генах являются участки, определяющие такой важный процесс, как сплайсинг, который происходит уже после образования РНК на гене. Об этом и пойдет речь дальше.

Гены построены из кусков

Успехи в изучении генома человека, а еще ранее — проведенный анализ отдельных генов других высших организмов, привели к ряду принципиально новых и совершенно неожиданных для генетиков результатов в отношении устройства генов, особенно тех, которые кодируют белки. Со времени появления центральной догмы молекулярной биологии думали, что непрерывная линейная последовательность нуклеотидов в ДНК с помощью триплетов нуклеотидов кодирует непрерывную последовательность нуклеотидов в мРНК, а последняя как посредник передает эту информацию на рибосомы, которые, считывая ее, осуществляют синтез линейных молекул белков. Это соответствовало ситуации, которую первоначально наблюдали при изучении генов у бактерий. Однако у высших организмов, включая человека, (и даже у некоторых низших) картина оказалась более сложной.

Когда сравнивали мРНК и соответствующий белок, то действительно обнаруживали непрерывность их нуклеотидных и аминокислотных последовательностей. То же наблюдали и при сопоставлении последовательностей аминокислот в белках и нуклеотидов в геномах вирусов. Однако с появлением возможности секвенировать протяженные участки ДНК (т. е. непосредственно генов) как у некоторых вирусов, так и у высших организмов получили совершенно неожиданные результаты. Внутри нуклеотидных последовательностей ДНК, кодирующих белок, были обнаружены какие-то иные, ничего не кодирующие участки. Чудеса, да и только! В чем же дело? Оказалось, что многие гены «расчленены» на отдельные куски. Одни из этих кусков, как и положено, кодируют белок (их назвали экзонами), а другие никакие белки кодировать не способны (их назвали интронами) и расположены между экзонами. Таким образом, в гене кодирующие и не кодирующие участки перемежаются друг с другом (рис. 18). Так устроено большинство белок-кодирующих генов. Хотя имеются и исключения. В этих случаях говорят, что ген устроен из одного экзона и интронов не содержит.


Рис. 18. Схематическое изображение экзон-интронного строения некоторых генов человека. Экзоны — прямоугольнники, интроны — линии между прямоугольниками. Темные прямоугольники — участки генов, кодирующие белок, белые прямоугольники в первом и последнем экзонах — специальные участки гена, кодирующие мРНК, но не кодирующие белок


Такое разорванное (экзон-интронное) строение оказалось характерным для подавляющего большинства (хотя и не для всех) генов человека. Вместе с тем у большинства простейших организмов интроны не обнаружены.

Размеры интронов часто значительно превышают размеры экзонов, что существенно увеличивает общую длину нуклеотидных последовательностей ДНК, образующих ген. При этом в геноме человека интроны в целом существенно длиннее, чем у других организмов.

Каким же образом разорванный ДНКовый текст реализуется в клетках в виде неразорванного РНКового, а затем белкового? Выяснилось, что первоначально при транскрипции гена синтезируется большой РНК-предшественник, копия ДНКового текста (с экзонами и интронами вместе). Далее в результате работы специфических ферментов происходит нарезание РНК-предшественника на куски. Те из них, которые ничего не кодируют (интроны), отбрасываются, а кодирующие куски (экзоны) соединяются между собой, обычно в том же порядке, как они располагались исходно в ДНК. В результате формируется зрелая молекула мРНК. Этот сложный процесс и получил название сплайсинга (рис. 19).


Рис. 19. Образование молекул мРНК на РНК-предшественнике в результате сплайсинга. Из РНК-предшественника вырезаются фрагменты, синтезированные с интронных последовательностей гена, а участки, синтезированные на экзонах, соединяются друг с другом, что в конечном итоге приводит к формированию зрелой функционально активной мРНК


В интронах содержатся особые сигналы, которые узнаются специальными ферментами, осуществляющими сплайсинг. Так, в 98 % случаев интроны начинаются с динуклеотида ГТ, а заканчиваются динуклеотидом АГ. Они-то и служат главными сигналами для правильного осуществления сплайсинга.

Во всем этом и состоит основное ноу-хау в организации генов человека и других эукариотических генов. «Лоскутное» устройство большинства генов — чрезвычайно важное эволюционное приобретение высших организмов. За счет сплайсинга в РНК может происходить соединение не только между соседними экзонными нуклеотидными последовательностями, но и между другими, отстоящими порой в гене на значительном расстоянии. Это называют альтернативным сплайсингом (рис. 20). В геноме человека альтернативный сплайсинг характерен для более трети генов. Этому можно привести следующую аналогию: из слова «администрация» за счет удаления отдельных букв и слогов можно образовать множество совершенно разных по смыслу слов: ад, министр, амнистия, астра, нация. Существование множества альтернативных вариантов сплайсинга в конечном итоге обеспечивает появление более чем одного белка при экспрессии одного единственного гена. В частности, на гене белка тропонина человека, содержащем 18 экзонов, за счет альтернативного сплайсинга может образовываться 64 различных продукта! Сейчас подсчитано, что в среднем один ген у человека способен кодировать около 3-х разных белков. Альтернативный сплайсинг зависит от множества внутриклеточных и внешних факторов, в том числе, как показано недавно, даже от вирусного воздействия на клетку.


Рис. 20. Схематическое изображение альтернативного сплайсинга. Прямоугольниками разного оттенка обозначены экзоны, черными линиями — интроны. Показаны лишь две из множества возможных мРНК, образующихся на одном гене


Экзон-интронное строение генов дало принципиально новую возможность для эволюции генов — комбинировать отдельные элементы при формировании генов. В результате этого в эволюции возникали новые гены, кодирующие разные белки за счет разного сочетания экзонов одного и того же гена. То есть из уже готовых «слов» составляются совершенно разные «предложения». И такой подход, используемый природой, оказался весьма продуктивным.

Следует отметить, что и в зрелой мРНК, которая образуется уже после удаления из первичного транскрипта интронных нуклеотидных последовательностей, также не все участки кодируют белок. Однако, в отличие от интронов, такие последовательности нуклеотидов расположены в начале и в конце молекулы (см. рис. 18). Их размеры также существенно различаются.

Так, в разных мРНК человека некодирующая область, расположенная в начале молекулы, имеет длину от 2800 до 18 нуклеотидов (в среднем 200 нуклеотидов), а та, которая расположена в конце, составляет от 8500 до 20 нуклеотидов (в среднем 1000 нуклеотидов). Эти некодирующие белок области гена очень важны для нормального функционирования мРНК, ее трансляции, стабильности и локализации в клетке. Как уже говорилось, на одном гене за счет альтернативного сплайсинга может образовываться несколько мРНК. Следует подчеркнуть, что и на одной уже сформировавшейся мРНК могут образовываться разные белки. Это происходит за счет наличия в 50 % мРНК человека не одного, а двух АУГ-кодонов, являющихся старт-сигналами для синтеза белка на мРНК. За счет этого, в разных ситуациях клетка может начать синтез белка с разных мест мРНК, в результате чего образуются разные по длине, а порой и по своим свойствам, белки. Опять же пример из лингвистики. Если читать текст не с первой, а со второй буквы, смысл зачастую совершенно меняется (сравните: удочка и дочка).

В связи со всем этим понятно, что классическая формула генетиков «один ген — один белок», предложенная лауреатами Нобелевской премии Джоржем Бидлом и Эдуардом Татумом, оказывается в реальности справедливой лишь для небольшой группы генов, а многие гены (возможно, большинство) кодируют семейства родственных, но существенно отличающихся белков, то есть нередко действует принцип «один ген — много белков». За счет этого в геноме осуществляется принцип экономии генетического материала (компактная запись) и достигается большой набор генных продуктов — белков — на относительно небольшом числе генов.

В таблице 3 приведена общая характеристика белок-кодирующих генов, выявленных в результате секвенирования генома человека.


Таблица 3. Усредненные данные о структуре белок-кодирующих генов генома человека

В реальности размеры разных генов, а также их экзонов и интронов сильно отличаются. И основной вклад в эту вариабельность вносят интроны. Уже говорилось, что максимальный по размерам ген дистрофина занимает в геноме человека 2,4 млн. п. н. Подавляющая часть занята именно интронами (их средний размер составляет несколько десятков тысяч п. н.). Наибольшую кодирующую последовательность в геноме человека имеет ген по имени титин. Его размер равен около 81000 п. н. Этот ген — чемпион и по числу интронов (178 штук!), и по длине единичного экзона (17106 п. н.).

Важно отметить, что разбивка генов на отдельные экзоны неслучайна. Индивидуальный экзон часто кодирует не просто какую-то часть белковой молекулы, а определенный фрагмент белка, выполняющий в целом белке отдельную функцию. Такой отдельный структурно-функциональный фрагмент, входящий в состав целого белка, называют доменом.

Перекрывание генных текстов

Принцип компактности записи информации в ДНК проявляется еще в одном. Важный факт, обнаруженный первоначально при анализе последовательностей генов у вирусов, заключается в том, что в одном и том же участке ДНК иногда может быть записана информация о двух совершенно разных РНК (и, соответственно, о совершенно разных белках). Такое случается и в геноме высших организмов, включая человека. Как же это осуществляется? Вспомним, что записанный в ДНК текст явно не разбит на слова (буквы — нуклеотиды — следуют в молекуле ДНК одна за другой). Но слова в этом тексте есть, просто знаки пунктуации и разрывы между словами скрыты от глаза и узнаются клеткой после перекодировки информации из ДНК в РНК. Для большей наглядности приведем широко известный пример такого текста:

НАПОЛЕОНКОСИЛТРАВУПОЛЯКИПЕЛИСОЛОВЬЯМИ.

В зависимости от разбивки этого текста на слова получается два предложения с совершенно разным значением:

НА ПОЛЕ ОН КОСИЛ ТРАВУ ПОЛЯ КИПЕЛИ

СОЛОВЬЯМИ

НАПОЛЕОН КОСИЛ ТРАВУ ПОЛЯКИ ПЕЛИ

СОЛОВЬЯМИ.

Теоретически на двух цепях ДНК с учетом того, что код триплетный, можно записать 6 разных текстов: три на одной цепи и три на другой. Это может быть достигнуто за счет сдвига точки начала считывания информации, что называют сдвигом рамки считывания (начало считывания возможно с любого из 3-х разных рядом лежащих нуклеотидов) (см. рис. 21). Такое явление получило название перекрывания генов. Впервые оно было обнаружено у вирусов. И здесь было понятно, зачем это потребовалось. Вирусные геномы обычно очень маленькие. Перекрывание генов диктовалось необходимостью как можно компактнее разместить информацию на относительно коротких молекулах ДНК. Большой геном человека теоретически позволяет обойтись без такого перекрывания. Однако и в геноме человека, хотя и относительно редко, перекрывание генов также имеется.


Рис. 21. Схематическое изображение перекрывания двух ДНКовых текстов, записанных на одном участке ДНК. Белок А образуется на мРНК, которая транслируется с одних кодонов, а белок Б образуется на мРНК, читаемой (транслируемой) со сдвигом в один нуклеотид. В результате кодоны (они разделены пробелами) совершенно разные, и, соответственно, при трансляции мРНК образуются совершенно разные белки


Каков может быть смысл в сохранении этого феномена в геноме человека? Пока еще не все ясно, но кое-какие моменты уже проясняются. Например, в ряде случаев обнаружили считывание РНК с разных цепей одного участка ДНК. Это приводит к образованию таких РНК, которые в силу комплементарности могут взаимодействовать друг с другом в клетке, образуя в результате двунитевые РНК. А в дву-нитевом виде мРНК не способна к такому важному процессу, как трансляция. Таков реальный механизм специфической регуляции (инактивации) экспрессии генов человека, число которых, по последним оценкам, составляет ~ 1600.

Не все гены кодируют белки

Прежде всего, следует отметить, что кроме генов, кодирующих белки, в геноме имеются еще гены, на которых синтезируется РНК, которые не являются мРНК (то есть, не кодируют белок), но выполняют ряд самостоятельных важных функций в клетках. В результате получается ситуация, что традиционное привычное определение гена надо расширять, включив в него гены, кодирующие белки, и гены, не кодирующие белки, но кодирующие функционально значимые РНК.

Давно уже известно, что кроме мРНК на ДНК синтезируются разнообразные вспомогательные РНК, которые сами не транслируются (т. е. они не кодируют белки), но участвуют в разных клеточных процессах. В первую очередь это РНК «домашнего хозяйства» — рибосомные РНК (рРНК), транспортные РНК (тРНК) и др., которые участвуют непосредственно в синтезе белка на мРНК. Эти РНК кодируются участками, которые также называются генами, и составляют основную массу РНК в клетках. рРНК входят в состав рибосом, являясь важным компонентом их структурной организации. У человека присутствует два основных типа рРНК размером около 1900 нуклеотидов и более 5000 нуклеотидов в малой и большой субчастицах соответственно. Еще одни некодирующие белок РНК — тРНК, которые обеспечивают аппарат трансляции, подтаскивая к рибосомам различные аминокислоты, вступающие в реакцию друг с другом. В геноме человека гены, кодирующие рРНК и тРНК, представлены многочисленными копиями. Так, в секвенированной ДНК человека обнаружено около 500 генов, кодирующих тРНК. Генов для рРНК в геноме человека выявлено около 200 копий, которые расположены на 5-ти разных хромосомах (13, 14, 15, 21 и 22).

Изучение свойств РНК привело к тому, что представление об исключительности белков в катализе биохимических реакций пришел конец. Выяснилось, что в природе имеются виды РНК, которые, подобно белкам, обладают высокоспецифической каталитической активностью.

Очень важным стало обнаружение в геноме человека множества других генов, также производящих РНК, но не способных кодировать белок. Постепенно выяснилось, что некоторые из таких не кодирующих белки РНК принимают участие в важнейших процессах, происходящих в клетке: регуляции транскрипции ДНК, сплайсинга и трансляции мРНК, модулировании функций белков и их пространственного распределения в клетке. По этой причине их назвали риборегуляторами. И примеров таких риборегуляторов уже сейчас можно привести немало. Так, установлено, что не кодирующий белок участок гена H19 имеет отношение к ряду процессов, протекающих в клетках, и, в частности, к их злокачественному перерождению. Другой РНК-кодирующий ген контролирует работу белок-кодирующего гена HFE, вовлеченного в метаболизм железа и связанного с наследственным заболеванием хемохроматозом. В последнем случае РНК-продукт кодируется тем же самым геном, который он регулирует, но его образование осуществляется на другой нити ДНК. В результате так называемый антисмысловой (комплементарный) РНК-продукт способен взаимодействовать с мРНК, образуя гибриды, неспособные транслироваться в рибосомах с образованием белка. Еще один интересный ген — ген РНК-активатора стероидного рецептора. Он обеспечивает активность стероидных рецепторов за счет образования комплекса с этим белком.

В клетках человека, как и у других организмов, выявлены короткие двунитевые РНК (микроРНК), отдельные из которых, по-видимому, могут участвовать в процессе регуляции экспрессии генов через механизм, названный РНК-интерференцией. Этот механизм впервые был обнаружен в 1998 году у низших организмов. Различные микроРНК в клетках червя C. elegans оказались в состоянии «приглушать» работу строго определенных генов путем воздействия на процесс синтеза кодируемых ими белков. Вполне вероятно, и у человека микроРНК играют подобную роль.

Таким образом, мы видим, что продукты генов, кодирующих только РНК, вмешиваются в различные клеточные процессы, используя при этом совершенно разные механизмы. Гены риборегуляторов составляют, по-видимому, заметную часть генома человека. Примерные оценки говорят о величине на порядок больше, чем доля белок-кодирующих нуклеотидных последовательностей. Сам факт существования таких генов, неспособных кодировать белок, но реально проявляющих себя в производстве функционирующих в клетках РНК, ставит большой вопрос перед исследователями генома. И, в первую очередь, что следует после этого считать собственно геном?

Ген в гене (генная матрешка)

Изредка обнаруживаются варианты, когда внутри одного гена целиком содержится другой, меньший по размерам ген. Этакая своеобразная «матрешка», построенная из генов. Такая организация генов весьма редка. Так, в хромосоме 22 имеется лишь 2 таких случая. Чаще всего белок-кодирующий ген располагается в интроне другого белок-кодирующего гена. Но встречаются и другие варианты. В качестве примера можно привести ситуацию, имеющую место для митохондриального гена одной из рибосомных РНК. Ген, кодирующий эту рРНК, обеспечивает ею рибосомы митохондрий в качестве структурного компонента (т. е. не кодирует белок). Однако вместе с тем небольшой участок, расположенный внутри этого гена, кодирует короткий белок (полипептид), получивший название гуманин (от англ. human — человек), который принимает участие в процессе программированной клеточной гибели. То есть в РНК-кодирующем гене может содержатся белок-кодирующий ген. Другой вариант — уже упоминавшийся выше ген H19. Здесь, наоборот, ген, кодирующий белок, содержит внутри своей кодирующей части другой более короткий ген, кодирующий только РНК, которая принимает участие в регуляции работы этого гена.

Генные семейства

Как у людей имеются семьи, так и у генов нередко существуют семейства. Семейством генов называют набор из двух или более генов, чьи экзоны родственны между собой, т. е. похожи (хотя и не идентичны) по нуклеотидной последовательности. В геноме человека присутствует около полутора тысяч таких семейств генов. Причем только около сотни из них специфичны для человека и других позвоночных животных, тогда как основная масса генных семейств имеется и у человека, и у червя.

Разные члены одного семейства генов возникали в эволюции из одного гена-предшественника (условно — от одного прапрапрадеда, как и в человеческой популяции). Процесс, в результате которого появлялись «копии», получил название дупликации, т. е. удвоения. Такие дупликации в некоторых случаях происходят не одноразово, а многократно. Сейчас стало ясно, что дупликации играют очень важную роль в эволюции. Подсчитано, что в геноме человека в сумме дуплицировано около 3,6 % нуклеотидных последовательностей размером в 1000 и более п. н.

Разные копии одного семейства генов могут располагаться в геноме рядом и следовать друг за другом (это называют тандемной дупликацией). Рассмотрим несколько примеров. Так, гены, кодирующие рибосомную РНК (рРНК) и белки гистоны, расположены в геноме человека в виде кластеров, построенных из одних и тех же последовательностей, следующих друг за другом (рис. 22).


Рис. 22. Строение участка генома человека, состоящего из множества генов, кодирующих рибосомные РНК. Утолщенные линии — транскрибируемые участки


Такие «гроздья» одинаковых генов обычно требуются организму для того, чтобы нарабатывать большие количества определенного продукта. Действительно, рРНК составляет по массе основную часть всей клеточной РНК, входя в состав таких важных «машин» клетки, как рибосомы. Огромная масса гистонов нужна клетке для упаковки гигантских молекул ДНК и плотной укладки их в хромосомы. Во всех таких случаях говорят о большой «дозе» гена в геноме, которая в конечном итоге и обеспечивает клетку большим количеством продукта.

Однако в большинстве других случаев возникающие в результате дупликации «копии» генов постепенно претерпевают изменения (мутации), что приводит к возникновению определенных различий между ними, хотя формальное родство при этом сохраняется. Такой процесс был назван дивергенцией, т. е. расхождением. Дивергенцию обычно выражает в процентах различий между двумя родственными последовательностями нуклеотидов в ДНК или последовательностями аминокислот в белках.

Однако даже после того, как разные «копии» генов одного семейства становятся не совсем похожими друг на друга, они чаще всего выполняют сходную функцию. Они остаются очень дружной семейкой! Но экспрессируются разные члены одного такого семейства обычно в разное время или в разных типах клеток. Так, в геноме человека обнаружено тридцать генов, кодирующих родственные факторы роста клеток кожи (фибробластов). А вот у низших организмов число таких генов существенно меньше (у дрозофилы и червя их всего 2). Другой пример — гены, кодирующие кератины — белки наружного слоя кожи и ее производных (волосы, ногти). Их у человека 111 штук! Но и это не предел. Геном человека, как ни удивительно, имеет около 1 000 копий генов-рецепторов обоняния.

Дивергировавшие в ходе эволюции человека гены семейства иногда оказываются разбросанными в разных местах на одной или даже разных хромосомах. При этом ген может быть удвоен целиком, а может происходить удвоение небольшого набора его экзонов или даже всего лишь одного из его экзонов.

Как и в семье не без урода, так и в семействах генов встречаются иногда такие члены, которые не утруждают себя никакой работой. Нарушение их способности функционировать в клетке обычно связано с накоплением опечаток в их ДНКовом тексте. Такие гены-тунеядцы получили название «псевдогенов». Перед их названием ставят греческую букву ψ. Не совсем ясно, зачем геному нужны такие гены, почему он сохранил их в эволюции, не избавился от них. Но факт остается фактом. По имеющимся оценкам, в геноме человека имеется около 20000 таких, подобных вымершим реликтам, псевдогенов. В частности, в огромной семействе генов-рецепторов обоняния, состоящем из примерно 1000 генов, около 60 % являются псевдогенами. Считается, что массивная потеря функциональных генов произошла за последние 10 млн. лет, и связано это со снижением роли обоняния у человека по сравнению с другими позвоночными организмами. Здесь, по-видимому, действует принцип отмирания из-за неупотребления. Установлено, что существует, по крайней мере, два механизма, приводящих к образованию псевдогенов. Один из них заключается в удвоении уже существующего гена (дупликация), а потом дополнительная копия накапливает мутации, которые препятствуют его работе. Другой механизм связан с процессом сплайсинга и обратной транскрипции. На сформировавшейся мРНК синтезируется ее ДНК-копия, которая в дальнейшем встраивается в геном. Такие псевдогены не содержат ни интроны, ни промоторные участки. Кроме того, в них со временем накапливаются многочисленные мутации, не позволяющие этим генам обеспечивать синтез нормального белка.

Все вышесказанное можно проиллюстрировать на примере семейства генов, кодирующих белки крови человека (рис. 23). У человека имеется два семейства глобиновых генов (альфа и бета). Эти семейства расположены на разных хромосомах. Каждое семейство состоит из нескольких членов, имеются здесь и псевдогены. Нормальные гены глобиновых семейств экспрессируются в клетках крови на разных стадиях развития человека. Одни у эмбрионов (ξ, ε), другие у плода (Gγ, Аγ, α1), а третьи — у взрослого организма (α2, δ, β). Функция у всех глобиновых генов одинакова — синтез глобинов, участвующих в переносе кислорода клетками крови. И место их работы одно — клетки крови эритроциты. Отличаются они лишь тем, что включаются в разное время, в результате чего выполняют одну и ту же роль, но на разных стадиях развития организма.


Рис. 23. Строение двух локусов генома, состоящих из кластеров родственных глобиновых генов человека. Экспрессирующиеся гены указаны стрелками (направление транскрипции), молчащие гены (псевдогены) — квадратиками


Организация кластеров глобиновых генов у человека совершенно одинакова с организацией этих генов у гориллы и павиана. Это указывает на то, что такая организация полностью сформировалась еще от 20 до 40 млн. лет назад и с тех пор не изменялась. Анализ мутаций в межгенных областях позволил сделать вывод об эволюции не отдельных генов, собранных в такой кластер, а кластера как единого целого супергена.

По-иному ведут себя многочисленные гены семейства актинов, которые кодируют сократительные белки клетки. Эти гены экспрессируются почти все время, и их экспрессия происходит как в мышечных клетках, так и во многих других немышечных. При этом функция актинов везде одинакова.

Новые предложения из фрагментов старых текстов

Экзон-интронная организация генов способствует еще одному механизму возникновения новых генов — созданию новых ДНКовых текстов из фрагментов старых. Это осуществляется в результате «тасования» уже предсуществующих экзонов, что может приводить к появлению нового их сочетания и новых белков с новыми функциями. Чаще всего это происходит за счет процесса присоединения новых экзонов к старым. Примером этому может служить случай, представленный на рис. 24.


Рис. 24. Пример формирования новых генов за счет различного сочетания уже имеющихся экзонов. Изображены четыре разных белка, состоящих из сходных блоков-доменов (обозначены разными символами), которые кодируются разными экзонами


В процессе эволюции из общего предшественника образовались гены дрозофилы trx и ген человека alr. Ген человека hrx возник в результате присоединения к гену trx четырех новых экзонов. Это приводит к появлению в белке, кодируемом этим геном, четырех новых функциональных доменов, что существенно меняет его свойства по сравнению с предшественником. Такая ситуация вообще-то характерна для всех высших организмов, но у человека она встречается в 2–5 раз чаще, чем, например, у дрозофилы или червя.

После получения всех этих новых многочисленных сведений об особенностях организации и эволюции генов у человека (сходным образом обстоит дело и у других высших организмов) стало ясно, что дать строгое определение того, что же такое собой представляет ген, довольно сложно. Но даже если бы такое определение сегодня имелось, его, как и всякое другое, не следовало бы считать незыблемым. Не зря говорил Спиноза: «Всякое определение есть ограничение». Однако в целом базовое представление о гене осталось в силе. Ген — это физическая (определенный участок ДНК) и функциональная (кодирует белок или РНК) единица наследственности.

Сколько же всего генов у человека?

Это наиболее интересный вопрос, ради которого собственно и затевалось полное секвенирование генома человека. После получения основной информации о структуре генома человека в первую очередь были произведены различные анализы по поиску генов и определению их числа. Однако задача оказалась не простой. Это может показаться странным для читателя, но однозначного ответа на поставленный вопрос до сих пор нет.

Сколько же всего генов в ДНК человека? Еще несколько лет назад полагали, что их около 100 тыс., затем решили, что не более 80 тыс. В конце 1998 г. пришли к выводу, что в геноме человека не более 50–60 тыс. генов и на их долю приходится около 3 % общей длины ДНК.

Последние подсчеты общего числа генов в геноме человека проводили несколько международных команд ученых. Уже упоминавшаяся компания «Celera» провела собственные исследования, результаты которого изложены в журнале «Science» в 2001 году. По ее оценкам общее число генов в геноме человека составляет от 26383 до 39114. Средний размер гена оценивается равным примерно 3000 п. н. Если принять, что число генов у человека порядка 30 тысяч и на каждый ген приходится примерно 3 тыс. п. н., то нетрудно подсчитать, что в кодировании белков принимает участие менее 1,5 % хромосомной ДНК. Таким образом, генетические инструкции по формированию человеческой личности занимают меньше 3 сантиметров на двухметровой молекуле ДНК. Удивляет и малое количество генов, несущих эти инструкции, — их всего в пять раз больше, чем, например, у такого на наш взгляд совершенно примитивного организма, как муха дрозофила.

Вторая команда исследователей из Национального института геномных исследований США во главе с Френсисом Коллинзом, подсчитав число генов у человека независимым способом и на основе своих данных, получила сходный результат — около 32000 генов содержится в геноме каждой клетки человека.

Разнобой в окончательные оценки пока вносят два других коллектива ученых. Доктор Вильям Хезелтайн (руководитель фирмы «Хьюмэн Геном Сайенс») продолжает настаивать, что в их банке содержится приватизированная информация на 120 тыс. генов. Этой информацией он не собирается пока делиться с мировой общественностью. Фирма вложила деньги в патенты и собирается заработать на полученной информации, поскольку она относится к генам широко распространенных болезней человека. Фирма «Инсайт» сообщила о том, что имеет в настоящее время каталог, состоящий из 140 тысяч идентифицированных ей генов человека, и также настаивает на этом количестве общего числа генов у человека.

Очевидно, что наспех приватизированная генетическая информация будет еще тщательно анализироваться и проверяться в ближайшие годы, пока точное число генов станет окончательно «канонизировано». Дело в том, что устройство генов весьма многообразно и до конца еще не поняты все возможные варианты. Вот мы прочитали последовательность нуклеотидов ДНК. Определено, что она способна кодировать белок. Но один ли? Выше уже говорилось о том, как транскрипция и последующие модификации РНК, а затем трансляция и модификации полипептидов, способны обеспечить огромное многообразие белков, кодируемых одним участком ДНК. И понять это исходя только из нуклеотидной последовательности ДНК очень часто просто невозможно. Тем не менее структура генома представляет собой единственную базу для осмысления данных, получаемых такими новыми направлениями, рожденными геномикой, как транскриптомика (исследует совокупность РНК-транскриптов организма), протеомика (исследует совокупность белков организма), метаболомика (исследует обмен веществ — метаболизм — в организме). Эти направления призваны дополнить лежащий в основе структурной геномики метод геномного секвенирования, дать возможность выйти за пределы его разрешающей способности.

Выше уже также говорилось об альтернативном сплайсинге. Сейчас хорошо известно, что за счет этого процесса с одних и тех же генов могут считываться разные белки, которые затем взаимодействуют друг с другом, образуя неповторимую смесь, как из основных цветов в живописи — желтого, красного и голубого можно получить мириады оттенков. Такой сплайсинг характерен не менее чем для половины генов человека. Считается, что в среднем с одного гена человека за счет альтернативного сплайсинга может образовываться три разных пептида. Но некоторые гены имеют до 10 альтернативно сплайсируемых экзонов, что позволяет теоретически получать более 1000 различных вариантов белков всего лишь на одном гене. В реальности число разных белков, кодируемых одним геном, достигает 10. Кроме того, существуют еще и альтернативные промоторы, альтернативные кодоны инициации трансляции, редактирование РНК (превращение Ц в У или А в аналог Г — инозин). Все вышесказанное пока еще невозможно учесть при оценке общего числа генов у человека.

Но и это не все. Кроме генов, кодирующих белки, имеются еще гены, конечным продуктом которых являются РНК. Вспомним об упоминавшихся выше генах-риборегуляторах — они не кодируют белки, но производят функционирующую в клетках РНК. Так что скорее всего окончательная оценка числа генов у человека будет сделана еще нескоро.

На сегодняшний день ученым известны функции всего лишь около восьми-десяти тысяч из них. А детальные сведения о механизмах их регуляции еще более скудны. Тем не менее, приведенные выше данные о строении и функционировании генов человека свидетельствуют о том, что у человека, царствующего в природе, в отличие от других существующих на нашей планете организмов, очень высока сложность протеома — полного набора функциональных белков в клетке, которая обеспечивается не просто за счет крупного размера генома или большого числа генов, а благодаря всевозможным инновациям, связанным с функционированием генов и формированием белков: большее число доменов-модулей, более высокая комбинаторика (перемешивание) этих модулей в белках, активное использование альтернативного сплайсинга и многое другое, о чем мы поговорим дальше.

ОСНОВНАЯ ЧАСТЬ ГЕНОМА — ТЕРРА ИНКОГНИТА