
Введение в биологию (начало)
Введение в биологию. Часть №1
Введение в биологию. Часть №2
Введение в биологию. Часть №3
Введение в биологию. Часть №4
Введение в биологию. Часть №5
Введение в биологию. Часть №6
Введение в биологию. Часть №7
Тема IX
ГЕНЕТИЧЕСКАЯ ИНФОРМАЦИЯ
Начнем с того, что есть два способа записи информации - аналоговый и цифровой. При аналоговой записи кодирующий параметр может меняться сколь угодно постепенно: например, форма дорожки на грампластинке повторяет форму звуковой волны, которую нужно записать. При цифровой записи кодирующий параметр может принимать всего несколько строго определенных значений без всяких промежутков между ними. Предельный случай цифровой записи - двоичный код, где кодирующий параметр может принимать только два значения: или 0, или 1.

В XVIII веке Пьер Луи Моро де Мопертюи (Pierre Louis Moreau de Maupertuis) впервые догадался, что система записи наследственной информации - цифровая. Через сто лет это экспериментально подтвердил Грегор Мендель (Gregor Johann Mendel). Правда, ни Мопертюи, ни Мендель не знали таких терминов, но у меня лично нет сомнений, что с нашей формулировкой они были бы согласны.

На этой картинке мы видим слова, наиболее распространенные в знаменитом романе Герберта Уэллса “Остров доктора Моро”, герой которого, скорее всего, получил свое имя в честь Пьера Луи Моро де Мопертюи (Roberts, 2001). Чем крупнее слово набрано, тем чаще оно встречается в тексте романа. Технология записи текстовой информации - типично цифровая: есть строго определенный набор букв, промежуточные состояния между которыми не предусматриваются.
В рассказе Станислава Лема "Одиссей из Итаки" рассказывается о вымышленном (к сожалению) ученом, который пришел к идее цифровой записи наследственной информации еще в начале эпохи Возрождения:
"...Есть среди них увесистый том некоего Мираля Эссоса из Беотии, который изобретательностью превзошел Леонардо да Винчи; после него остались проекты логической машины из спинного мозга лягушек; задолго до Лейбница он додумался до идеи монад и предустановленной гармонии; он применил трехценностную логику к некоторым физическим феноменам; он утверждал, что живые существа рождают подобных себе потому, что в их семенной жидкости содержатся письма, написанные микроскопическими буковками, и комбинации таких "писем" определяют строение взрослой особи; все это - в XV веке".

Итак, наследственная информация действительно записана в некотором смысле буквами. Только этих "букв" не 2 (как в двоичном коде) и не 26 (как в латинском алфавите), а 4. Мономеры ДНК могут находиться в четырех состояниях - А, Т, Г или Ц. А целая цепочка ДНК вполне подобна тексту, где записана некая информация четырехбуквенным алфавитом. Дублирование цепочки за счет комплементарности повышает надежность системы (если одна цепь разрушится - есть вторая), но ничего не прибавляет к самому содержанию записанных нуклеотидным текстом сообщений.
Но что же это за сообщения? Уже к середине XX века биологи догадались, что гены, скорее всего, несут информацию о структуре белков - молекул, делающих в клетке, попросту говоря, почти все. Множество генов (геном) каким-то образом определяет собой множество белков (протеом). Правда, на самом деле в состав генома входят не только гены, но пока что мы можем это проигнорировать и смело двинуться дальше.
Тут пригодятся наши знания о белках. Мы знаем, что первичная структура белка, то есть аминокислотная последовательность, как правило, однозначно предопределяет все остальные уровни его структуры. Поэтому линейный нуклеотидный текст вполне может задавать все свойства сколь угодно сложной белковой молекулы. Тогда, однако, возникает следующий вопрос: каким образом нуклеотидный “алфавит” переводится в аминокислотный?
Пока гены считались белками, все было относительно просто.
Белок представляет собой линейную цепочку аминокислот, которые могут чередоваться в любом порядке. Двадцать аминокислот (а на самом деле даже больше) - это количество, вполне сравнимое с количеством букв в греческом или финикийском алфавите. На таком носителе можно сохранить какую угодно информацию. "Белок является как бы длинным предложением, записанным с помощью двадцати букв" (Крик, Ниренберг, 1964).
Надо, правда, заметить, что до открытия двойной спирали практически никто из биологов в таких понятиях не рассуждал. Перейти с привычного "аналогового" языка традиционной биологии на "цифровой" язык новой биологии, изучающей информационные процессы, им было очень непросто; многим даже крупным ученым, профессионально сложившимся до 1953 года, это так никогда и не удалось. А когда двойная спираль была открыта, сразу же оказалось, что общая схема тут несколько сложнее, чем можно было бы ожидать. Стало понятно, что "базой данных", хранящей последовательности белков, служит совсем другой полимер, резко отличающийся от белка химически и к тому же содержащий всего четыре типа мономеров вместо двадцати. Так возникла проблема перекодировки, или, в более привычной нам всем терминологии, - проблема генетического кода.
Тут нужно пояснение.
В Сети и публицистике попадается мнение, будто генетический код - примерно то же самое, что генетическая информация. Так вот, это совершенно неправильно. Код - это не сама информация, а словарь, с помощью которого ее можно прочитать. Или более строго: генетический код - это способ перевода друг в друга текстов, записанных с помощью двух разных алфавитов - нуклеотидного и аминокислотного. Своего рода шифровальный ключ. Последнее - даже не метафора: первые теоретики, писавшие о генетическом коде, сразу предложили использовать для его расшифровки математический аппарат криптографии.
Итак, чего можно ожидать от генетического кода? Рассуждения ученых, занявшихся этим вопросом, были следующими.
● Протеиногенных аминокислот 20, а нуклеотидов в ДНК всего 4. Значит, каждая аминокислота должна кодироваться не одним нуклеотидом, а неким их сочетанием. Примерно так, например, вводятся с помощью клавиш китайские иероглифы.
● Двоек нуклеотидов (дублетов) возможно всего 16, для кодирования всех аминокислот этого не хватит. Значит, генетический код должен быть как минимум триплетным (Gamow, Ycas, 1955).
● Троек нуклеотидов (триплетов) возможно 64, то есть их намного больше, чем аминокислот.
Значит, каждая аминокислота скорее всего кодируется не одним триплетом, а несколькими. Генетический код - избыточный (иногда это называют "вырожденный").
Человека, который первым опубликовал эти соображения, звали Георгий Антонович Гамов (George Gamow). Это был крупный физик-теоретик, причастный к созданию теории Большого взрыва. Занятия биологией для него были эпизодом, но очень плодотворным. Гамов вычислил "на кончике пера" основные параметры генетического кода, и вскоре эксперименты показали, что предсказал он их правильно.
Почти одновременно с Гамовым (похоже, что даже немного раньше) очень похожие выкладки совершенно независимо подготовил другой ученый - эмбриолог Александр Александрович Нейфах. Но его статью не приняли к публикации! "Редакция "Известий Академии наук. Серия биологическая" отклонила статью, сославшись на то, что формальные математические соображения неприменимы к такой самобытной науке, как биология" (Аспиз, 2001). Эта история как нельзя лучше показывает, насколько трудно было большинству биологов переключиться с "аналогового" мышления на "цифровое". А Нейфах в результате остался без приоритета; после Гамова публиковать статью с теми же расчетами было уже бессмысленно.
“Самым трудным в проблеме кода было понять, что код существует, - писал соавтор Гамова Мартинас Ичас (Martynas Ycas). - На это потребовалось целое столетие. Когда это поняли, то для того, чтобы разобраться в деталях, хватило каких-нибудь десяти лет”.

Вот так выглядит полный генетический код. Каждая тройка нуклеотидов, кодирующая определенную аминокислоту, называется кодоном. Генетический код состоит из 61 кодона, кодирующего аминокислоты, и трех стоп-кодонов, на которых синтез полипептидной цепи останавливается. Всего кодонов 64, как и предсказывал Георгий Гамов.
Правила пользования таблицей генетического кода следующие. На левой оси нужно выбрать первую "букву" кодона, на верхней - вторую, и на правой третью. Например, кодон ТТТ (три тимина подряд) кодирует аминокислоту фенилаланин, и кодон ТТЦ (тимин-тимин-цитозин) - тоже. Кодоны, кодирующие одну и ту же аминокислоту, называются синонимичными. Довольно часто (но не всегда!) бывает, что синонимичные кодоны отличаются друг от друга только последней "буквой", как мы это и видим в случае с фенилаланином. Вместо тимина в этой таблице можно везде поставить урацил: эти два основания в данном контексте взаимозаменяемы (урацил, так же как и тимин, может комплементарно спариваться с аденином).

Молекулярная машина, синтезирующая белок, то есть сшивающая аминокислоты в нужном порядке - рибосома - представляет собой комплекс нескольких молекул рибосомной РНК (рРНК) с несколькими десятками молекул особых белков. У эукариот, например, молекул рибосомной РНК в каждой рибосоме четыре. Рибосомная РНК обычно составляет около 70% всей РНК клетки, потому что рибосом очень много.
Сам процесс синтеза белка на рибосоме называется трансляцией. Прежде чем вникать в ее механизм, выделим два общих момента. Во-первых, аминокислота, которую надо присоединить к белку, поступает в рибосому не в свободном виде, а будучи связанной с неким специально адаптированным для этой реакции переносчиком. Во-вторых, нуклеиновая кислота, с которой рибосома считывает транслируемую последовательность - как ни странно, отнюдь не ДНК. Прямо с ДНК трансляция в живой природе не идет никогда; это редкий в биологии случай, когда можно сделать категоричное утверждение без всяких оговорок.
А с чего же тогда трансляция идет?
Молекулярно-биологические исследования быстро выявили два факта:
● Для синтеза белка совершенно необходима РНК, причем не только рибосомная, но и какая-то еще.
● У эукариот ДНК находится в ядре, в то время как синтез белка всегда идет в цитоплазме.
Было логично предположить, что в ядре синтезируется некая молекула-посредник (messenger), копирующая нуклеотидную последовательность того участка ДНК, который нужно транслировать. Потом эта молекула-посредник перемещается к месту синтеза белка и дает “инструкцию” рибосоме.
Такая молекула-посредник действительно существует. Она называется информационной РНК (иРНК). Иногда ее еще называют мРНК - от слова “матричная”, и заодно это копирует английское сокращение mRNA (messenger RNA). Но сокращение "иРНК" в современном русском языке используется куда чаще, так что мы примем его.

Процесс переноса информации с ДНК на РНК называется транскрипцией. Давайте посмотрим на схему транскрипции внимательно, благо всеми понятиями, которые нужны, чтобы в ней разобраться, мы теперь уже владеем. Итак, двойная спираль ДНК частично раскручивается, и фермент ДНК-зависимая РНК-полимераза ползет по одной из ее цепей от 3’-конца к 5’-концу, синтезируя комплементарную этой цепи РНК. Отметим, что синтезируемая РНК, точно так же как и вторая цепочка ДНК, антипараллельна той цепи, которой она комплементарна. Это означает, что 5’-конец и 3’-конец у нее направлены в другую сторону.

Цепь ДНК, с которой идет транскрипция, называется кодирующей, противоположная - некодирующей. Тут возникает вопрос: откуда РНК-полимераза "знает", какая из цепей - кодирующая? Ответ: РНК-полимераза распознает кодирующую цепь по наличию в ней особой нуклеотидной последовательности - промотора. В некодирующей цепи промотора нет, а есть комплементарная ему последовательность, которая распознана РНК-полимеразой не будет. Пока мы еще не запутались, обратим внимание, что получающаяся в итоге иРНК будет повторять нуклеотидную последовательность именно некодирующей цепи, только, конечно, с повсеместной заменой тимина на урацил. Мономерами, из которых строится новая молекула нуклеиновой кислоты, в клетке всегда служат нуклеозидтрифосфаты - в данном случае АТФ, ГТФ, ЦТФ и УТФ.

Вот теперь перед нами общая схема транскрипции и трансляции. Именно так устроен поток генетической информации - от ДНК к белкам - который постоянно бурлит в любой живой клетке (за очень немногими исключениями вроде, например, половых клеток, транскрипция в которых временно приостанавливается). На этой картинке мы видим, что РНКовая последовательность АУГААГУУУУАГ кодирует аминокислоты метионин, лизин и фенилаланин. Четвертый кодон - УАГ - является стоп-кодоном.
Переведем дух и поздравим себя.
Отныне мы знакомы с великой формулой ДНК→РНК→белок, которая с легкой руки Фрэнсиса Крика получила название центральной догмы молекулярной биологии. К этой формуле, конечно, есть много дополнений, но самое главное о потоке генетической информации мы теперь знаем. Информация передается с ДНК на белок через посредство РНК.
Теперь мы видим, что в таблице генетического кода не только можно, но и нужно заменить Т на У: во-первых, потому что трансляция всегда идет именно с РНК, а во-вторых, потому, что в ДНК нам придется постоянно разбираться в том, какая цепь кодирующая, а какая некодирующая (причем аминокислотной последовательности белка будет соответствовать последовательность некодирующей цепи, которая не транскрибируется). По всем этим причинам таблицу генетического кода чаще всего дают сразу в "РНКовом" варианте:

По содержанию эта таблица ничем не отличается от предыдущей, кроме, собственно, замены Т на У. Еще тут для удобства выделены цветами аминокислоты, кодирование которых не является избыточным, то есть подчиняющиеся правилу "одна аминокислота - один кодон". Таких аминокислот всего две: метионин и триптофан.
Откуда рибосома “знает”, какую аминокислоту она должна в данный момент присоединить к полипептиду? В этом ей помогает транспортная РНК (тРНК), переносящая аминокислоты. Она одноцепочечная, но имеет комплементарные спаренные участки, на которых образуются двойные спирали. Типичная конформация тРНК называется “клеверный лист”. Для каждой аминокислоты есть своя тРНК, и чаще всего не одна.

На этой картинке цветами обозначены взаимно комплементарные участки тРНК, так называемые шпильки. У транспортных РНК есть еще одна особенность: в их состав входит много разных химически модифицированных нуклеозидов, которые называют минорными. Например, буквой ψ (пси) принято обозначать минорный нуклеозид псевдоуридин, в состав которого входит не урацил, а его изомер. Естественно, все нуклеозиды входят в РНК в виде нуклеотидов. Транспортная РНК - относительно небольшая молекула, ее длина обычно всего 70-90 нуклеотидов. Вблизи 3'-конца находится универсальная для всех тРНК концевая последовательность ЦЦА (тут стоит обратить внимание на то, что нуклеотидные последовательности по умолчанию всегда читаются от 5'-конца к 3'-концу, подобно тому, как обычный буквенный текст читают слева направо). Именно к 3'-концу тРНК присоединяется аминокислота.

Само присоединение аминокислоты выглядит так. Фермент аминоацил-тРНК-синтетаза (он же просто кодаза) сшивает с выделением воды 3’-гидроксил концевого аденозина тРНК и карбоксильную группу аминокислоты. Последняя тем самым временно превращается в ковалентно связанный с рибозой остаток аминоацила (с группой R-CO- вместо R-COOH). Также в этой реакции участвует АТФ, который расщепляется в ходе нее до АМФ. Но главный продукт реакции - это аминоацил-тРНК, то есть молекула транспортной РНК с висящей на "черешке клеверного листа" аминокислотой.

На вершине петли тРНК всегда находится антикодон - триплет, комплементарный кодону той аминокислоты, которую данная тРНК переносит. Например, для фенилаланина кодону УУУ соответствует антикодон ААА, поскольку, как мы уже знаем, урацил комплементарен аденину.

Во время трансляции любая проплывающая мимо тРНК может случайно столкнуться с тем кодоном иРНК, который в данный момент находится в активном центре рибосомы. Но свяжется она с ним только в том случае, если ее антикодон будет этому кодону комплементарен. Тогда рибосома отрежет аминокислоту от тРНК, присоединит ее к полипептидной цепочке, а сама продвинется по иРНК на шаг вперед (в сторону 3’-конца), и цикл повторится.

Общая схема участия тРНК в трансляции. Антикодон каждой тРНК, связанной с рибомосой, комплементарен кодону, находящемуся в данный момент в активном центре. Добавим, что белок при трансляции синтезируется от N-конца к C-концу. Именно поэтому аминокислотные последовательности белков всегда в таком же порядке и записываются.
Источниками энергии и для транскрипции, и для трансляции служат нуклеозидтрифосфаты, причем не столько хорошо знакомый нам АТФ, сколько гораздо менее распространенный ГТФ. Почему так - не совсем понятно (по крайней мере, мне). Тут можно порассуждать, но без всяких претензий на окончательность выводов.
Прежде всего: почему самой универсальной "энергетической валютой" стал АТФ, а не ГТФ? Может быть, это объясняется тем, что в молекуле аденина, в отличие от молекулы гуанина, нет атомов кислорода. На древней Земле, где свободного кислорода в атмосфере было очень мало, аденин легче синтезировался, и соответственно адениновые нуклеотиды тоже (Zhou, 2014). Клетки использовали тот химический субстрат, который был самым доступным.
Но универсальность АТФ имеет и свои минусы. Соотношение концентраций [АТФ]/[АМФ] очень жестко контролируется внутриклеточными регуляторными системами; в многоклеточном организме его слишком резкое отклонение от нормы может вызвать даже "самоубийство" отдельной клетки (апоптоз). На ГТФ этот контроль не распространяется, поэтому менять его концентрацию можно гораздо свободнее. Возможно, смысл "подключения" транскрипции и трансляции к ГТФ - в том, чтобы сделать эти жизненно важные процессы как бы автономными, снизить их зависимость от всего остального происходящего в клетке.

Теперь мы наконец можем взглянуть на самую общую схему трансляции. Здесь она очень сильно упрощена. Примерно так выглядит минимальный "сухой остаток" того, что всякому интересующемуся современной биологией стоит знать об этом процессе.
Если синтезировать искусственную иРНК, в которую из всех азотистых оснований входит только урацил, и поместить ее в раствор, где есть рибосомы, полный набор аминоацил-тРНК и источники энергии, то прямо в пробирке начнет синтезироваться белок, состоящий из единственной аминокислоты - фенилаланина. Именно так в 1960 году был экспериментально расшифрован первый кодон - УУУ. Это кодон фенилаланина. Расшифровка всех остальных кодонов после этого была уже исключительно делом "хорошей химии", как выражается в подобных случаях Джеймс Уотсон. Завершить ее удалось всего за каких-то пять лет. К 1965 году генетический код был полностью взломан (cracked); именно так это тогда называли в статьях, а еще больше в разговорах, в духе основоположника научного мировоззрения Фрэнсиса Бэкона, некогда заявившего, что знание - сила.
Весь процесс переноса генетической информации от ДНК через РНК к белкам называется экспрессией генов. Тут мы наконец-то сталкиваемся вплотную с понятием "ген", которое надо хоть как-то усвоить, прежде чем идти дальше.
Итак, что такое ген?
Слово это слышал каждый, но вот дать строгое определение на самом деле не так уж и легко. Довольно часто встречается мнение, что ген - это участок ДНК, кодирующий структуру одного белка (концепция "один ген - один белок"). Для большинства генов это верно. Но не для всех. Например, любой белок, у которого есть четвертичная структура, кодируется несколькими генами. В самом деле, такой белок по определению состоит из нескольких полипептидных цепочек, которые синтезируются отдельно, а объединяются только после трансляции.
Еще большую проблему для "белкового" определения гена составляют РНК. Все клеточные РНК транскрибируются с генов, но довольно многие из них не транслируются ни в какие белки. Например, это относится к рибосомным и транспортным РНК. Между тем те участки ДНК, на которых закодирована последовательность рРНК и тРНК - это тоже гены, нет никаких оснований их таковыми не считать.
Обойти эти трудности можно, если решить, что ген - это единица транскрипции, то есть участок ДНК, кодирующий одну РНК (информационную, транспортную или рибосомную). Правда, и к этому определению при желании тоже можно придраться: например, в некоторых геномах есть гены, которые транскрибируются обычно вместе, хотя кодируют разные белки. В общем, ген - это типичный пример общего понятия, которое в разных случаях применяется немного по-разному.
Уговоримся, что если к слову "ген" не сделано никаких оговорок, то речь идет скорее всего о гене, который кодирует один белок, состоящий из одной полипептидной цепочки. О рядовом гене, так сказать. В этом случае определение "один ген - один белок" будет правильным.
Число генов у каждого отдельного живого организма обычно измеряется тысячами или первыми десятками тысяч. Например, у многоклеточных животных генов чаще всего 15-20 тысяч. У бактерий - всего несколько тысяч или, в редких случаях, даже несколько сот (правда, обладатели таких маленьких геномов могут жить только внутри чужих клеток, от которых и получают большую часть нужных веществ - своих ферментов им для этого не хватает). А у некоторых цветковых растений число генов переваливает за 40 тысяч, и вот это, видимо, уже близко к пределу. Сотен тысяч и миллионов генов ни у какого земного живого организма нет.
Всевозможные процессы "включения" и "выключения" генов, ослабления и усиления их активности и тому подобного в сумме называются регуляцией экспрессии. Способы регуляции экспрессии невероятно многообразны. Прежде всего, экспрессию гена можно регулировать как на уровне транскрипции (запуск или прекращения синтеза РНК), так и на уровне трансляции (ускорение или задержка синтеза белка на готовой иРНК). Регуляция на уровне транскрипции - более базовая, на уровне трансляции - более тонкая, и ее мы пока не будем касаться.
Но и способы регуляции транскрипции бывают очень разными. Неплохое представление о том, как тут все может происходить, дает вот эта относительно простая картинка:

Разберемся в ней по порядку.
Начнем с того, что у нас есть ген, кодирующий некий белок. Белок этот в данном случае называется альбумином и принимает некоторое (сейчас неважно, какое) участие в обмене веществ. Рассмотрим многоклеточный организм, одним клеткам которого этот белок нужен, а другим - нет.
Итак, прежде всего мы видим на картинке сам ген. Он состоит из кодирующей части, где записана собственно первичная структура белка, и нескольких регуляторных участков, из которых прежде всего надо назвать промотор (core promoter). Промотор - это та самая последовательность, которую обязательно должна распознать РНК-полимераза, чтобы транскрипция гена вообще произошла. Перед промотором находятся дополнительные регуляторные участки (control elements), которые нужны специально для связывания белков, влиющих на активность гена.
Теперь посмотрим на присутствующие здесь белки. Главный из них - это РНК-полимераза (RNA polymerase), которая, собственно, осуществляет транскрипцию. Ей в этом помогает еще несколько белков - общие факторы транскрипции (general transcription factors), которые нужны для самого процесса синтеза РНК. Но, кроме того, есть еще и регуляторные факторы транскрипции (regulatory transcription factors). В синтезе РНК они непосредственно не участвуют. Их работа - связываться с ДНК, или облегчая, или затрудняя посадку РНК-полимеразы на соответствующий ген. ДНК-связывающий белок, усиливающий таким образом транскрипцию, называется активатором, а ДНК-связывающий белок, блокирующий транскрипцию - репрессором. Белок-репрессор просто не дает РНК-полимеразе сесть в нужную точку ДНК, а белок-активатор, наоборот, меняет конформацию ДНК так, чтобы РНК-полимеразе было удобнее с ней связаться. Несколько упрощая, можно сказать, что белок-активатор включает ген, а белок-репрессор выключает его.
Слева на картинке - ситуация в клетке печени, которой альбумин очень нужен. Мы видим, что два регуляторных белка - "красный" и "оранжевый" - распознали соответствующие последовательности в начале гена и запустили транскрипцию, подняв ее до высокого уровня. Это белки-активаторы. Справа на картинке - нервная клетка, которой альбумин почти не нужен. "Красного" и "оранжевого" белков-активаторов здесь нет, и транскрипция гена альбумина не идет или почти не идет. Белки-репрессоры в данном случае нигде не задействованы, хотя в реальности они участвуют в регуляции экспрессии генов не реже, чем активаторы. Ну это понятно, на одной картинке невозможно уместить сразу все.
А вот над чем стоит задуматься, так это над тем, что регуляторные белки (в данном случае, например, "красный" и оранжевый") - тоже продукты каких-то генов, и эти гены тоже должны быть или запущены, или заторможены. Гены, кодирующие регуляторные белки, очень легко взаимодействуют через свои продукты, включая и выключая друг друга и образуя в результате целые цепочки и сети. Неудивительно, что генные сети (gene regulatory networks) - популярнейший объект изучения современной биологии.

Еще один способ регуляции экспрессии - прямая химическая модификация ДНК. Самый частый вид такой модификации - метилирование, когда на определенном отрезке ДНК каждый цитозин получает дополнительную метильную группу и превращается в 5-метилцитозин. Такие участки ДНК транскрибируются слабее, “замолкают”. Метилирование ДНК обратимо и может быть снято соответствующими ферментами, если выключенные этим способом гены потребуется опять включить.
Читателей научно-популярных книг по биологии, а также слушателей научно-популярных лекций и тому подобную публику можно приближенно разбить на две группы: те, для кого заклинание "ДНК-РНК-белок" имеет какой-то смысл, и те, для кого оно пока ничего не значит. Первая категория - это "продвинутые пользователи", вторая - те, у кого, вероятно, еще все впереди. Мы теперь принадлежим к первой группе, поэтому давайте еще раз посмотрим на центральную догму молекулярной биологии:

Название "догма" в этом контексте является просто шуткой Фрэнсиса Крика: ясно, что на самом деле в естественных науках никаких догм не бывает. История "центральной догмы" это тоже подтверждает. Сначала она, "догма", выглядела просто: информация в клетке движется однонаправленно, по пути ДНК - РНК - белок. Однако на картинке мы видим не только стрелочку, направленную от ДНК к РНК (это транскрипция), но еще и другую стрелочку, направленную, наоборот, от РНК к ДНК. Это - обратная транскрипция, то есть синтез ДНК, воспроизводящей последовательность заданной РНК. Обратная транскрипция - серьезное исключение из "центральной догмы", настолько серьезное, что поначалу в него и не поверили. Сейчас известно, что это вполне реальный, но редкий процесс, который умеют проводить только некоторые вирусы. Тут важнее всего сам факт: встречный поток генетической информации бывает. Фермент, синтезирующий ДНК по заданной РНК, называется, естественно, РНК-зависимой ДНК-полимеразой.
Обратная транскрипция упоминается в повести Стругацких "За миллиард лет до конца света". "Вы этого, отцы, понять не можете, это связано с обратной транскриптазой, она же РНК-зависимая ДНК-полимераза, она же просто ревертаза, это такой фермент в составе онкорнавирусов, и это, я вам прямо скажу, отцы, пахнет нобелевкой..." Между прочим, Стругацкие здесь поразительно точны. Действие повести "За миллиард лет до конца света" происходит в 1972 году, именно в тот исторический момент, когда открытие обратной транскрипции было актуальной научной новостью.
Теперь нам осталось поговорить еще про репликацию, то есть копирование ДНК. Как-никак самовоспроизведение - одно из самых базовых свойств живых клеток, а без репликации оно совершенно невозможно.

Репликация ДНК - полуконсервативная. Двойная спираль расшивается с разрывом водородных связей, после чего к каждой нити ДНК достраивается комплементарная нить из находящихся в растворе нуклеозидтрифосфатов. В результате получаются две двойные спирали, в каждой из которых одна цепь “старая”, а другая “новая”.
Фермент, который синтезирует из мономеров новую цепь ДНК, комплементарную к имеющейся, называется ДНК-полимеразой. На самом деле в любой клетке есть несколько ДНК-полимераз, отличающихся по функциям. Но тут сразу возникает несколько проблем, которые с одним типом ферментов все равно не решить.
Во-первых, чтобы репликация стала возможна, комплементарные цепи ДНК надо как-то разделить. Для этого фермент хеликаза разрывает водородные связи между азотистыми основаниями, а фермент топоизомераза раскручивает двойную спираль ДНК, разрывая для этого ковалентные связи между нуклеотидами и тут же сшивая их заново. Последнее неизбежно, потому что двойную спираль невозможно раскрутить, не разрывая, если нам недоступны ее концы. Тут можно представить себе обыкновенный узел, концы шнурков от которого уходят куда-то в бесконечность, а нам тем не менее надо разделить шнурки, чтобы они шли параллельно и не перепутывались. Не будет другого выхода, кроме как разрезать их и потом сшить. Вот это топоизомераза и делает.
Во-вторых, ДНК-полимераза не может начать создавать новую цепь с нуля. Ей нужна затравка в виде короткой комплементарной РНК, которую синтезирует фермент праймаза. Новая ДНК может синтезироваться в виде серии фрагментов, ковалентно связанных с РНК-затравками (фрагменты Оказаки). Потом ферменты вырезают РНК, помещают на ее место комплементарные исходной цепи дезоксирибонуклеотиды, и ДНК-лигаза сшивает все это в единую цепь ДНК.
В-третьих, цепи ДНК антипараллельны. А любая ДНК-полимераза может двигаться по исходной цепи от 3'-конца к 5'-концу, но никак не наоборот (это означает, что новая цепь ДНК синтезируется начиная с 5'-конца, так же как и РНК при транскрипции). ДНК-полимеразы, способной ползти по цепи в обратную сторону, в природе не существует. Поэтому две цепи ДНК вынужденно реплицируются по-разному. Цепь, по которой ДНК-полимераза может непрерывно ползти от 3'-конца к 5'-концу, называется лидирующей. Тут механизм репликации упрощен: ДНК-полимераза начинает с единственной РНКовой затравки и дальше может сколько угодно наращивать новую цепь вдоль исходной по мере того, как та раскрывается. Цепь, вдоль которой ДНК-полимераза непрерывно ползти не может, называется отстающей. ДНК-полимераза проходит ее отрезок за отрезком, как бы перемещаясь скачками и каждый раз начиная с нового праймера - тут как раз и образуются фрагменты Оказаки, а потом лигаза сшивает их вместе.

Мы видим, что, кроме ДНК-полимераз, в репликации участвуют белки, раскручивающие ДНК и удерживающие ее в раскрученном состоянии, создающие затравку для новой цепи и другие - всего несколько десятков белков. Очевидно, что в таком сложном, многоступенчатом, затратном процессе копирования информации не может не быть ошибок.
Неизбежность эволюции напрямую вытекает из физических свойств живых систем: в силу теплового движения молекул при репликации ДНК неминуемы ошибки. Часть этих ошибок тут же исправляется (репарация), а часть сохраняется и передается следующим поколениям (конвариантная редупликация). Наличие устойчивой конвариантной редупликации - важнейшее свойство всех живых объектов, отличающее их от всех неживых.

"Конвариантная редупликация" - термин Николая Владимировича Тимофеева-Ресовского, обозначающий самовоспроизведение информационных молекул с сохранением случайно возникающих вариаций. Слово "редупликация" - просто синоним "репликации", сейчас редко употребляемый; "конвариантная" - неологизм Тимофеева (возможно, он услышал похожий термин от кого-то из физиков).
В некотором смысле биология и есть наука о поведении конвариантно редуплицирующихся структур.
Journal information