В процессе эволюции живых организмов усложнялась – и при этом совершенствовалась – их организация. Сенсорные системы становились способными более тонко анализировать изменения в окружающей среде; эффекторные системы – более дифференцированно и адекватно условиям среды и потребностям организма влиять на среду и на собственное положение в ней; центральный аппарат управления – лучше сохранять следы прошлого (память) и управлять поведением, используя прошлый опыт и текущую афферентацию. Усложнение организации живых организмов было связано с увеличением числа клеточных элементов, образующих органы и функциональные системы. Но увеличение числа элементов, входящих в систему, никак не могло способствовать ускорению ее работы. Скорее наоборот. Таким образом, реакции становились все более совершенными, но недостаточно быстрыми. А реакция, даже самая совершенная, становится бесполезной, если осуществляется слишком поздно. Преодолению этих «ножниц» между скоростью и совершенством (дифференцированностью) реакций и способствовало появление возможности к вероятностному прогнозированию. Благодаря ему реакция начинается не тогда, когда уже имеется налицо ситуация, по отношению к которой эта реакция является адекватной. Первые фазы реакции начинаются раньше, тогда, когда имеется ситуация, вслед за которой в прошлом опыте субъекта с достаточно большой частотой (вероятностью) следовала именно та ситуация, по отношению к которой адекватна данная реакция. Организм опережает ход событий.
И хотя большая частота именно такого чередования событий в прошлом не гарантирует того, что и сейчас последовательность событий будет такой же, реагирование соответственно прогнозу, основанному на вероятностных характеристиках прошлого опыта, в большинстве случаев обеспечивает организму «выигрыш». В меньшем же числе случаев может быть и «проигрыш» – когда события развиваются маловероятным путем и организм оказывается не подготовленным к ним. Но это более редкое явление. «Проигрыш» может быть велик, вплоть до жизни данного организма, но он маловероятен. Вид, обладающий хорошим вероятностным прогнозированием, оказывается более приспособленным. А особи, погибшие в маловероятных ситуациях, – это как бы «плата» вида за свой выигрыш, за адаптацию к изменяющейся среде.
Ясно, что способность к вероятностному прогнозированию могла развиваться только в процессе эволюции, протекавшей в вероятностно организованной среде. В жестко детерминированной среде вероятностное прогнозирование не нужно, а в максимально дезорганизованной среде (имеющей максимальную энтропию) – оно бесполезно. Вероятностное прогнозирование организмов – порождение вероятностной организации мира, в котором они живут.
Развитие у живых организмов способности к вероятностному прогнозированию, обеспечивающему реализацию опережающих реакций, возможно только при двух непременных условиях: в вероятностно организованной среде и при наличии специальным образом организованной памяти.
Главная функция вероятностного прогнозирования – опережение событий внешней среды – достигается за счет заблаговременной подготовки к возможным действиям, а в ряде случаев и осуществления необходимых действий.
Глава II
Подготовка к предстоящему действию на основании прошлого опыта
Модель вероятностного прогнозирования
Мы уже говорили в первой главе, что вероятностное прогнозирование будущего может основываться только на прошлом опыте, хранимом памятью. Как же можно представить себе память, в которой хранятся сведения не только о минувших событиях, но и вероятности их наступления и связи между наступлением разных событий? Ведь именно такая память необходима для осуществления вероятностного прогнозирования.
Отвлечемся здесь от необычайной сложности организации памяти животных и человека, от того, что у человека память представляет собой систему действий и операций, направленных на создание смысловой организации прошлого опыта. Мы считаем необходимым особо подчеркнуть, что в описываемой ниже структуре памяти речь идет о памяти индивида, а не о памяти личности. Индивид является продуктом прошлого опыта, и его память рассматривается как следствие этого опыта. На уровне же личности, как отмечает А. Н. Леонтьев (1975), прошлые впечатления, события и собственные действия субъекта не выступают для него как покоящиеся пласты прошлого опыта, а становятся предметом его отношений и в зависимости от этих отношений меняют свой вклад в личность.
Попробуем описать такую структуру памяти, которая бы учитывала вероятности событий, имевших место в прошлом опыте, и на их основании обеспечивала вероятностный прогноз будущего.
Конечно, прогнозирование будущего животными и человеком гораздо сложнее. Мы хотим лишь показать, что даже сравнительно просто организованная система сохранения следов прошлого в состоянии осуществлять вероятностное прогнозирование будущего.
Представим себе систему, действующую в вероятностно организованной среде, составленной из последовательности событий А, В, С,, следующих друг за другом в случайном порядке с некоторыми определенными вероятностями.
Обозначим буквой А первое событие (явление, сигнал), с которым встретилась система. После этого события в памяти выделяется ячейка, которой присваивается метка «А». Тем самым в память записано, что событие А имело место в опыте системы. Точно так же после каждого впервые встретившегося события метка этого события присваивается новой ячейке. Таких ячеек будет организовано столько, сколько новых событий встретит система в среде. Набор этих ячеек удобно сравнить с каталогом, где каждой ячейке соответствует свой ящик. Для каждого наступившего события, помимо организации новой ячейки (ящика), если событие наступило впервые, делается запись на карточку, которая ставится в ящик, заведенный для предшествующего события. Пусть, например, после события А наступило событие В. Тогда заводится ящик для В (поскольку В встретилось впервые) и, кроме того, карточка «В» ставится в ящик А – фиксация в памяти того, что В было после А. Карточка с записью прошедшего события каждый раз (в который бы раз ни произошло событие) ставится в ящик того события, которое непосредственно предшествовало данному. Каждая новая карточка ставится в ящик впереди других карточек.
Сформированная таким образом память уже может обеспечить системе возможность вероятностного прогнозирования предстоящих событий и, следовательно, возможность преднастройки – подготовки к действиям, адекватным прогнозируемым событиям. В простейшем случае прогноз осуществляется следующим образом. Чтобы построить прогноз событий, после того как наступило некоторое изменение среды (например, событие А), из памяти извлекается ящик с меткой А. В этом ящике подсчитывается доля карточек А по отношению ко всему числу всех карточек в ящике – это и будет вероятность, с которой прогнозируется наступление события А; доля карточек В по отношению ко всем карточкам составит вероятностный прогноз наступления события В и т. д.
Таким образом, вероятность, с которой прогнозируется событие В в случае наступления события А, равна nBN, где – число карточек В среди всех N карточек в ящике А. Система подготавливается к действиям, соответствующим событиям А, В, С,, в соответствии с величиной вероятностного прогноза nA/N, nB/N, nC/N.
Здесь для прогнозирования используется вся память, накопленная за всю «жизнь» системы. В частном случае, если сразу после события А всегда следовало только определенное событие (например, В), ящик А будет заполнен только карточками В, и в этом случае событие В будет прогнозироваться после А с вероятностью 1.
Однако такая «память на всю жизнь» оказывается весьма ненадежной, если система находится в среде, вероятностные характеристики которой изменяются во времени. Чтобы сделать прогнозы хоть сколько-нибудь соответствующими изменившейся среде, система должна «прожить» в этой среде отрезок времени, соизмеримый с уже прожитой ранее «жизнью». Система оказывается косной, плохо адаптирующейся к изменяющимся внешним условиям. При этом, чем «старше» система, тем труднее она приспосабливается к изменяющейся среде. Опыт, приобретенный системой за последнее время, играет все меньшую роль, по сравнению с длительно накапливавшимся старым опытом. Таким образом, чтобы хорошо приспосабливаться к изменчивой среде, способность забывать не менее полезна, чем способность запоминать.
Наша система окажется более адаптивной, если она будет осуществлять вероятностное прогнозирование, опираясь не на «память всей жизни», а лишь на опыт последнего периода.
Если произошло событие А, то модель просматривает N карточек, последними поставленных в ящик А, и подсчитывает, какую часть от N составляют карточки событий А, В, С и т. д. В соответствии с полученными величинами и прогнозируются вероятности возникновения событий А, В, С,, и осуществляется преднастройка к соответствующим действиям.
Система, способная не только запоминать, но и забывать, т. е. использующая для прогнозирования лишь недавний опыт, может адаптироваться к изменяющимся условиям. В частности, ее прогнозирование достаточно для выработки классического условного рефлекса и его угашения. Но недостатки в прогнозировании такой системы еще весьма существенны.
При таком обращении к прошлому опыту весьма важен вопрос о рациональном выборе числа N. При N=1 прогноз носит не вероятностный, а жестко детерминированный характер: всегда предсказывается с вероятностью Р = 1 (однозначно) то событие, которое в последний раз следовало за событием А. При N=1 хорошее прогнозирование будет обеспечено только в том случае, если вслед за А всегда следует одно и то же событие. Однако такая ситуация встречается разве лишь в хорошо поставленном эксперименте по выработке условных рефлексов.
При маленьком N система окажется очень «доверчивой» в своем прогнозе; влияние на прогноз случайного, но недавно встретившегося события будет значительным; система будет быстро менять прогноз даже под влиянием случайных изменений среды. При слишком большом N модель, наоборот, окажется слишком «косной» в своем прогнозе, недостаточно чуткой к изменениям вероятностных характеристик среды. Если N равно числу всех карточек в ящике (т. е. модель обладает «бесконечно большой» памятью – в пределах всей ее жизни), то вероятностный прогноз будет достаточно хорошим лишь до тех пор, пока будут оставаться стабильными вероятностные характеристики «среды обитания» модели. Если вероятностная структура среды изменится, модель начнет выдавать неверные прогнозы и будет медленно приспосабливаться к новой среде.
Как видим, вероятностный прогноз оказывается неточным как при слишком малом N («доверчивая» модель), так и при слишком большом N («косная» модель). Рациональный выбор N зависит от того, в какой среде работает модель, как быстро меняются вероятностные характеристики этой среды.
Описанный выше вариант памяти носит характер «все или ничего»: начиная с какого-то момента все события помнятся одинаково хорошо, более же ранние события как бы нацело вычеркнуты из памяти.
Можно усложнить характер забывания в нашей модели. Пусть карточки в картотеке имеют некоторый «весовой коэффициент давности» события: лучше помнится то, что было недавно. Первые N1карточек, стоящие в ящике (недавние события), имеют коэффициент a1. Следующие N2 карточек (более давние события) имеют коэффициент а, меньший чем а. Следующие N3 карточек (еще более давние события) имеют еще меньший коэффициент а3 и т. д.
В величину вероятностного прогноза события В при условии, что непосредственно перед тем было А, входят: доля карточек В среди первых N1 карточек в ящике А с коэффициентом а1, доля карточек В среди следующих N2 карточек в ящике А с коэффициентом а2, доля карточек В среди следующих N3 карточек в ящике А с коэффициентом а3 и т. д. Вероятность того, что наступит событие В при условии, что произошло событие А, будет такой:
где а1>а2>а3….
Это и есть вероятность, с которой прогнозируется наступление события В в случае, если произошло А. Точно так же для любого другого события С:
При такой организации памяти моделируется уже не только вероятностное прогнозирование и, в частности, классический условный рефлекс; но и еще одно интересное явление, которое наблюдается в опытах по переделке условных рефлексов.
Пусть собака в определенных условиях после звонка всегда (в течение достаточно долгого времени) получала пищу. В результате в этих условиях после звонка у собаки начинается усиленное выделение слюны – результат того, что попадание пищи в рот прогнозируется с большой вероятностью. Однако в очередной раз после звонка собака не получила пищу, а последовало болевое раздражение лапы. То же повторилось в следующий раз после звонка – и еще несколько раз. Теперь уже в ответ на звонок собака отдергивает лапу, а усиления слюноотделения не наблюдается. Собака ведет себя так, как будто она «забыла», что ее кормили после звонка, но «помнит», что после звонка было больно лапе. Однако опыт показывает, что собака ничего не «забыла». Если оставить такую собаку на достаточно длительное время в покое (не кормить после звонка и не пользоваться током), а затем привести в лабораторию и включить звонок, у нее может возникнуть усиленное слюноотделение. Собака как бы «вспомнила», что ее когда-то кормили после звонка, и как бы «забыла» более недавние события – болевое раздражение после звонка.
Похожие явления можно наблюдать и у человека. В квартире во время ремонта перенесли выключатель – он был слева от двери, а стал справа. Первое время хозяин, заходя в квартиру, по привычке шел в темноте налево. Но через небольшое время он переучивается и идет уже к выключателю направо. Но если в это время хозяин уедет на месяц, то, вернувшись, он может снова начать искать выключатель на левой стороне, как говорят, «по старой памяти». Человек как бы «забыл» более недавний кратковременный опыт и как бы «вспомнил» ранее «забытый», более старый, но долговременный опыт.
Такое «забывание» старого при изменении среды и «вспоминание» после перерыва обеспечивается в модели с «весовым коэффициентом давности». Недавние события могут «перевешивать» даже длительный, но более старый опыт, благодаря высокому «весовому коэффициенту давности» (площадь S2 на рисунке 1 больше площади S1). По прошествии длительного времени, когда «весовой коэффициент давности» тех же событий уменьшится, опыт этого короткого периода уже не доминирует над длительным опытом (площадь S2 меньше площади S1). Но если теперь вновь восстановить такие же вероятностные характеристики среды, как в период t1t2, то обучение уже пойдет быстрее, чем в первый раз: площадь S3 суммируется с площадью S"2; поэтому время повторного обучения t3t4 окажется меньше времени первичного обучения t1t2. Повторное обучение требует тем меньшего времени, чем быстрее оно проводится после первичного обучения и чем длительнее было первичное обучение.
В модели, как она описана выше, вероятностное прогнозирование осуществляется по отношению к одному событию, предшествующему прогнозируемому событию. Ясно, однако, что такой прогноз не может быть достаточно надежным в среде, в которой имеются связи между событиями не только рядом стоящими, но и более отдаленными (марковские последовательности[2] с «глубиной марковости» 2 и больше). Так, например, событие D может следовать с высокой вероятностью за событием В, если перед В было А, и с низкой вероятностью, если перед В было С. В описанной выше модели прогноз вероятности наступления события D после В осуществляется без учета того, какое событие предшествовало В – в ящике В не содержится информации о том, что предшествовало событию В.
Рис. 1. Весовой коэффициент давности событий.
На оси ординат – весовой коэффициент давности, на оси абсцисс – давность событий: I – кратковременный недавний опыт «перевешивает» более длительный, но давний; II – по прошествии некоторого времени этот «перевес» утрачивается; III – повторное обучение требует меньше времени, чем первоначальное
Наряду с описанными выше ящиками, на передней панели которых записано одно какое-либо событие (ящики первого порядка), заведем в нашей модели еще ящики второго порядка – такие ящики, на передней панели которых записаны два последовательных события: АА, АВ, АС,, BA, ВВ, ВС…, СА, СВ, СС,…. Карточка D, поставленная, например, в ящик АВ, означает, что событие D произошло после события В, перед которым было событие А. В приведенном выше примере карточка D будет частой карточкой в ящике АВ и редкой – в ящике СВ.
Ящики второго порядка, как следует из изложенного, обеспечивают лучшее вероятностное прогнозирование, чем ящики первого порядка. Еще более надежное прогнозирование обеспечивают ящики третьего порядка, на которых записаны три последовательных события: наличие большого числа карточек D в ящике DAB, например, означает, что если после D следовали события А и В, то с высокой вероятностью вновь произойдет событие D.
Ящики второго и более высоких порядков не только обеспечивают лучший прогноз, чем ящики первого порядка, но и дают возможность выработки «ситуационных» условных рефлексов. Представим себе такую ситуацию. Физиологи А и В работают на одних и тех же собаках, но в разное время. Физиолог А подкрепляет звонок С пищей D. Физиолог В – легким уколом лапы Е. В первом случае у собаки возникает пищевая реакция, во втором – оборонительная. Если звонка нет, собака не реагирует пищевой или оборонительной реакцией на вид физиологов А и В. На звонок же она после выработки условных рефлексов реагирует по-разному. Если перед звонком С она видела физиолога А, то она, не дожидаясь подкрепления D, отвечает пищевой реакцией. Если перед звонком С она видела физиолога В, то, не дожидаясь подкрепления Е, реагирует отдергиванием лапы. В модели это обеспечивается тем, что карточки D (пища) попадают в ящик АС, а карточки Е (укол) – в ящик ВС. Поэтому при возникновении комплекса событий А и С прогнозируется высокая вероятность возникновения события D; если эта вероятность P(D/AC) близка к единице, то наблюдается пищевая реакция. При возникновении же комплекса событий В и С прогнозируется высокая вероятность возникновения события Е; если Р(Е/ВС) выше некоторого «порогового» уровня, наступает оборонительная реакция.
Наличие в модели ящиков высоких (второго и выше) порядков позволяет моделировать не только классические условные рефлексы, описанные И. П. Павловым, но и условные рефлексы, названные Ю. Конорским условными рефлексами второго типа (в отличие от классических – условных рефлексов первого типа). Условные рефлексы второго типа известны в литературе и под другими названиями – инструментальных условных реакций или оперантного поведения.
В чем же различие между условными рефлексами первого и второго типа?
Общая схема условного рефлекса первого типа может быть записана символически следующим образом. Исходное состояние системы таково, что стимул SA вызывает реакцию RA (SA→RA). Другой стимул SB реакции RA не вызывает. Если же вслед за стимулом SB следует стимул SA, то реакция RA возникает (SBSA®RA). В этом случае принято говорить, что условный раздражитель SB «подкрепляется» безусловным раздражителем SA. Если теперь такое совместное действие стимулов SB и SA повторяется достаточное число (n) раз, то уже одного стимула SB оказывается достаточно, чтобы вызвать реакцию RA. Коротко это будет выглядеть так:
SA вызывает RA
SB не вызывает RA
SBSA вызывает RA
………….
…………. n раз
………….
SB вызывает RA.
Для характеристики условного рефлекса второго типа опишем один из экспериментов Конорского. Собаку оставляли в пустом помещении. Время от времени собака без видимой причины лаяла. Каждые несколько минут раздавался стук метронома, и если собака в этот момент лаяла, то из пищевого контейнера падал кусочек мяса. Вскоре собака стала лаять в экспериментальной обстановке постоянно. Но лай «подкреплялся» мясом только тогда, когда стучал метроном. В результате собака начинала лаять именно тогда, когда стучал метроном. Именно так осуществляется дрессировка животных, когда животное учат в ответ на определенный сигнал выполнять определенное действие.
Если мы теперь сравним условные рефлексы первого и второго типа, то увидим, что за сходством терминологии здесь скрывается существенное различие явлений. В первом случае «подкрепляющим» называют такой стимул, который «безусловно» вызывает у животного вырабатываемую реакцию (SA→RA). Так, в опытах с пищевыми условными рефлексами мясо (подкрепляющий стимул) «безусловно» вызывает пищевую реакцию – слюноотделение. Во втором же случае вообще нет такого стимула, который «безусловно» вызывает лай. «Подкрепление» же (мясо) играет другую роль – роль вознаграждения. В условных рефлексах второго типа нет аналога ситуации SA→RA
В нашей модели наличие ящиков первого порядка достаточно для моделирования классических условных рефлексов, но не может обеспечить реализации условных рефлексов второго типа. Иначе обстоит дело, если использовать ящики высших порядков. Наличие карточки F в ящике ЕС моделирует след в памяти того, что событие F произошло после С, которому предшествовало Е. Из вышесказанного ясно, как ящик ЕС может быть использован для того, чтобы осуществить вероятностное прогнозирование предстоящих событий, в частности предсказать вероятность наступления события F.
Но ящики второго (и более высокого) порядка могут быть использованы еще и другим образом. Под каждой буквой (в нашем примере F, Е, С) можно понимать любое событие, воспринимаемое животным. Таким событием может быть и внешнее явление, и собственное действие животного: сгибание лапы, лай и т. п.
Пусть F будет означать появление мяса, Е – стук метронома, С – лай. Послышался стук метронома Е. Собаке же хочется мяса F. Что надо сделать, чтобы с наибольшей вероятностью получить мясо? В памяти-картотеке просматриваются ящики ЕА, ЕВ, ЕС,, где А, В, С… – различные действия собаки. В каждом из этих ящиков подсчитывается вероятность наступления желаемого события (появление мяса). Таким образом, используя ящики второго порядка, можно не только осуществлять вероятностное прогнозирование внешних событий, но и строить планы собственных действий С, приводящих с наибольшей вероятностью в заданных условиях (произошло Е) к желаемому результату («хочу мяса» – Е). Еще лучше эта задача решается с ящиками более высоких порядков. Ящики n-го порядка позволяют строить планы действий, состоящие из n минус 1 шагов, приводящих с наибольшей вероятностью к желаемому результату в заданных условиях. С помощью ящиков n-го порядка можно строить и более короткие планы действий – из n минус к шагов, но зато к первых элементов будут использованы для более точного прогноза.
Чем более высокого порядка ящиками располагает модель, тем точнее она осуществляет вероятностное прогнозирование, тем более длинные планы действий можно строить. Но это дается ценой значительно большей громоздкости памяти и «перебора» при выборе из памяти. Число ящиков в модели сильно увеличивается при возрастании их высшего порядка (n).