Нейроинформатика - Часть01 - Возможности нейронных сетей. Продолжение
Автор: А.Н.Горбань
До сих пор речь шла о точном представлении функций многих переменных с помощью функций одного переменного. Оказалось, что в классе непрерывных функций такое представление возможно. Но кроме вопроса о точном представлении существует еще один об аппроксимации. Можно даже предположить, что он важнее вычисление большинства функций производится приближенно даже при наличии «точных» формул.
Приближение функций многочленами и рациональными функциями имеет историю, еще более давнюю, чем проблема точного представления. Знаменитая теорема Вейерштрасса утверждает, что непрерывную функцию нескольких
Теорема Стоуна обобщает теорему Вейерштрасса по двум направлениям. Во-первых, рассматриваются функции на произвольном компакте, а не только функции многих действительных переменных. Во-вторых, доказано утверждение, новое даже для функций одного переменного (не говоря уже о многих): плотно не только множество многочленов от координатных функций, но вообще кольцо многочленов от любого набора функций, разделяющих точки. Следовательно, плотно множество тригонометрических многочленов, множество линейных комбинаций функций вида exp[-(x-x0,Q(x-x0))], где (x,Qx) положительно определенная квадратичная форма и др.
Дан рецепт конструирования таких обобщений: достаточно взять произвольный набор функций, разделяющих точки, построить кольцо многочленов от них и получим плотное в C(X) множество функций.
Разложения по ортогональным системам функций (ряды Фурье и их многочисленные обобщения) не дают, вообще говоря, равномерного приближения разлагаемых функций как правило, можно гарантировать лишь монотонное стремление к нулю интеграла квадрата остатка «функция минус приближение» с какой-либо положительной весовой функцией. Все же, обращаясь к задаче аппроксимации, нельзя забывать об ортогональных разложениях. Для ряда прикладных задач простота получения коэффициентов такого разложения может оказаться важнее, чем отсутствие гарантированной равномерности приближения.
Так существуют ли функции многих переменных? В каком-то смысле да, в каком-то нет. Все непрерывные функции многих переменных могут быть получены из непрерывных функций одного переменного с помощью линейных операций и суперпозиции. Требования гладкости и аналитичности существенно усложняют вопрос. На этом фоне совершенно неожиданно выглядит тот факт, что любой многочлен от многих переменных может быть получен из одного произвольного нелинейного многочлена от одного переменного с помощью линейных операций и суперпозиции. Простое доказательство этой теоремы будет дано в разделе 6.
5. Универсальные аппроксимационные способности произвольной нелинейности и обобщенная теорема Стоуна
В этом разделе для множеств непрерывных функций, замкнутых относительно любой нелинейной операции (а не только для колец), доказана обобщенная аппроксимационная теорема Стоуна. Это интерпретируется как утверждение о универсальных аппроксимационных возможностях произвольной нелинейности: с помощью линейных операций и каскадного соединения можно из произвольного нелинейного элемента получить устройство, вычисляющее любую непрерывную функцию с любой наперед заданной точностью.
Рассмотрим компактное пространство X и алгебру C(X) непрерывных функций на X с вещественными значениями.
Кроме аппроксимации функций многочленами и их обобщениями из колец функций, разделяющих точки, в последнее время все большее внимание уделяется приближению функций многих переменных с помощью линейных операций и суперпозиций функций одного переменного. Такое приближение осуществляется специальными формальными "устройствами" – нейронными сетями. Каждая сеть состоит из формальных нейронов. Нейрон получает на входе вектор сигналов x, вычисляет его скалярное произведение на вектор весов []и некоторую функцию одного переменного [](x,[]). Результат рассылается на входы других нейронов или передается на выход. Таким образом, нейронные сети вычисляют суперпозиции простых функций одного переменного и их линейных комбинаций.
Доказан ряд теорем [8-10] об аппроксимации непрерывных функций многих переменных нейронными сетями с использованием практически произвольной непрерывной функции одного переменного. В данном разделе мы покажем, что эта функция действительно может быть произвольной и докажем обобщенную теорему Стоуна, естественным образом охватывающую и классическую теорему Стоуна, и аппроксимацию функций многих переменных суперпозициями и линейными комбинациями функций одного переменного.
Чтобы получить требуемое обобщение, перейдем от рассмотрения колец функций к изучению их алгебр, замкнутых относительно некоторой нелинейной унарной операции.
Доказательство теоремы 2 заканчивается обращением к классической теореме Вейерштрасса о приближении функций многочленами: из лемм 1-3 следует, что в условиях теоремы 2 P является кольцом и, в частности, содержит все многочлены (которые получаются из 1 и id с помощью умножения и линейных операций). По теореме Вейерштрасса отсюда следует, что P=C(R).
Теоремы 1,2 можно трактовать как утверждения о универсальных аппроксимационных свойствах любой нелинейности: с помощью линейных операций и каскадного соединения можно из произвольных нелинейных элементов получить любой требуемый результат с любой наперед заданной точностью.
6. Точное представление многочленов от многих переменных с помощью одного произвольного многочлена от одного переменного, линейных операций и суперпозиции
В этом разделе исследуются полугруппы полиномов от одного переменного относительно суперпозиции. Показано, что если такая полугруппа содержит все многочлены первой степени и хотя бы один – более высокой, то она включает все многочлены. На основании этого факта доказано, что всегда возможно представить многочлен от многих переменных суперпозициями произвольного нелинейного многочлена от одного переменного и линейных функций.
Вернемся к классическому вопросу о представлении функций многих переменных с помощью функций меньшего числа переменных. Следует еще раз заметить, что классических вопроса существует не один, а два:
1. Можно ли получить точное представление функции многих переменных с помощью суперпозиции функций меньшего числа переменных?
2. Можно ли получить сколь угодно точную аппроксимацию функции многих переменных с помощью некоторых более простых функций и операций?
В рамках первого вопроса особый интерес представляют конструкции, в которых для точного представления всех функций многих переменных используется один и тот же набор функций одного переменного.
Традиционно считается, что эти функции должны иметь весьма специальный и довольно экзотический вид, например, как в обсуждавшейся выше теореме Колмогорова, где использовались существенно негладкие функции.
Напротив, свобода в выборе функций одного переменного для решения второго вопроса при том же самоограничении ( один набор функций одного переменного для приближенного представления всех функций многих переменных) очень велика. Для этого, как показано в предыдущем разделе, можно использовать практически любую нелинейную функцию и достаточно всего одной.
Далее доказываются теоремы, относящиеся к первому вопросу (точное представление). В частности, показано, что можно точно представить любой многочлен от многих переменных с помощью суперпозиций произвольного нелинейного многочлена от одного переменного и линейных функций. Следовательно особенной пропасти между 1-м и 2-м вопросом не существует. Именно это обстоятельство побудило нас включить в книгу данный раздел.
(их p) и параметры состояния на следующем шаге (их s). Каждый такой автомат можно представить как систему из s+p более простых автоматов (рис. 9). Эти простые автоматы вычисляют по одной функции от n+s переменных. Смена состояний достигается за счет того, что часть значений этих функций на следующем шаге становится аргументами – так соединены автоматы (см. рис. 9).
Таким образом, без потери общности можно рассматривать сеть автоматов как набор устройств, каждое из которых вычисляет функцию нескольких переменных f(x1, ... ,xn). Этот простой, но фундаментальный факт позволяет использовать предыдущие результаты. Нейронные сети позволяют с любой точностью вычислять произвольную непрерывную функцию f(x1, ... ,xn). Следовательно, с их помощью можно сколь угодно точно аппроксимировать функционирование любого непрерывного автомата.
Литература
- Колмогоров А.Н. О представлении непрерывных функций нескольких переменных суперпозициями непрерывных функций меньшего числа переменных. Докл. АН СССР, 1956. Т. 108, No. 2. С.179-182.
- Арнольд В.И. О функциях трех переменных. Докл. АН СССР, 1957. Т. 114, No. 4. С. 679-681.
- Колмогоров А.Н. О представлении непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одного переменного. Докл. АН СССР, 1957. Т. 114, No. 5. С. 953-956.
- Витушкин А.Г. О многомерных вариациях. М.: Физматгиз, 1955.
- Арнольд В.И. О представлении функций нескольких переменных в виде суперпозиции функций меньшего числа переменных // Математическое просвещение, 19 № с. 41-61.
- Stone M.N. The generalized Weierstrass approximation theorem. Math. Mag., 1948. V.21. PP. 167-183, 237-254.
- Шефер Х. Топологические векторные пространства. М.: Мир, 1971. 360 с.
- Cybenko G. Approximation by superposition of a sigmoidal function. Mathematics of Control, Signals, and Systems, 1989. Vol. 2. PP. 303 - 314.
- Hornik K., Stinchcombe M., White H. Multilayer feedforward networks are universal approximators. Neural Networks. 1989. Vol. 2. PP. 359 - 366.
- Kochenov D.A., Rossiev D.A. Approximations of functions of C[A,B] class by neural-net predictors (architectures and results). AMSE Transaction, Scientific Siberian, A. 1993, Vol. 6. Neurocomputing. PP. 189-203. Tassin, France.
- Gilev S.E., Gorban A.N. On completness of the class of functions computable by neural networks. Proc. of the World Congress on Neural Networks (WCNN'96). Sept. 15-18, 1996, San Diego, CA, Lawrens Erlbaum Accociates, 1996. PP. 984-991.
- Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере. Новосибирск: Наука (Сиб. отделение), 1996. 276 с.
|