Градиенты высших порядков#

Автор(ы):

Синченко Семен

План лекции#

В этой лекции мы посмотрим на ту математику, которая лежит “под капотом” у parameter-shift rule. Мы познакомимся с обобщением parameter shift, а также увидим, как можно оптимизировать этот метод. В конце мы узнаем, как можно посчитать производную второго порядка за минимальное количество обращений к квантовому компьютеру.

Для более детального погружения в вопрос можно сразу рекомендовать статью [MBK21].

Важность гейтов вращений#

Если задуматься, то одним из основных (если не единственных) способов сделать параметризованную квантовую схему является использование гейтов вращений, таких как $\hat{R X}, \hat{R Y}, \hat{R Z}$ . Более формально это можно выразить так, что нас больше всего интересуют операторы вида:

U (θ) = e^{- \frac{i}{2} H θ}

где $H$ – оператор “вращения”, который удовлетворяет условию $H^{2} = 1$ . Другой возможный вариант записи – представить матрицу $H$ как линейную комбинацию операторов Паули $σ^{x}, σ^{y}, σ^{z}$ .

Если представить схему, содержащую множество параметризованных операторов, то итоговая запись имеет вид:

U_{j . . . k} = U_{j}, . . ., U_{k} | Ψ ⟩

Производная от измерения#

Давайте вспомним, как выглядит квантово-классическая схема обучения с VQC.

../../../_images/example_vqc_diagram.svg — Fig. 70 Квантово-классическая схема#

Видно, что мы хотим считать производную не от самой параметризованной схемы $U_{j . . . k}$ , а от наблюдаемой. Для тех, кто забыл, что такое наблюдаемая, рекомендуем вернуться к лекции про кубит. Если кратко, то это тот оператор, который мы “измеряем” на нашем квантовом компьютере. Математически производная, которая нам интересна, может быть записана для выбранного параметра $i$ таким образом:

G_{i} = \frac{\partial ⟨ U_{j . . . k} Ψ | \hat{M} | U_{j . . . k} Ψ ⟩}{\partial θ_{i}}

То есть нам важно посчитать производную от результата измерения, так как именно результат измерения у нас будет определять “предсказание” нашей квантовой нейронной сети. Причем нам нужно уметь считать производную от любого параметра $θ_{i}$ в цепочке $θ_{j}, . . . θ_{i}, . . . θ_{k}$ .

Parameter-shift для гейтов Паули#

Note

Тут мы для простоты предложим, что $U_{1}$ это просто оператор вращения, иначе выкладки станут совсем сложными.

Тогда сам оператор $U_{i}$ может быть также записан так:

U_{i} = e^{- \frac{i}{2} P_{i} θ_{i}}

Запишем результат математического ожидания через состояние $Ψ_{i}$ , которое пришло на вход $i$ -го гейта в нашей последовательности:

⟨ M (θ) ⟩ = T r (M U_{k, . . ., 1} ρ_{i} U_{k, . . ., 1}^{†})

где $ρ$ это матрица плотности ( $| Ψ ⟩ ⟨ Ψ |$ ). Подробнее о матрицах плотности можно почитать в ранней продвинутой лекции про смешанные состояния.

Тогда частная производная от математического ожидания по $i$ -му параметру $θ_{i}$ записывается (подробнее в [MNKF18]) через коммутатор исходного состояния $ρ$ , которое “пришло” на вход гейта $U_{i}$ и того оператора Паули $P_{i}$ , который мы используем в $U_{i}$ :

\frac{\partial ⟨ M ⟩}{\partial θ_{i}} = - \frac{i}{2} T r (M U_{k, . . ., i} [P_{i}, U_{i - 1, . . ., 1} ρ_{i} U_{i - 1, . . ., 1}^{†}] U_{k, . . ., i}^{†})

Этот коммутатор может быть переписан следующим образом:

[P_{i}, ρ] = i [U_{i} (\frac{π}{2}) ρ_{i} U_{i}^{†} (\frac{π}{2}) - U_{i} (- \frac{π}{2}) ρ_{i} U_{i}^{†} (- \frac{π}{2})]

Тогда соответствующий градиент $\frac{\partial}{\partial θ_{i}}$ можно записать через смещения на $\pm \frac{π}{2}$ :

\begin{array}{r} \begin{array}{c} \frac{\partial ⟨ M ⟩}{\partial θ_{i}} = \frac{⟨ M_{i}^{+} ⟩ - ⟨ M_{i}^{-} ⟩}{2} \\ ⟨ M_{i}^{\pm} ⟩ = \frac{1}{2} T r [M U_{k, . . ., i + 1} U_{i} (\pm \frac{π}{2}) ρ_{i}^{‘} U_{i}^{†} (\pm \frac{π}{2}) U_{k, . . ., i + 1}^{†}] \\ ρ_{i}^{‘} = U_{j, . . ., 1} ρ_{i} U_{j, . . ., 1}^{†} \end{array} \end{array}

По аналогии с классическими нейронными сетями и backpropagation (для тех, кто забыл это понятие, рекомендуем вернуться к вводным лекциями про классическое машинное обучение) тут явно можно выделить forward проход со смещением $θ_{i}$ на значения $\frac{π}{2}$ и backward со смещением на $- \frac{π}{2}$ .

Обобщенный parameter-shift#

Предложенное в [MNKF18] выражение может быть на самом деле получено в более общем виде из других соображений. Так, выражение для нашей наблюдаемой $⟨ M ⟩$ может всегда быть представлено [MBK21] как сумма вида:

⟨ U_{i} (θ_{i}) | \hat{M} | U_{i} (θ_{i}) ⟩ = \hat{A} + \hat{B} \cos θ_{i} + \hat{C} \sin θ_{i}

где $\hat{A}, \hat{B}, \hat{C}$ – операторы, не зависящие от параметра $θ_{i}$ .

Note

Действительно, явно выписав выражение для наблюдаемой и вспомнив формулы для косинуса и синуса двойного угла, а также воспользовавшись тем, что $U (θ) = e^{- \frac{1}{2} H θ} = \cos \frac{θ}{2} 1 - i \sin \frac{θ}{2} H$ , получаем:

\begin{array}{r} \begin{array}{c} (\cos \frac{θ}{2} 1 + i \sin \frac{θ}{2} H) \hat{M} (\cos \frac{θ}{2} 1 - i \sin \frac{θ}{2} H) = \\ \cos^{2} \frac{θ}{2} \hat{M} + i \sin \frac{θ}{2} \cos \frac{θ}{2} H \hat{M} - i \sin \frac{θ}{2} \cos \frac{θ}{2} \hat{M} H + \sin^{2} \frac{θ}{2} H \hat{M} H = \\ \frac{1}{2} \cos θ \hat{M} + \frac{1}{2} \hat{M} + \frac{i}{2} \sin θ H \hat{M} - \frac{i}{2} \sin θ \hat{M} H + \frac{1}{2} H \hat{M} H - \frac{1}{2} \cos θ H \hat{M} H = \\ \frac{1}{2} (\hat{M} + H \hat{M} H) + \frac{1}{2} (\hat{M} - H \hat{M} H) \cos θ + \frac{i}{2} (H \hat{M} - \hat{M} H) \sin θ \end{array} \end{array}

Тогда можно воспользоваться правилами тригонометрии, а именно, тем что для любого $s \neq k π, k \in 1, 2, . . .,$ справедливо:

\begin{array}{r} \begin{array}{c} \frac{d \cos θ}{d θ} = \frac{\cos (θ + s) - \cos (θ - s)}{2 \sin s} \\ \frac{d \sin θ}{d θ} = \frac{\sin (θ + s) - \sin (θ - s)}{2 \sin s} \end{array} \end{array}

И подставим это в выражение для $\frac{\partial ⟨ M ⟩}{\partial θ_{i}}$ :

\frac{\partial ⟨ M (θ_{i}) ⟩}{\partial θ_{i}} = \frac{⟨ M (θ_{i} + s) ⟩ - ⟨ M (θ_{i} - s) ⟩}{2 \sin s}

Легко заметить, что подстановка сюда $s = \frac{π}{2}$ дает нам классический parameter shift, описанный в [MNKF18].

Наконец, запишем полученное выражение в более удобном виде, который позволит нам более эффективно выписывать производные высших порядков. Для этого введем вектор $e_{i}$ – единичный вектор для $i$ -го параметра, то есть вектор, где все компоненты кроме $i$ -й равны нулю, а $i$ -я равна 1. Тогда наше финальное выражение для обобщенного parameter shift примет следующий вид:

\frac{\partial f (θ)}{\partial θ_{i}} = \frac{f (θ + s e_{i}) - f (θ - s e_{i})}{2 \sin s}

Вторая производная и гессиан#

В классической теории оптимизации, также как и в машинном обучении, очень часто на первый план выходят так называемые методы 2-го порядка. Эти методы похожи на обычный градиентный спуск, но для ускорения сходимости они также используют информацию из матрицы вторых производных, которая называется гессианом. Более подробно про методы 2-го порядка и гессиан можно посмотреть в вводных лекциях курса.

Методы второго порядка требуют больше вызовов, чтобы вычислить гессиан, но взамен они обеспечивают гораздо лучшую сходимость, а также менее склонны “застревать” в локальных минимумах. Это обеспечивает, в итоге, более быстрое обучение. В классических нейронных сетях вычисление гессиана это часто проблема, так как это матрица размерности $\sim O (N^{2})$ , где $N$ – число весов нейронной сети, и эта матрица получается слишком большой. Но, как мы помним, основная “фича” VQC это их экспоненциальная экспрессивность – возможность линейным числом параметров (и гейтов) обеспечить преобразование, эквивалентное экспоненциальному числу весов классической нейронной сети. А значит, для них проблема размерности гессиана не стоит так остро. При этом использование гессиана теоретически позволит в итоге обучить VQC за меньшее число вызовов. Именно поэтому методы второго порядка потенциально очень интересны в квантово-классическом обучении. Но для начала нам необходимо разобраться, как именно можно посчитать матрицу вторых производных.

Пользуясь обобщенным правилом parameter shift, можно выписать выражение для второй производной [MBK21]:

\frac{\partial_{2} f}{\partial θ_{i} θ_{j}} = \frac{f (θ + s_{1} e_{i} + s_{2} e_{j}) + f (θ - s_{1} e_{i} - s_{2} e_{j}) - f (θ + s_{1} e_{i} - s_{2} e_{j}) - f (θ - s_{1} e_{i} + s_{2} e_{j})}{4 \sin s_{1} \sin s_{2}}

Взяв $s_{1} = s_{2}$ , можно упростить это выражение к следующему виду:

\begin{array}{r} \begin{array}{c} \frac{f (θ + s a) + f (θ + s b) - f (θ + s c) - f (θ + s d)}{(2 \sin s)^{2}} \\ a = e_{i} + e_{j} \\ b = - e_{i} - e_{j} \\ c = e_{i} - e_{j} \\ d = - e_{i} + e_{j} \end{array} \end{array}

Но чаще всего нам необходимо не просто посчитать гессиан, а еще и посчитать градиент, так как в большинстве методов 2-го порядка требуются оба эти значения. В этом случае хочется попробовать подобрать такое значение для $s_{g}$ при вычислении вектора градиента, а также такое значение $s_{h}$ при вычислении гессиана, чтобы максимально переиспользовать результаты квантовых вызовов и уменьшить их общее количество.

Внимательно взглянув на выражение для 2-х производных, можно заметить, что оптимизация там возможна при расчете диагональных элементов гессиана. Давайте выпишем выражение для диагонального элемента явно:

\frac{f (θ + 2 s e_{i}) + f (θ - 2 s e_{i}) - 2 f (θ)}{(2 \sin s)^{2}}

Можно заметить, что, например, использование $s = \frac{π}{4}$ для гессиана, а также “стандартного” $s = \frac{π}{2}$ для градиента позволит полностью переиспользовать в диагональных элементах гессиана значения, которые мы получили при расчете градиента. А значение $f (θ)$ вообще считается один раз для всех диагональных вызовов.

Note

На самом деле, диагональные элементы гессиана можно использовать и сами по себе, например для квазиньютоновских методов оптимизации, где матрица Гессе аппроксимируется какой-то другой матрицей, чтобы не считать все вторые производные. Например, она может быть аппроксимирована диагональной матрицой, как в работе [And19].

Заключение#

В этой лекции мы познакомились с классическим parameter shift rule, а также его обобщением. Также мы узнали, как можно посчитать гессиан VQC, и даже узнали маленькие хитрости, которые можно применять для уменьшения общего количества вызовов квантовой схемы.

QMLCourse

Градиенты высших порядков

Contents

Градиенты высших порядков#

План лекции#

Важность гейтов вращений#

Производная от измерения#

Parameter-shift для гейтов Паули#

Обобщенный parameter-shift#

Вторая производная и гессиан#

Заключение#