QUBO-формулировки для линейной регрессии, SVM и метода k-средних#

Автор(ы):

Бурдейный Дмитрий

Описание лекции#

Здесь рассмотрим QUBO-формулировки трех задач ML (линейная регрессия, SVM, сбалансированная кластеризация методом k-средних) аналогично тому, как в предыдущей лекции было продемонстрировано сведение к QUBO задач о максимальном разрезе в графе, о коммивояжере и о выделении сообществ в графе. Изложение полностью основывается на статье [DAPN21].

Некоторые обозначения, которые будут использоваться в дальнейшем:

$R$ – множество действительных чисел;
$N$ – количество объектов в обучающем наборе, $N \in {1, 2, \dots}$ ;
$d$ – количество признаков (features) для объектов в обучающем наборе, $d \in {1, 2, \dots}$ ;
$X$ – тренировочный набор, содержит по одному объекту в каждой из $N$ строк, каждая строка содержит $d$ значений признаков, $X \in R^{N \times d}$ ;
$Y$ – набор истинных “ответов” (ground truth), соответствующих тренировочным объектам из $X$ ( $Y \in R^{N}$ в случае регрессии, $Y \in {0, 1}^{N}$ в случае бинарной классификации);
$\otimes$ – произведение Кронекера (тензорное произведение);
$⊙$ – произведение Адамара (поэлементное произведение).

Общая формулировка QUBO-задачи, которая используется в статье [DAPN21] и к которой всё сводится, выглядит так:

(47)#

z^{T} A z + z^{T} b \to min_{z \in {0, 1}^{M}}

где $M$ – натуральное число, $z$ – бинарный вектор решения, $A \in R^{M \times M}$ – QUBO-матрица с действительными элементами, $b \in R^{M}$ – QUBO-вектор. Как отмечалось в предыдущей лекции, при $z_{i} \in {0, 1}$ выполняется равенство $z_{i}^{2} = z_{i}$ , так что линейные члены в (47) можно включить в квадратичные, но этого делать не будем, т.к. для целей этой лекции и для лучшего понимания удобнее сохранить минимизируемую квадратичную форму именно в виде (47).

Линейная регрессия#

В задаче линейной регрессии предполагается, что зависимость истинных ответов от признаков тренировочных объектов приближенно линейная:

y_{i}^{(p r e d)} = ⟨ w, x_{i} ⟩ + b, y_{i}^{(p r e d)} \approx y_{i},

где $y_{i}^{(p r e d)}$ – предсказываемое значение, $y_{i}$ – истинное значение (из разметки), $⟨ \cdot, \cdot ⟩$ – скалярное произведение. Удобно сразу избавиться от слагаемого $b$ (bias), добавив единицу к набору признаков. Тогда bias окажется включенным в веса $w$ , а тренировочный набор будет иметь по $(d + 1)$ признаков на объект: $X \in R^{N \times (d + 1)}$ . Требуется найти веса $w$ , при которых квадрат евклидовой нормы невязки минимален:

(48)#

E (w) = | | X w - Y | |^{2} \to min_{w \in R^{d + 1}}

../../../_images/fig_12.png — Fig. 94 Иллюстрация к задаче линейной регрессии.#

Известно аналитическое решение задачи (48):

w = {(X^{T} X)}^{- 1} X^{T} Y

Если ${(X^{T} X)}^{- 1}$ не существует, нужно вычислить псевдообратную матрицу. ВременнАя сложность решения задачи линейной регрессии равна $O (N d^{2})$ , т.к. нужно $O (N d^{2})$ для вычисления матрицы $X^{T} X$ и $O (d^{3})$ для вычисления обратной к ней (предполагаем, что $N ≫ d$ ).

QUBO-формулировка#

Перепишем выражение (48):

(49)#

E (w) = w^{T} X^{T} X w - 2 w^{T} X^{T} Y + Y^{T} Y \to min_{w \in R^{d + 1}}

Наша цель – найти вектор $w$ , компоненты которого – действительные числа. Но в QUBO-формулировке необходимо представить решение в виде вектора с бинарными компонентами. Как это сделать? Конечно, напрашивается идея использовать бинарное представление действительного числа $w_{i}$ (будем отдельно записывать в бинарном виде целую часть, отдельно – дробную). Нужно помнить о том, что знак $w_{i}$ может быть как положительным, так и отрицательным. Формат представления придется выбрать фиксированным (т.е. с фиксированной запятой, не с плавающей запятой). Пример:

\begin{array}{r} \begin{aligned} \pm 110.101 & = \pm \underset{идем влево от разд. точки}{\underset{⏟}{(0 \cdot 2^{0} + 1 \cdot 2^{1} + 1 \cdot 2^{2})}} \pm \underset{идем вправо от разд. точки}{\underset{⏟}{(1 \cdot 2^{- 1} + 0 \cdot 2^{- 2} + 1 \cdot 2^{- 3})}} \\ = \pm (2 + 4 + \frac{1}{2} + \frac{1}{8}) \\ = \pm 6.625 \end{aligned} \end{array}

Бинарные компоненты логично рассматривать как индикаторы наличия или отсутствия соответствующих степеней двойки в бинарном представлении каждого действительного числа. Введем вектор-столбец $P$ , который отвечает за точность представления (Precision vector) и состоит из степеней двойки со знаками:

P = {[- 2^{l}, - 2^{l - 1}, \dots, - 2^{- m + 1}, - 2^{- m}, 2^{- m}, 2^{- m + 1}, \dots, 2^{l - 1}, 2^{l}]}^{T},

этот вектор отсортирован по возрастанию элементов. Отводится $l$ двоичных разрядов для целой части числа, $m$ разрядов для дробной. $l$ определяется максимальным по модулю действительным числом, которое хотим представлять; $m$ определяется желаемой точностью представления. Число элементов вектора $P$ равно $(m + 1 + l) \cdot 2 = K$ .

Вводим вектор ${\tilde{w}}_{i} \in {0, 1}^{K}$ такой, что

{\tilde{w}}_{i}^{T} P = \sum_{k = 1}^{K} p_{k} {\tilde{w}}_{i k} \approx w_{i} \in R

Чтобы не было неоднозначности, нужно договориться о том, что для представления $w_{i} > 0$ используем только положительные элементы вектора $P$ , а для $w_{i} < 0$ – только отрицательные.

Составляем бинарный вектор $\tilde{w} \in {0, 1}^{K (d + 1)}$

\tilde{w} = [\underset{предст. w_{1}}{\underset{⏟}{{\tilde{w}}_{11} \dots {\tilde{w}}_{1 K}}} \underset{предст. w_{2}}{\underset{⏟}{{\tilde{w}}_{21} \dots {\tilde{w}}_{2 K}}} \dots \underset{предст. w_{d + 1}}{\underset{⏟}{{\tilde{w}}_{(d + 1) 1} \dots {\tilde{w}}_{(d + 1) K}}}]^{T}

и матрицу точности $P$ (Precision matrix), которая задает переход к бинарному представлению векторов:

P = I_{d + 1} \otimes P^{T},

где $I_{d + 1}$ – единичная матрица размера $(d + 1)$ . Матрица $P$ имеет размерность $(d + 1) \times K (d + 1)$ . Исходный вектор весов можно записать как

(50)#

w = P \tilde{w},

где знак “=” на самом деле означает приближенное равенство (наше fixed-point представление имеет конечную точность).

Всё готово для того, чтобы переписать исходную задачу (49) в QUBO-формулировке. Подставляем (50) в (49) и получаем

(51)#

E (\tilde{w}) = {\tilde{w}}^{T} P^{T} X^{T} X P \tilde{w} - 2 {\tilde{w}}^{T} P^{T} X^{T} Y \to min_{\tilde{w} \in {0, 1}^{(d + 1) K}}

слагаемое $Y^{T} Y$ отброшено, т.к. это константа, никак не влияющая на решение задачи оптимизации без ограничений.

Оценка вычислительной сложности#

Для исходной задачи регрессии (48) количество значений в датасете $X$ равно $O (N d)$ . Мы ввели $K$ бинарных переменных для каждого из $(d + 1)$ весов. Значит, получилось $O (K d)$ переменных в QUBO-формулировке (51). Для решения задачи требуется $O (K^{2} d^{2})$ кубитов (см. [DPP19]), это пространственная сложность в рассматриваемом подходе.

ВременнАя сложность в классической задаче $O (N d^{2})$ . В случае QUBO-задачи для временнОй оценки нужно рассмотреть три части:

Затраты времени для конвертации задачи регрессии в QUBO-формулировку. Здесь получаем $O (N K^{2} d^{2})$ (проверьте это, оценив число умножений, необходимых для вычисления $P^{T} X^{T} X P$ ).
Время для реализации QUBO-задачи в квантовом “железе”. Здесь потребуется $O (K^{2} d^{2})$ , если использовать алгоритм из [DPP19].
Время для выполнения квантового отжига. Существуют теоретические оценки времени для получения точного решения, но более практично рассматривать случай, когда можно просто довольствоваться достаточно высокой вероятностью (скажем, 99%) получения оптимального решения. Для современных квантовых компьютеров D-Wave с ограниченным числом кубитов на практике получается, что время отжига и число повторений можно считать константами.

В итоге полная временнАя сложность решения QUBO-задачи на адиабатическом квантовом компьютере $O (N K^{2} d^{2})$ . Может показаться, что это хуже, чем временнАя сложность классического решения, если считать $K$ переменной. Но величина $K$ определяется только шириной диапазона числовых значений и желаемой точностью представления, $K$ не зависит от основных параметров задачи типа $N$ и $d$ . Поэтому можно считать $K$ константой. Тогда число требуемых кубитов $O (d^{2})$ , временнАя сложность $O (N d^{2})$ , это эквивалентно классическому случаю.

SVM#

Классический SVM подробно описан в соответствующей лекции. Рассматривается тренировочный набор $X \in R^{N \times d}$ и набор истинных меток $Y \in {- 1, + 1}^{N}$ . Нужно решить задачу бинарной классификации, найдя веса $w \in R^{d}$ и константу $b \in R$ , при которых классификатор $a (x_{i}) = sign (w^{T} x_{i} + b)$ допускает как можно меньше ошибок на обучающей выборке.

../../../_images/fig_22.png — Fig. 95 Иллюстрация к задаче бинарной классификации с помощью SVM.#

Двойственная задача (18) в текущих обозначениях принимает вид

(52)#

\begin{array}{r} {\begin{aligned} L (λ) = \sum_{i = 1}^{N} λ_{i} - \frac{1}{2} \sum_{i, j = 1}^{N} λ_{i} λ_{j} y_{i} y_{j} ⟨ x_{i}, x_{j} ⟩ \to max_{λ}, \\ 0 \leq λ_{i} \leq C \forall i \in {1, 2, \dots, N}, \\ \sum_{i = 1}^{N} λ_{i} y_{i} = 0. \end{aligned} \end{array}

QUBO-формулировка#

Перепишем (52) как задачу минимизации:

(53)#

\begin{array}{r} {\begin{aligned} L_{n e g} (λ) = \frac{1}{2} \sum_{i, j = 1}^{N} λ_{i} λ_{j} y_{i} y_{j} ⟨ x_{i}, x_{j} ⟩ - \sum_{i = 1}^{N} λ_{i} \to min_{λ}, \\ 0 \leq λ_{i} \leq C \forall i \in {1, 2, \dots, N}, \\ \sum_{i = 1}^{N} λ_{i} y_{i} = 0. \end{aligned} \end{array}

Тренировочные объекты $x_{i}$ , соответствующие $λ_{i} = 0$ , называются периферийными, от них решение

w = \sum_{i = 1}^{N} λ_{i} y_{i} x_{i}

не зависит. Объекты, соответствующие $λ_{i} > 0$ , называются опорными.

Задача минимизации переписывается в виде

(54)#

\begin{array}{r} {\begin{aligned} L_{n e g} (λ) = \frac{1}{2} λ^{T} (X X^{T} ⊙ Y Y^{T}) λ - λ^{T} 1_{N} \to min_{λ}, \\ 0_{N} \leq λ \leq C_{N}, \\ λ^{T} Y = 0, \end{aligned} \end{array}

где $1_{N}$ – вектор, состоящий из $N$ единиц (аналогичный смысл имеют $0_{N}$ и $C_{N}$ ), $λ \in R^{N}$ .

Как в задаче линейной регрессии, будем представлять каждую $λ_{i} \in R$ бинарным вектором ${\tilde{λ}}_{i} \in {0, 1}^{K}$ . Поскольку $λ_{i} \geq 0$ , в precision vector $P$ нужно включить только положительные значения:

P = {[2^{- m}, 2^{- m + 1}, \dots, 2^{l - 1}, 2^{l}]}^{T}

Вектор $P$ содержит $m + 1 + l = K$ элементов (здесь $K$ никак не связано с $K$ из раздела про линейную регрессию, просто было решено не вводить новое обозначение для длины нового вектора $P$ ). При подходящем выборе $m$ и $l$ достаточно точно выполняется равенство

(55)#

λ_{i} \approx \sum_{k = 1}^{K} p_{k} {\tilde{λ}}_{i k} \forall i \in {1, 2, \dots, N}

Выполняем конкатенацию всех ${\tilde{λ}}_{i k}$ по вертикали

\tilde{λ} = [\underset{предст. λ_{1}}{\underset{⏟}{{\tilde{λ}}_{11} \dots {\tilde{λ}}_{1 K}}} \underset{предст. λ_{2}}{\underset{⏟}{{\tilde{λ}}_{21} \dots {\tilde{λ}}_{2 K}}} \dots \underset{предст. λ_{N}}{\underset{⏟}{{\tilde{λ}}_{N 1} \dots {\tilde{λ}}_{N K}}}]^{T}

и вводим матрицу $P$ (precision matrix)

P = I_{N} \otimes P^{T}

таким образом, что (приближенно)

λ = P \tilde{λ}

Подставляя из этого выражения $λ$ в (54), получаем:

(56)#

\begin{array}{r} {\begin{aligned} L_{n e g} (\tilde{λ}) = \frac{1}{2} {\tilde{λ}}^{T} P^{T} (X X^{T} ⊙ Y Y^{T}) P \tilde{λ} - {\tilde{λ}}^{T} P^{T} 1_{N} \to min_{\tilde{λ} \in {0, 1}^{N K}} \\ {(P \tilde{λ})}^{T} Y = 0 \end{aligned} \end{array}

Остается избавиться от ограничения в виде равенства в (56). Как обычно делается в таких случаях, вместо ограничения вводим соответствующий штраф за его нарушение:

P e n a l t y^{(h p)} = \frac{γ}{2} {({(P \tilde{λ})}^{T} Y)}^{2} = \frac{γ}{2} {(({\tilde{λ}}^{T} P^{T}) Y)}^{2} = \frac{γ}{2} {\tilde{λ}}^{T} P^{T} (Y Y^{T}) P \tilde{λ},

где $γ$ – достаточно большая константа, hp означает hyperplane (гиперплоскость).

Добавляем $P e n a l t y^{(h p)}$ к $L_{n e g} (\tilde{λ})$ и получаем итоговую QUBO-формулировку:

(57)#

\frac{1}{2} {\tilde{λ}}^{T} P^{T} (X X^{T} ⊙ Y Y^{T} + γ Y Y^{T}) P \tilde{λ} - {\tilde{λ}}^{T} P^{T} 1_{N} \to min_{\tilde{λ} \in {0, 1}^{N K}}

Оценка вычислительной сложности#

Задача (54) содержит $O (N d)$ значений в данных и $O (N)$ параметров ( $λ$ ). QUBO-формулировка (57) содержит то же количество данных, а число параметров в $K$ раз больше, т.е. $O (K N)$ . Значит, потребуется $O (N^{2} K^{2})$ кубитов.

ВременнАя сложность классического SVM в типичных реализациях (например, LIBSVM) равна $O (N^{3})$ . Для оценки временнОй сложности QUBO рассматриваем три составляющие (как в задаче линейной регрессии):

Затраты времени для конвертации в QUBO-формулировку. Из (53) и (55) следует, что оценка времени $O (N^{2} K^{2})$ .
Для реализации QUBO-задачи в квантовом “железе” потребуется $O (N^{2} K^{2})$ .
Время для выполнения квантового отжига и число повторений можно считать константами (см. комментарии к тому же пункту в обсуждении линейной регрессии).

В итоге временнАя сложность $O (N^{2} K^{2})$ . $K$ можно считать константой, т.к. она зависит только от диапазона и желаемой точности представления $λ$ и не зависит от параметров самой задачи классификации. Тогда получается временная сложность $O (N^{2})$ , что гораздо лучше оценки $O (N^{3})$ в классическом случае.

Сбалансированная кластеризация методом k-средних#

Кластеризация методом k-средних – ML-задача обучения без учителя (unsupervised). Требуется распределить тренировочные объекты по $k$ кластерам так, чтобы суммарное отклонение тренировочных объектов, принадлежащих кластерам, от центроидов (центров масс) соответствующих кластеров было минимальным. Сбалансированная кластеризация методом k-средних – частный случай, в котором каждый кластер содержит примерно одно и то же количество объектов $N / k$ , как показано на Fig. 96.

../../../_images/fig_32.png — Fig. 96 Иллюстрация к задаче сбалансированной кластеризации методом k-средних.#

Нужно распределить $N$ объектов из тренировочного набора $X \in R^{N \times d}$ по $k$ кластерам $Φ = {ϕ_{1}, \dots, ϕ_{k}}$ . Пусть $μ_{i}$ – центроид кластера $ϕ_{i}$ . В общем случае задача кластеризации методом k-средних формулируется так:

(58)#

\sum_{i = 1}^{k} \frac{1}{2 | ϕ_{i} |} \sum_{x, y \in ϕ_{i}} | | x - y | |^{2} \to min_{Φ}

Если размеры $| ϕ_{i} |$ всех кластеров одинаковые, то формулировка переписывается так:

(59)#

\sum_{i = 1}^{k} \sum_{x, y \in ϕ_{i}} | | x - y | |^{2} \to min_{Φ}

В прикладных задачах кластеризации размеры кластеров только приближенно равны друг другу, поэтому решение задачи (59) не является точным решением задачи (58). Для решения задачи кластеризации методом k-средних можно использовать, например, алгоритм Ллойда. Существует модификация алгоритма Ллойда для случая сбалансированной кластеризации.

QUBO-формулировка#

Вводим матрицу $D \in R^{N \times N}$ , элементы которой равны квадратам попарных расстояний между тренировочными объектами:

d_{i j} = | | x_{i} - x_{j} | |^{2}

Также вводим бинарную матрицу $\tilde{W} \in {0, 1}^{N \times k}$ , каждый элемент которой ${\tilde{w}}_{i j} = 1$ в том и только в том случае, когда объект $x_{i}$ принадлежит кластеру $ϕ_{j}$ . Очевидно, есть два ограничения на $\tilde{W}$ :

Поскольку мы предполагаем, что все кластеры содержат примерно одно и тоже количество объектов, каждый столбец $\tilde{W}$ должен содержать примерно $N / k$ единиц.
Каждый объект принадлежит ровно одному кластеру, поэтому каждая строка $\tilde{W}$ должна содержать ровно одну единицу.

Для получения QUBO-формулировки задачи нам потребуется избавиться от этих ограничений. Для этого, как обычно, введем в минимизируемую квадратичную форму штрафы за нарушение ограничений. Вернемся к этому через пару абзацев.

Используя $D$ и $\tilde{W}$ , мы можем переписать внутреннюю сумму в (59) в виде

\sum_{x, y \in ϕ_{i}} | | x - y | |^{2} = {\tilde{w}}_{j}^{^{'}}^{T} D {\tilde{w}}_{j}^{^{'}},

где ${\tilde{w}}_{j}^{^{'}}$ – столбец номер j в $\tilde{W}$ . Чтобы переписать в бинарных переменных полную (двойную) сумму в (59), составим вектор-столбец из всех $N k$ элементов матрицы $\tilde{W}$ :

\tilde{w} = [{\tilde{w}}_{11} \dots {\tilde{w}}_{N 1} {\tilde{w}}_{12} \dots {\tilde{w}}_{N 2} \dots {\tilde{w}}_{1 k} \dots {\tilde{w}}_{N k}]^{T}

При условии, что ограничения на $\tilde{w}$ выполнены, запишем задачу (59) в эквивалентном виде

(60)#

{\tilde{w}}^{T} (I_{k} \otimes D) \tilde{w} \to min_{\tilde{w}}

Теперь разбираемся с ограничениями на $\tilde{w}$ .

Во-первых, каждый столбец $\tilde{W}$ должен содержать примерно $N / k$ единиц. Введем штраф, непосредственно отражающий это требование:

P e n a l t y_{j}^{(c o l)} = α {({\tilde{w}}_{j}^{^{'}}^{T} {\tilde{w}}_{j}^{^{'}} - \frac{N}{k})}^{2},

где $α$ – достаточно большая константа. Раскрыв скобки в предыдущем выражении, можно убедиться, что

P e n a l t y_{j}^{(c o l)} = {\tilde{w}}_{j}^{^{'}}^{T} α \underset{обозначим как F}{\underset{⏟}{(1_{N} - \frac{2 N}{k} I_{N})}} {\tilde{w}}_{j}^{^{'}} + const

Сумма всех штрафов для столбцов равна

P e n a l t y^{(c o l)} = \sum_{j} P e n a l t y_{j}^{(c o l)} = {\tilde{w}}^{T} (I_{k} \otimes α F) \tilde{w}

Во-вторых, каждая строка $\tilde{W}$ должна содержать ровно одну единицу. Соответствующий штраф

P e n a l t y_{i}^{(r o w)} = β {({\tilde{w}}_{i}^{T} {\tilde{w}}_{i} - 1)}^{2},

где $β$ – достаточно большая константа. Раскрыв скобки в предыдущем выражении, получаем

P e n a l t y_{i}^{(r o w)} = {\tilde{w}}_{i}^{T} β \underset{обозначим как G}{\underset{⏟}{(1_{k} - 2 I_{k})}} {\tilde{w}}_{i} + const

Чтобы найти сумму $P e n a l t y^{(r o w)} = \sum_{i} P e n a l t y_{i}^{(r o w)}$ , преобразуем бинарный вектор $\tilde{w}$ в другой бинарный вектор $\tilde{v}$ , получающийся из $\tilde{w}$ определенной перестановкой элементов:

\tilde{v} = [{\tilde{w}}_{11} \dots {\tilde{w}}_{1 k} {\tilde{w}}_{21} \dots {\tilde{w}}_{2 k} \dots {\tilde{w}}_{N 1} \dots {\tilde{w}}_{N k}]^{T}

Переход от $\tilde{w}$ к $\tilde{v}$ можно представить как линейное преобразование

\tilde{v} = Q \tilde{w}

с некоторой матрицей $Q \in {0, 1}^{N k \times N k}$ (матрица $Q$ в свою очередь получается из единичной матрицы $I_{N k}$ определенной перестановкой элементов).

Сумма штрафов для строк равна

P e n a l t y^{(r o w)} = \sum_{i} P e n a l t y_{i}^{(r o w)} = {\tilde{v}}^{T} (I_{N} \otimes β G) \tilde{v} = {\tilde{w}}^{T} Q^{T} (I_{N} \otimes β G) Q \tilde{w}

Соберем вместе квадратичную форму (60) (записанную без учета ограничений) и штрафы $P e n a l t y^{(c o l)}$ , $P e n a l t y^{(r o w)}$ в одно финальное выражение, которое и является QUBO-формулировкой задачи о сбалансированной кластеризации методом k-средних:

(61)#

{\tilde{w}}^{T} (I_{k} \otimes (D + α F) + Q^{T} (I_{N} \otimes β G) Q) \tilde{w} \to min_{\tilde{w}}

Оценка вычислительной сложности#

Задача (59) содержит $O (N d)$ значений в данных и $O (N)$ переменных. В QUBO-формулировке вводим по $k$ бинарных переменных для каждой исходной. Получается $O (N k)$ переменных, а значит, требуется $O (N^{2} k^{2})$ кубитов.

Известно, что классический алгоритм сбалансированной кластеризации методом k-средних сходится за время $O (N^{3.5} k^{3.5})$ в худшем случае (см. ссылки в статье [DAPN21]). Для оценки временнОй сложности QUBO рассматриваем три составляющие:

Затраты времени для конвертации в QUBO-формулировку. В выражении (61) по вычислительной сложности доминирует слагаемое, содержащее $I_{k} \otimes D$ . Соответствующая вычислительная сложность $O (N^{2} k d)$ .
Для реализации QUBO-задачи в квантовом “железе” потребуется $O (N^{2} k^{2})$ .
Время для выполнения квантового отжига и число повторений можно считать константами (см. комментарии к тому же пункту в обсуждении линейной регрессии).

В итоге получаем полную вычислительную сложность $O (N^{2} k (d + k))$ . Это лучше, чем результат классического алгоритма в худшем случае. Но количество итераций в классическом алгоритме сильно зависит от “удачности” начального приближения для центроидов кластеров. Классический алгоритм может оказаться и быстрее квантового.

Заключение#

В этой лекции были рассмотрены три важные задачи машинного обучения, которые можно переформулировать в виде QUBO (Quadratic Unconstrained Binary Optimization) для решения на квантовом аннилере путем сведения к задаче нахождения основного состояния квантовой системы. Общий подход заключается в том, что минимизируемый в классической формулировке функционал переписывается в виде квадратичной формы относительно бинарных переменных, а вместо условий-ограничений в финальную квадратичную форму QUBO-задачи вводятся штрафы за нарушение этих ограничений. Есть надежда на то, что при некотором количестве кубитов квантовые алгоритмы будут иметь преимущество перед классическими по времени выполнения.

QMLCourse

QUBO-формулировки для линейной регрессии, SVM и метода k-средних

Contents

QUBO-формулировки для линейной регрессии, SVM и метода k-средних#

Описание лекции#

Линейная регрессия#

QUBO-формулировка#

Оценка вычислительной сложности#

SVM#

QUBO-формулировка#

Оценка вычислительной сложности#

Сбалансированная кластеризация методом k-средних#

QUBO-формулировка#

Оценка вычислительной сложности#

Заключение#