Роботы, автоматы, роверы, манипуляторы, аватары, теледроид, теслабот, нейролинк

Автор Inti, 03.10.2021 04:03:58

« назад - далее »

0 Пользователи и 3 гостей просматривают эту тему.

Dulevo

Во время игры Го с мастерами - компьютер применил новую стратегию, до него нигде никем никогда не применявшую.

Serge V Iz

Можно упомянуть даже ещё более интересный факт -- машина Альфа-Го, в двух последних версиях, самостоятельно "выработала стратегии", вообще не пользуясь библиотекой записанных игр, а играя их самостоятельно. )

Но, это характеризует сложность, не не так пригодность оценочной функции игры к регрессионному анализу и механическому поиску оптимума. В шахматах, например, более сильными являются программы, в которых много эвристик и много информации "извне".

Inti

Вообще-то главное - результаты - а не кто и как их достигает. То ли гениальный шахматист с помощью супер-творческих озарений и интуиции - то ли тупой компьютер перебором. Кто выигрывает - тот однако и умнее.
Новая Чёрная Дыра с полит-модерацией: https://blackhole.su/index.php?board=16.0
Новая Чёрная Дыра без полит-модерации: http://www.forum--x.ru/index.php?board=1.0

Dulevo

Ну тут же сталкиваются две точки зрения:

1) компьютер туп и выигрывает только за счет скорости перебора огромного числа вариантов.
А у человека - божественная искра озарения (как работает - одному богу известно)

2) И у человека и у современных систем ИИ все происходит примерно одинаково.
Но у человека пока более совершенные алгоритмы, а у компьютера - больше скорость.

nonconvex

Цитата: Dulevo от 04.11.2023 15:14:25Во время игры Го с мастерами - компьютер применил новую стратегию, до него нигде никем никогда не применявшую.
Все наоборот. Мастер-человек применил (сотворил) новую стратегию, и компьютер, сбросив все свои планы начал ходить безопасно, но бессмысленно, проиграв в итоге партию.

Компьютер игры в Го выбирает очередной ход из тысяч ранее сыгранных партий. Человек обычно тоже ходит исходя из опыта, но иногда он придумывает нечто новое, и тогда у компьютера нет шансов.  Компьютер тоже пытается "творить", исходя из стратегии заложенной в него человеком, а именно - пробует случайные варианты. Но астрономическая (экспоненциальная) сложность задачи не позволяет компьютеру находить глобально оптимальное решение. Человеку это иногда удается. Как - неизвестно.

nonconvex

Цитата: Serge V Iz от 04.11.2023 15:48:51Можно упомянуть даже ещё более интересный факт -- машина Альфа-Го, в двух последних версиях, самостоятельно "выработала стратегии", вообще не пользуясь библиотекой записанных игр, а играя их самостоятельно. )
Выработала, случайным образом выбирая варианты. Так называемая рандомизация в RL (Reinforced Learning). Метод давно известный в глобальной оптимизации, никакого машинного чуда тут нет, обычная практика модельеров.

Serge V Iz

Цитата: nonconvex от 04.11.2023 16:55:42
Цитата: Serge V Iz от 04.11.2023 15:48:51Можно упомянуть даже ещё более интересный факт -- машина Альфа-Го, в двух последних версиях, самостоятельно "выработала стратегии", вообще не пользуясь библиотекой записанных игр, а играя их самостоятельно. )
Выработала, случайным образом выбирая варианты. Так называемая рандомизация в RL (Reinforced Learning). Метод давно известный в глобальной оптимизации, никакого машинного чуда тут нет, обычная практика модельеров.
Так я и говорю -- оценочная функция игры удобна для оптимизации структуры сети известными способами. В шахматах так не получается, к сожалению. Возможно, просто потому, что метод оптимизации (или даже тупо удобная форма записи этой функции) еще неизвестен.

nonconvex

Цитата: Serge V Iz от 04.11.2023 16:59:57
Цитата: nonconvex от 04.11.2023 16:55:42
Цитата: Serge V Iz от 04.11.2023 15:48:51Можно упомянуть даже ещё более интересный факт -- машина Альфа-Го, в двух последних версиях, самостоятельно "выработала стратегии", вообще не пользуясь библиотекой записанных игр, а играя их самостоятельно. )
Выработала, случайным образом выбирая варианты. Так называемая рандомизация в RL (Reinforced Learning). Метод давно известный в глобальной оптимизации, никакого машинного чуда тут нет, обычная практика модельеров.
Так я и говорю -- оценочная функция игры удобна для оптимизации структуры сети известными способами. В шахматах так не получается, к сожалению. Возможно, просто потому, что метод оптимизации (или даже тупо удобная форма записи этой функции) еще неизвестен.
В шахматах поменьше пространство состояний, и потому обычные решатели на мощном железе вполне справляются с перебором подпространства. В Го так не получается, потому она и была некой качественно иной категорией, но матч против чемпиона показал что категория не достигнута, и более того, на современном уровне понимания достигнута не будет. И это несмотря на то, что компьютер выиграл матч.

Доказательство:
P != NP

Serge V Iz

Цитата: nonconvex от 04.11.2023 17:07:06в шахматах поменьше пространство состояний

Это не та характеристика, которая мешает шахматистам. ) В структурно более простой задаче (топологии пространства), поиск максимума всюду выпуклой n-мерной функции несложен, даже если n=10^5, 10^6 и т.д. Там пространство общепринятых в компьютерах т.н. вещественных чисел формально, содержит на просто несопоставимо больше десятичных порядков элементов.

А вот поиск корня m-й степени в целочисленном кольце остатков от деления на простое число, меньшее чем 2^n -- проблема уже при m, n порядка 10^3. (И, главное, методы регрессии не помогают от слова "совсем")

nonconvex

Цитата: Serge V Iz от 04.11.2023 17:28:26
Цитата: nonconvex от 04.11.2023 17:07:06в шахматах поменьше пространство состояний

Это не та характеристика, которая мешает шахматистам. ) В структурно более простой задаче (топологии пространства), поиск максимума всюду выпуклой n-мерной функции несложен, даже если n=10^5, 10^6 и т.д. Там пространство общепринятых в компьютерах т.н. вещественных чисел формально, содержит на просто несопоставимо больше десятичных порядков элементов.
Безусловно. Ключевое слово тут - выпуклой. Если еще и непрерывная, так вообще раз чихнуть. Жадные методы имеют линейную от количества переменных сложность.

А вот в невыпуклых самый цимес. Именно в них и умирают распрекрасные ИИ машины.

Serge V Iz

Цитата: nonconvex от 04.11.2023 17:49:41Если еще и непрерывная
Вот и в го имеется прямая и очевидная связь с непрерывностью -- это же игра в окружение непрерывной цепью камней. Единственное усложняющее правило -- "ко", запрет повтора позиции, да и то, не очень-то оно усложняет.

(Кстати, если его отменить, вероятно, станет сложнее -- будут возможны "ничейные", "патовые" позиции, которых придется избегать  ;D )


nonconvex

Цитата: Serge V Iz от 04.11.2023 18:41:44
Цитата: nonconvex от 04.11.2023 17:49:41Если еще и непрерывная
Вот и в го имеется прямая и очевидная связь с непрерывностью
В случае с невыпуклой функцией непрерывность помогает мало. Перебор локальных оптимумов с отходами обратно неизбежен.

Serge V Iz

Цитата: nonconvex от 04.11.2023 19:07:09
Цитата: Serge V Iz от 04.11.2023 18:41:44
Цитата: nonconvex от 04.11.2023 17:49:41Если еще и непрерывная
Вот и в го имеется прямая и очевидная связь с непрерывностью
В случае с невыпуклой функцией непрерывность помогает мало. Перебор локальных оптимумов с отходами обратно неизбежен.
Меня терзают смутные сомнения насчёт требуемого объема перебора. Требуемого, в смысле, по причине невозможности отсечения просто устроенной функцией оценки позиции. Из общего соображения:

Го -- игра в относительно просто устроенное увеличение количества камней (увеличение степени контроля локализованных в кластер игровых полей) на доске.

Шахматы -- игра в более сложно устроенное разнонаправленное  изменение степени контроля игровых полей,  распределённых не так локально.

nonconvex

Цитата: Serge V Iz от 04.11.2023 19:34:22
Цитата: nonconvex от 04.11.2023 19:07:09
Цитата: Serge V Iz от 04.11.2023 18:41:44
Цитата: nonconvex от 04.11.2023 17:49:41Если еще и непрерывная
Вот и в го имеется прямая и очевидная связь с непрерывностью
В случае с невыпуклой функцией непрерывность помогает мало. Перебор локальных оптимумов с отходами обратно неизбежен.
Меня терзают смутные сомнения насчёт требуемого объема перебора. Требуемого, в смысле, по причине невозможности отсечения просто устроенной функцией оценки позиции. Из общего соображения:

Го -- игра в относительно просто устроенное увеличение количества камней (увеличение степени контроля локализованных в кластер игровых полей) на доске.

Шахматы -- игра в более сложно устроенное разнонаправленное  изменение степени контроля игровых полей,  распределённых не так локально.
Функция оценки устроена просто в жадных алгоритмах. К сожалению, игровые модели как правило предполагают перебор длинных вариантов, или графов вариантов, с откатами в случае неоптимального результата, что можно проиллюстрировать выпрыгиванием из локального оптимума.. Вот эти откаты (backtracking) и создают неполиномиальную сложность.

АниКей

А кто не чтит цитат — тот ренегат и гад!

АниКей

А кто не чтит цитат — тот ренегат и гад!

АниКей

А кто не чтит цитат — тот ренегат и гад!

АниКей

А кто не чтит цитат — тот ренегат и гад!

АниКей

А кто не чтит цитат — тот ренегат и гад!

АниКей

А кто не чтит цитат — тот ренегат и гад!