[将棋]終盤の理論

終盤の理論に関するアイデアを書いていく。
ここで出てくる用語は独自のものなので他では通じないので注意。

世界線

世界線とは将棋のルールが異なる世界を示している。
我々がいる世界線のことをα世界線という。

β世界線: 打ち歩詰めが合法の世界線
γ世界線: 詰みが引き分けとなる世界線
リーディングシュタイナー: 他の世界線での探索結果を利用する。

γ世界線を学習させるには詰みを積極的に狙いに行ってはいけないので、
詰ました場合の評価値を0にして宣言勝ちを目指すようにする。
詰まされた場合の評価値は-∞にしてわざと詰みを目指さないようにする。
リーディングシュタイナーの具体案はまだない。

玉の堅さを表す数式

まず補助関数としてdf関数を定義する。

df関数の絶対値が小さい時、その局面は難しいといえる。
df関数が指数的減衰なのは探索nodeが増えるほど精度上昇が僅かになることを表している。

次に局面Pの近傍を定義する。

局面Pでの相手玉の堅さを近傍とdf関数を使って定義する。

df関数が正になる局面が存在すれば詰みがあり,
その絶対値の大きさで難度を評価する.
そこに至るまでの距離は近傍で評価できる.
これらを合わせると

自玉の堅さはnull move後の相手玉の堅さを求めればそれである。

詰みベクトル

局面の持ち駒に対する滑らかさを表す。

自分(相手)の持ち駒に飛(角,金,銀,桂,香,歩)が1枚増えた(減った)局面が詰むかどうかを並べたベクトル。
2*7*2=28に元の局面の詰みを加えた29次元のベクトルになる。

近傍の詰みベクトルの変化を計算するなんてことは計算量的にとても無理。

この記事が気に入ったらサポートをしてみませんか?