yukicoder No.956 Number of Unbalanced

https://yukicoder.me/problems/no/956

問題概要

N要素の正数列Aが与えられる。Aのすべての連続する部分列のうち、ある種類の要素が部分列の過半数を占めているものが何通りあるか求めよ。

N <= 105

解法

想定解はO(NlogN)だったが、O(N{\sqrt{N}})で解いたので書き残しておく。このやり方では数列中に出現する数を「出現回数が{\sqrt{N}}以上か未満か」で2つに分けたうえで、それぞれを独立に解く。基本的な方針は以下のようになる。

  • (1) 出現回数が{\sqrt{N}}未満の場合、その数が中央値になり得る区間長はたかだか2*{\sqrt{N}}なので、そこまでの各区間長について個別にO(N)で処理する。
  • (2) 出現回数が{\sqrt{N}}以上の場合、そのような数はたかだか{\sqrt{N}}種類までしかありえないので、それぞれの数をO(N)で処理する。

(1) 出現回数が{\sqrt{N}}未満の数の場合

この場合は条件を満たす数をまとめて処理していくことにする。具体的には上の通り区間長1〜2*{\sqrt{N}}の場合についてそれぞれ個別にアンバランスになる区間の数をかぞえていく。これはローリングハッシュとかでよくやるように区間をひとつずつずらしながら「現在見ている区間における各数の出現回数」を管理していけばよい。管理のためには一個の配列を持っていれば十分で、区間をずらしたときに外れた数を-1, 入ってきた数を+1するだけ。そしてこの足し引きの結果ちょうど過半数に到達したか、あるいは逆にちょうど過半数を下回ったかを見ていれば「現在見ている区間がアンバランスか」は容易に判定できる。

区間長がO({\sqrt{N}})個で、各区間長をO(N)で処理できるので、全体の計算量はO(N{\sqrt{N}})となる。

(2) 出現回数が{\sqrt{N}}以上の数の場合

この条件に当てはまる数はたかだか{\sqrt{N}}個しかないため、それぞれの数について個別に考えていくことにする。解くべき問題は「xかそれ以外かで埋まった数列が与えられる。xが過半数を占める区間は何通りか」である。

ひとつのやり方として、これはxを1, それ以外を-1とみなして累積和をとることで効率的に求めることができる。この変換によって ある区間でxが過半数区間和が正 となるので、累積和テーブルを左から見ていって「過去の値の中で今見ている値より小さいものが何個あるか」を逐一数え上げていけばよい。これは素朴にやろうとするとsetとかでlogがついてしまうが、ここで考えている数列の「+1か-1しかない」という性質を使うと各インデックスにつきO(1)で済ますことができる。要は「累積和テーブルにおいて今見ている値より小さい値の出現回数」がわかっていればいいので、「今見ている値」「今見ている値より小さい値の出現回数」「それぞれの値が何回出現したかをすべて覚えておくテーブル」を用意しておいたうえで、累積和テーブルを1進んだときにそれぞれをよしなに足し引きしてやればよい(+1の場合「今見ている値」は+1, 「今見ている値より小さい値の出現回数」は+table[今見ている値-1], テーブルはtable[今見ている値] += 1. いう感じ)。あとはこの処理のあと毎回「今見ている値より小さい値の出現回数」を答えに足し込んでいけば答えが求まる。

数の種類が{\sqrt{N}}, 各数の処理がO(N) なのでこれもO(N{\sqrt{N}})となり、(1)(2)あわせて全体としても結局O(N{\sqrt{N}})となる。だいたい配列を舐めながら一時変数を弄っているだけなのでC++なら定数倍も軽く済む。

感想

sqrt(N)を機械的にマークダウンのtexでくるんだらキモい表示になってしまった

想定解まだちゃんとわかってないけど高速化のために使っている性質は同じっぽい?

コード (C++)

#include <bits/stdc++.h>
using namespace std;
#define REP(i,n) for (int i=0;i<(n);i++)
#define REP2(i,m,n) for (int i=m;i<(n);i++)
typedef long long ll;

const int SQ = 320;
const int OFFSET = 101010;

int N;
int A[101010];
int B[101010];
int C[101010];
ll D[202020];
int E[101010];
int cnt[101010];

void solve() {
    cin >> N;
    REP(i, N) cin >> A[i];
    REP(i, N) cnt[A[i]] += 1;

    vector<int> less, much;
    REP(i, 101010) if (cnt[i] > 0) (cnt[i] < SQ ? less : much).push_back(i);
    REP(i, N) (cnt[A[i]] < SQ ? B[i] : C[i]) = A[i];

    int L = less.size();
    int M = much.size();
    ll ans = 0;

    REP2(len, 1, min(N+1, SQ*2)) {
        for (auto a : less) {
            E[a] = 0;
        }
        bool ok = false;
        const int half = len / 2 + 1;
        REP(i, len) if (B[i] != 0) {
            E[B[i]] += 1;
            if (E[B[i]] == half) ok = true;
        }
        ans += ok;
        REP2(i, 1, N-len+1) {
            if (i > 0 && B[i-1] != 0) {
                if (E[B[i-1]] == half) ok = false;
                E[B[i-1]] -= 1;
            }
            if (B[i+len-1] != 0) {
                E[B[i+len-1]] += 1;
                if (E[B[i+len-1]] == half) ok = true;
            }
            ans += ok;
        }
    }

    for (const auto a : much) {
        memset(D, 0, sizeof(D));
        int pointer = OFFSET;
        ll counter = 0; // pointer 未満の合計
        D[OFFSET] += 1;
        REP(i, N) {
            if (A[i] == a) {
                pointer += 1;
                counter += D[pointer - 1];
            } else {
                counter -= D[pointer - 1];
                pointer -= 1;
            }
            D[pointer] += 1;
            ans += counter;
        }
        //cout << pointer - OFFSET << " " << counter << " " << D[pointer] << endl;
    }

    cout << ans << endl;
}

int main() {
    cin.tie(0);
    ios::sync_with_stdio(false);
    solve();
}