Kompleksitas persimpangan bahasa biasa sebagai tata bahasa bebas konteks

Diberikan reguler , apakah ada batasan non-sepele pada ukuran tata bahasa bebas konteks terkecil untuk ? $R_1, \dots, R_n$ $R_1 \cap \cdots \cap R_n$

fl.formal-languages regular-language context-free

— Maks
sumber

??? mencoba memvisualisasikan ini. apakah ada trik? persimpangan adalah biasa. seseorang dapat menemukan DFA minimal (hitungan status negara) melalui metode standar yang juga merupakan CFG.

R_{n}

$R_n$

— vzn

@ vz: Anda benar. Masalahnya adalah bahwa DFA ini, dan karenanya CFG, bisa sangat besar. Saya ingin tahu apakah seseorang dapat menggunakan kekuatan ekstra CFG untuk mendapatkan deskripsi persimpangan yang lebih ringkas.

— Maks.

dugaan tidak. mencurigai bahwa setiap CFL yang mengenali (yaitu setara dengan) suatu RL tidak menggunakan tumpukan atau dapat dikonversi ke yang tidak memiliki peningkatan di negara, dan minimum seperti PDA (jumlah negara wrt) adalah ukuran yang sama dengan minimal DFA. belum pernah mendengar / melihat bukti dari ini. itu mungkin tidak sulit? pertanyaan sederhana, apakah ada setiap PDA yang mengakui RL yang lebih kecil dari DFA? pikir tidak.

— vzn

@vzn: Dugaan yang berguna, tetapi salah: misalkan menjadi himpunan bagian dari bahasa Dyck pada dua jenis kurung di mana kedalaman bersarang maksimum . Ada CFG untuk ukuran , tetapi DFA minimal (bahkan, saya pikir, NFA minimal) memiliki ukuran .

L_{k}

$L_k$

k

$k$

L_{k}

$L_k$

O (k)

$O(k)$

O (2^{k})

$O(2^k)$

— Maks.

Bahasa Dyck adalah CFL tetapi bukan RL ...? tetapi melihat Anda membatasi kedalaman bersarang maksimum ... jadi bisakah Anda membangun bahasa yang sama dengan persimpangan RL? apa / di mana buktinya bahwa DFA minimal adalah sebesar itu? apakah itu menyatakan ? Anda tidak mendefinisikan kriteria minimal atau di tempat lain & menganggap negara sebagai kasus alami tetapi seringkali bukan satu-satunya.

O (2^{k})

$O(2^k)$

— vzn

Jawaban:

Ini adalah pertanyaan yang bagus dan benar-benar terletak pada minat saya. Saya senang Anda menanyakannya, Max.

Biarkan DFA dengan paling banyak menyatakan masing-masing diberikan. Akan lebih baik jika ada PDA dengan banyak negara sub-eksponensial yang menerima persimpangan bahasa DFA. Namun, saya menyarankan bahwa PDA seperti itu mungkin tidak selalu ada. $n$ $O(n)$

Pertimbangkan bahasa salin. Sekarang, batasi untuk menyalin string dengan panjang n.

Secara formal, pertimbangkan copy . $n$ $:=$ $\{ xx \, | \, x \in \{0,1\}^{n}\}$

Kita dapat merepresentasikan copy sebagai persimpangan DFA dengan ukuran paling banyak . Namun, DFA terkecil yang menerima -copy memiliki status. $n$ $n$ $O(n)$ $n$ $2^{\Omega(n)}$

Demikian pula, jika kita membatasi diri pada alfabet tumpukan biner, maka saya curiga bahwa PDA terkecil yang menerima copy memiliki banyak keadaan secara eksponensial. $n$

PS Jangan ragu untuk mengirim saya email jika Anda ingin membahas lebih lanjut. :)

— Michael Wehar
sumber

Saya tidak berpikir bahwa ada batas bawah atau atas non-sepele.
Untuk batas bawah, pertimbangkan bahasa untuk tetap . Ukuran tata bahasa bebas konteks terkecil adalah logaritmik dalam ukuran ekspresi reguler , sedangkan ukuran otomat terkecil untuk adalah linier dalam ukuran regex . Perbedaan eksponensial ini tetap sama jika kami memotong dengan bahasa lain seperti itu. Untuk batas atas, pertimbangkan bahasa yang terdiri dari tepat satu deBruijn-Urutan panjang . Diketahui bahwa ukuran tata bahasa terkecil untuk $L_1 = \{ a^{2^k} \}$ $k$ $L_1$ $L_1$ $L_1$ $L_1$
$L_2$ $n$ $L_2$ adalah yang terburuk, yaitu , jadi perbedaan dengan otomat "terkecil" untuk hanyalah faktor logaritma, proposisi 1 dalam $O\left( \frac{n}{\log n} \right)$ $L_2$

D. Hucke, M. Lohrey, E. Noeth Membangun Tata Bahasa Pohon Kecil dan Sirkuit Kecil untuk Rumus , untuk muncul di FSTTCS 2014

Batas bawah atau batas atas non-trivial umum akan bertentangan dengan hasil tersebut, karena apa yang benar untuk persimpangan bahasa harus benar untuk persimpangan bahasa. $n$ $1$

— john_leo
sumber

Pernyataan tentang ukuran tata bahasa terkecil untuk deBruijn-Sequence tunggal cukup menarik. Bisakah Anda memberikan referensi. Terima kasih.

— Michael Wehar

Juga, saya bisa saja salah, tetapi tampaknya Anda hanya mengatasi masalah untuk ekspresi reguler tunggal (bukan produk ekspresi reguler)?

— Michael Wehar

@MichaelWehar Yap, saya hanya mempertimbangkan satu ekspresi reguler. Karena jika harus benar untuk persimpangan

bahasa, maka itu pasti benar untuk persimpangan sepele. Saya tidak tahu bagaimana merumuskan kembali pertanyaan untuk mengecualikan kasus-kasus ini. Saya menambahkan referensi, seharusnya segera melakukannya, maaf.

n

$n$

— john_leo

Terima kasih! Anda dapat menggambarkan contoh spesifik. Berikut ini adalah komentar sederhana yang mengarah pada keberadaan contoh-contoh tersebut. Biarkan n diberikan. Ada 2 string panjang n. Juga, tidak ada lebih dari 2 ^ n mesin Turing dengan paling banyak n / log (n) menyatakan. Oleh karena itu, beberapa string x dengan panjang n sehingga tidak ada mesin Turing dengan kurang dari n / log (n) menyatakan menerima bahasa {x}. Oleh karena itu, {x} diterima oleh DFA dengan status n dan tidak dapat diterima oleh PDA dengan status kurang dari n / log (n).

— Michael Wehar

Biarkan saya yang kedua penilaian Michael, ini memang pertanyaan yang menarik. Gagasan utama Michael dapat dikombinasikan dengan hasil dari literatur, sehingga memberikan batas bawah yang sama dengan bukti yang kuat.

Saya akan merujuk batasan pada ukuran CFG dalam hal jumlah total simbol alfabet dalam ekspresi reguler. Biarkan nomor ini dilambangkan dengan . (Seperti yang dicatat john_leo, kami tidak akan menemukan batasan yang berguna dalam hal jumlah ekspresi reguler yang mengambil bagian dalam persimpangan.) $n$ $k$

Baik OP maupun Michael tidak merasa perlu untuk menyebutkan ini, tapi batas atas (jumlah negara) untuk mengkonversi sebuah persimpangan dari ekspresi reguler menjadi NFA dapat dengan mudah dibuktikan. Sebagai catatan, ini dia: Konversi ekspresi reguler ke Glushkov automata, yang semuanya tidak dapat dikembalikan. Kemudian terapkan konstruksi produk untuk mendapatkan NFA untuk persimpangan bahasa-bahasa ini. (Saya kira bahwa seseorang dapat meningkatkan terikat untuk atau lebih.) Sebuah NFA -state dapat dikonversi menjadi tata bahasa yang benar-linear (yang merupakan kasus khusus dari CFG a) ukuran $2^{k+1}$ $2^k+1$ $s$ $O(s^2)$ (jika kita mengukur ukuran tata bahasa sebagai jumlah total simbol di sisi kiri dan kanan produksi), maka memberikan ukuran . Batas ini tentu saja terdengar mengerikan jika Anda memiliki aplikasi praktis dalam pikiran. Mencoba untuk membuktikan ikatan yang lebih baik menggunakan kompleksitas transisi nondeterministic daripada kompleksitas state nondeterministic untuk memperkirakan ukuran NFA mungkin sepadan dengan usaha. $O(4^{k})$

Bagian lainnya adalah menemukan bahasa saksi yang dapat secara ringkas diekspresikan sebagai persimpangan ekspresi reguler, tetapi tentu tidak praktis untuk dijelaskan dengan CFG. (Di sini kita perlu membuat batasan yang lebih rendah pada ukuran semua CFG yang menghasilkan bahasa, yang jumlahnya bisa sangat banyak.) Argumen berikut memberikan batas bawah. $2^{\Omega(\sqrt{k}/\log k)}$

Pertimbangkan bahasa terbatas , di mana menunjukkan pembalikan dari . Kemudian dapat diekspresikan sebagai persimpangan dari ekspresi reguler berikut: $L_n = \{\,ww^Rw \in \{a,b\}^*\mid |w|=n\,\}$ $w^R$ $w$ $L_n$ $2n+1$

, untuk $r_i = (a+b)^ia(a+b)^{2(n-i-1)}a(a+b)^*+(a+b)^ib(a+b)^{2(n-i-1)}b(a+b)^*$ ; $1\le i \le n$
, untuk $s_i = (a+b)^*a(a+b)^{2(n-i-1)}a(a+b)^i+(a+b)^*b(a+b)^{2(n-i-1)}b(a+b)^i$ ; $1\le i \le n$
$\ell = (a+b)^{3n}$

Jumlah total simbol alfabet di persimpangan ekspresi ini adalah dalam . $k$ $O(n^2)$

Menggunakan argumen yang diberikan dalam bukti Teorema 13 dalam ( 1 ), orang dapat membuktikan bahwa setiap CFG asiklik yang menghasilkan harus memiliki setidaknya $L_n$ variabel yang berbeda, jika sisi kanan setiap aturan memiliki panjang paling banyak. Kondisi terakhir diperlukan untuk memperdebatkan jumlah variabel, karena kita dapat menghasilkan bahasa yang terbatas dengan satu variabel. Tetapi dari perspektif ukuran tata bahasa, kondisi ini sebenarnya bukan batasan, karena kita dapat mengubah CFG menjadi bentuk ini hanya dengan ukuran linear, lihat (2). Perhatikan bahwa bahasa yang digunakan oleh Arvind et al. lebih dari alfabet ukuran, dan ini menghasilkan batas; tetapi argumen tersebut tetap dengan modifikasi yang jelas. $2^n/(2n) = 2^{\Omega(\sqrt{k}/\log k)}$ $2$ $n$ $n^n/(2n)$

Namun, masih ada celah besar antara dan batas bawah yang disebutkan di atas. $O(4^n)$

Referensi:

V. Arvind, Pushkar S. Joglekar, Srikanth Srinivasan. Sirkuit Aritmatika dan Produk Hadamard dari Polinomial , FSTTCS 2009, Vol. 4 LIPIcs, hlm. 25-36
Lange, Martin; Leiß, Hans (2009). " Ke CNF atau tidak ke CNF? Versi Algoritma CYK yang Efisien dan Mudah Digunakan ". Informatica Didactica 8.

— Hermann Gruber
sumber