Analisis Kekerapan
Perkataan dan aksara teratas dalam teks anda
Apa yang kekerapan perkataan beritahu anda?
Analisis kekerapan menunjukkan perkataan mana yang muncul paling kerap dalam satu badan teks. Ini adalah bentuk paling mudah bagi perlombongan teks — digunakan untuk penyelidikan kata kunci SEO (perkataan mana yang mendominasi halaman pesaing), untuk mengenal pasti perkataan pengisi yang anda gunakan berlebihan dalam penulisan, dan untuk menyemak topik dokumen panjang sebelum membacanya.
Perkataan dinormalisasi kepada huruf kecil dan dibersihkan daripada tanda baca sekeliling, jadi 'Hello,' dan 'hello' dikira sebagai perkataan yang sama. Perkataan henti (the, a, of, and, dll.) disimpan — tapis input anda terlebih dahulu jika anda mahu mereka dibuang.
Kes penggunaan
- Analisis pengulangan teks — kira berapa kerap setiap perkataan muncul dalam esei atau transkrip ucapan.
- Bina awan perkataan — masukkan perenggan untuk mendapatkan token teratas bagi penjana awan tag.
- QA output AI — kira pengulangan untuk mengesan jika model terlalu bergantung pada satu frasa.
- Pecahkan sifer ringkas — analisis kekerapan huruf untuk teka-teki sifer penggantian atau cabaran CTF.
Contoh
The quick brown fox jumps over the lazy dog. The dog barks.the 3
dog 2
quick 1
brown 1
fox 1
...Soalan yang sering ditanya
Adakah perkataan sensitif kepada kes?
Tidak. 'Hello' dan 'hello' dikira sebagai perkataan yang sama. Penulisan besar dinormalisasi sebelum pengiraan.
Adakah perkataan henti ditapis?
Tidak — perkataan biasa seperti 'the', 'a', 'of' termasuk. Jika anda mahu mereka dikecualikan, buang mereka dari input anda terlebih dahulu.
Bagaimana sempadan perkataan dikesan?
Ruang kosong dan tanda baca. Perkataan yang dipisahkan dengan tanda hubung seperti 'long-term' dikekalkan sebagai satu token; kontraksi seperti 'don't' juga satu token.
Adakah terdapat had pada saiz input?
Hanya memori pelayar anda. Pengira mengendalikan puluhan ribu perkataan dengan selesa; teks berbilang megabait mungkin melambatkan UI seketika.
Adakah apa-apa yang keluar dari pelayar saya?
Tidak — analisis dijalankan sepenuhnya pada peranti anda. Tiada muat naik, tiada pemprosesan pelayan, tiada telemetri.
