Phân tích tần suất
Các từ và ký tự hàng đầu trong văn bản của bạn
Tần suất từ cho bạn biết điều gì?
Phân tích tần suất cho thấy những từ nào xuất hiện thường xuyên nhất trong một đoạn văn bản. Đây là hình thức khai thác văn bản đơn giản nhất — được sử dụng cho nghiên cứu từ khóa SEO (các thuật ngữ nào chiếm ưu thế trên trang của đối thủ), để xác định các từ thừa mà bạn sử dụng quá nhiều trong viết lách, và để kiểm tra lại chủ đề của một tài liệu dài trước khi đọc nó.
Các từ được chuẩn hóa thành chữ thường và loại bỏ dấu câu xung quanh, vì vậy 'Hello,' và 'hello' được tính là cùng một từ. Các từ dừng (the, a, of, and, v.v.) được giữ lại — hãy lọc trước đầu vào của bạn nếu bạn muốn chúng bị loại bỏ.
Trường hợp sử dụng
- Phân tích văn bản để tìm sự lặp lại — đếm xem mỗi từ xuất hiện bao nhiêu lần trong một bài luận hoặc bản sao phát biểu.
- Xây dựng đám mây từ — nhập một đoạn văn để lấy các từ hàng đầu cho một trình tạo đám mây thẻ.
- Kiểm tra đầu ra AI — đếm số lần lặp lại để phát hiện xem một mô hình có quá chú trọng vào một cụm từ nào không.
- Giải mã các mã đơn giản — phân tích tần suất chữ cái cho các câu đố mã thay thế hoặc thử thách CTF.
Ví dụ
The quick brown fox jumps over the lazy dog. The dog barks.the 3
dog 2
quick 1
brown 1
fox 1
...Câu hỏi thường gặp
Các từ có phân biệt chữ hoa chữ thường không?
Không. 'Hello' và 'hello' được tính là cùng một từ. Việc viết hoa được chuẩn hóa trước khi đếm.
Các từ dừng có bị lọc không?
Không — các từ phổ biến như 'the', 'a', 'of' được bao gồm. Nếu bạn muốn chúng bị loại trừ, hãy loại bỏ chúng khỏi đầu vào của bạn trước.
Ranh giới từ được phát hiện như thế nào?
Khoảng trắng và dấu câu. Các từ ghép như 'long-term' được giữ lại như một từ; các từ viết tắt như 'don't' cũng là một từ.
Có giới hạn nào về kích thước đầu vào không?
Chỉ có bộ nhớ của trình duyệt của bạn. Bộ đếm xử lý hàng chục nghìn từ một cách thoải mái; các văn bản nhiều megabyte có thể làm chậm giao diện một chút.
Có điều gì rời khỏi trình duyệt của tôi không?
Không — phân tích hoàn toàn diễn ra trên thiết bị của bạn. Không cần tải lên, không xử lý trên máy chủ, không có dữ liệu theo dõi.
