Sở Giáo dục và Đào Tạo Bến Tre

Một giải pháp chặn tin nhắn rác cho ĐTDĐ

Email In PDF.
 
Mấy hôm nay đọc báo, thấy tình trạng tin nhắn rác rộ lên, bản thân tôi cũng nhận một số tin nhắn “không mong muốn” này và rất bực mình. Cách đây khá lâu, tôi có ý tưởng và biện pháp chặn (lọc) tin nhắn quảng cáo (tin nhắn rác).

Xin nói ngay, ý tưởng lọc tin nhắn rác của tôi cũng tương tự như ý tưởng lọc spam mail vốn đã được ứng dụng rộng rãi, bằng cách sử dụng giải thuật học Naive Bayes (tức Bayes “ngây thơ”), hiện nay hầu hết các hệ thống e-mail đều sử dụng.

Tin nhắn rác hay spam mail đều có một đặc điểm chung, là chứa các từ mà ý nghĩa của chúng nói lên rằng chúng là “rác”. Giải thuật học Bayes (Bayesian learning) được sử dụng chính là để “học” đặc trưng này. Sau đây xin trình bày sơ lược về ý tưởng:

Công việc cần làm cũng khá đơn giản, đó là lấy một số tin nhắn đã được xác định là rác rồi tính xác suất xuất hiện của tất cả các từ trong đó (chẳng hạn nếu có từ “khuyến” và từ “mãi”  (khuyến mãi) thì khả năng tin nhắn đó là rác rất cao). Sau đó lấy một số tin nhắn đã được xác định không phải rác và cũng làm tương tự. Hai tập tin nhắn trên gọi là 2 tập huấn luyện. Từ 2 kết quả đó ta sẽ tính ra mức-độ-là-rác (spamicity) của một từ bất kỳ. Về sau, khi nhận được tin nhắn mới, ta sẽ dùng giá trị spamicity đó để tính xác suất là rác của tin nhắn này bằng công thức Bayes. Nếu xác suất đó là cao thì có thể kết luận nó là rác và ngược lại. Đó là ý tưởng chung, còn chi tiết giải thuật học Naive Bayes như thế nào xin không trình bày ở đây.

Các hệ thống e-mail đều dùng các máy tính rất mạnh để lọc vì e-mail dài và gồm nhiều từ. Còn tin nhắn rác ở nước ta được cấu thành từ những từ tiếng Việt không dấu và có độ dài thường không quá 160 ký tự (giới hạn của 1 tin nhắn), nên số lượng từ chỉ khoảng 20-40 từ/tin nhắn, và tổng số tất cả các từ có thể xuất hiện (trong từ điển tin nhắn rác) cũng không nhiều. Do đó chỉ cần khả năng tính toán của chiếc điện thoại cũng có thể thực hiện tốt công việc lọc. Hiện tôi đã xây dựng thành công mã nguồn của phần nhân bộ lọc và kết quả kiểm thử trên máy tính rất khả quan (lọc được hơn 90% tin nhắn có nội dung quảng cáo).

Với ý tưởng này ta có thể cài đặt phần mềm lọc cho từng chiếc ĐTDĐ, hoặc các nhà mạng cũng có thể cài đặt bộ lọc trên hệ thống truyền nhận tin nhắn của mình. Nếu được phát triển bởi nhà mạng, tức được cài đặt vào máy chủ, bộ lọc có thể được xây dựng theo một cách phức tạp hơn (thêm một số heuristic) nhằm cho kết quả chính xác hơn vì khả năng tính toán của máy chủ mạnh hơn ĐTDĐ rất nhiều.