恶意邮件检测系统

基于机器学习的智能垃圾邮件与内容安全检测引擎

扫码体验检测功能

https://nartsuki.online/projects/spam-detector

项目概述

恶意邮件检测系统是一套集垃圾邮件分类与内容安全检测于一体的智能引擎。 采用 Voting Ensemble(投票集成)策略,融合逻辑回归、线性 SVM、朴素贝叶斯和感知机四种算法, 在 SMS Spam Collection 数据集上达到 98.74% 的测试准确率。 同时内置多级内容安全检测引擎,支持 DFA 关键词匹配、文本规范化、拼音匹配和正则检测, 覆盖辱骂、色情、暴力、欺诈、广告推广等 5 大类有害内容。

核心功能

📧

垃圾邮件分类

Voting Ensemble 四模型投票,LR + SVM + NB + Perceptron 集成学习

🛡

内容安全检测

DFA 关键词匹配 + 文本规范化 + 拼音检测 + 正则匹配,五级防护

客户端推理

模型导出为 JSON,浏览器端完成全部推理,无需后端服务

🎯

多维度分析

覆盖辱骂、色情、暴力、欺诈、广告推广 5 大有害内容类别

📊

实时历史记录

检测结果实时累积展示,支持安全/风险分类统计

🥚

隐藏彩蛋

输入特定网络热梗触发屏幕震动 + 字符飘落视觉特效

技术架构

模型层

ML Pipeline

Python scikit-learn 训练 VotingClassifier,导出权重为 JSON。 TF-IDF 向量化 + 四分类器硬投票,支持客户端实时推理。

Pythonscikit-learnTF-IDFVotingClassifier
检测层

Safety Engine

多级内容安全检测:DFA 高效匹配 → 文本规范化 → 拼音转换 → 正则覆盖, 393+ 敏感词覆盖 5 大有害类别。

DFA拼音匹配正则引擎5 大类别
展示层

Next.js Frontend

React 客户端组件,模型数据 fetch + 浏览器端推理,QR 码扫码体验, 暗桩彩蛋视觉特效系统。

Next.jsReactTypeScriptQR Code
更多项目 →