電子郵件垃圾過濾
1、如何從文本文檔中構建自己的詞列表。使用正則表達式切分句子,并將字符串全部轉換為小寫。
####################################
# 功能:切分文本
# 輸入變量:大字符串 big_string
# 輸出變量:字符串列表
####################################
def text_parse(big_string):
list_of_tokens = re.split(r'W*', big_string)
return [tok.lower() for tok in list_of_tokens if len(tok) > 2]
2、對貝葉斯垃圾郵件分類器自動化處理。本例中共有50封電子郵件,其中的10封電子郵件被隨機選擇為測試集,剩余部份作為訓練集。通過量次迭代求出平均毛病率來衡量分類器的性能。
####################################
# 功能:垃圾郵件測試
# 輸入變量:空
# 輸出變量:毛病率
####################################
def spam_test():
doc_list = []
class_list = []
for i in xrange(1, 26):
word_list = text_parse(open('email/spam/%d.txt' % i).read())
doc_list.append(word_list)
class_list.append(1)
word_list = text_parse(open('email/ham/%d.txt' % i).read())
doc_list.append(word_list)
class_list.append(0)
vocab_list = create_vocab_list(doc_list)
training_set = range(50)
test_set = []
# 從50封郵件中隨機選擇10封做為測試集,相應的在訓練集中剔除這10封郵件
for i in xrange(10):
rand_index = int(random.uniform(0, len(training_set)))
test_set.append(training_set[rand_index])
del(training_set[rand_index])
train_mat = []
train_classes = []
for doc_index in training_set:
train_mat.append(set_of_words2vec(vocab_list, doc_list[doc_index]))
train_classes.append(class_list[doc_index])
p0v, p1v, p_spam = train_nb0(array(train_mat), array(train_classes))
error_count = 0
# 遍歷測試集,對其中的每封郵件進行分類
for doc_index in test_set:
word_vector = set_of_words2vec(vocab_list, doc_list[doc_index])
if classify_nb(array(word_vector), p0v, p1v, p_spam) != class_list[doc_index]:
error_count += 1
print 'classification error ', doc_list[doc_index]
print 'the error rate is: ', float(error_count)/len(test_set)
3、代碼測試
def main():
spam_test()
if __name__ == '__main__':
main()
上一篇 軟件設計的復雜度
下一篇 Div 內容垂直居中