日本搞逼视频_黄色一级片免费在线观看_色99久久_性明星video另类hd_欧美77_综合在线视频

<tt id="kmj3a"><b id="kmj3a"><noframes id="kmj3a"></noframes></b></tt>

<var id="kmj3a"></var>

國內最全IT社區平臺聯系我們 | 收藏本站

阿里云優惠2

您當前位置：首頁 > 服務器 > 機器學習--樸素貝葉斯算法案例

機器學習--樸素貝葉斯算法案例

來源：程序員人生發布時間：2015-05-19 08:05:24 閱讀次數：2641次

電子郵件垃圾過濾

1、如何從文本文檔中構建自己的詞列表。使用正則表達式切分句子，并將字符串全部轉換為小寫。

####################################
# 功能：切分文本
# 輸入變量：大字符串 big_string
# 輸出變量：字符串列表
####################################
def text_parse(big_string):

list_of_tokens = re.split(r'W*', big_string)
return [tok.lower() for tok in list_of_tokens if len(tok) > 2]

2、對貝葉斯垃圾郵件分類器自動化處理。本例中共有50封電子郵件，其中的10封電子郵件被隨機選擇為測試集，剩余部份作為訓練集。通過量次迭代求出平均毛病率來衡量分類器的性能。

####################################
# 功能：垃圾郵件測試
# 輸入變量：空
# 輸出變量：毛病率
####################################
def spam_test():

doc_list = []
class_list = []

for i in xrange(1, 26):

        word_list = text_parse(open('email/spam/%d.txt' % i).read())
        doc_list.append(word_list)
        class_list.append(1)

        word_list = text_parse(open('email/ham/%d.txt' % i).read())
        doc_list.append(word_list)
        class_list.append(0)

    vocab_list = create_vocab_list(doc_list)
    training_set = range(50)
    test_set = []

# 從50封郵件中隨機選擇10封做為測試集，相應的在訓練集中剔除這10封郵件
for i in xrange(10):

        rand_index = int(random.uniform(0, len(training_set)))
        test_set.append(training_set[rand_index])
        del(training_set[rand_index])

train_mat = []
train_classes = []

for doc_index in training_set:

train_mat.append(set_of_words2vec(vocab_list, doc_list[doc_index]))
train_classes.append(class_list[doc_index])

p0v, p1v, p_spam = train_nb0(array(train_mat), array(train_classes))

error_count = 0

    # 遍歷測試集，對其中的每封郵件進行分類
    for doc_index in test_set:
        word_vector = set_of_words2vec(vocab_list, doc_list[doc_index])
        if classify_nb(array(word_vector), p0v, p1v, p_spam) != class_list[doc_index]:
            error_count += 1
            print 'classification error ', doc_list[doc_index]
    print 'the error rate is: ', float(error_count)/len(test_set)

3、代碼測試

def main():

spam_test()
if __name__ == '__main__':
main()

生活不易，碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

程序員人生

------分隔線----------------------------

上一篇 軟件設計的復雜度

下一篇 Div 內容垂直居中

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關注

欄目熱點

程序員人生

主站蜘蛛池模板： av网站免费| 91麻豆国产精品 | 欧美三级在线 | 亚洲福利一区二区 | 欧美日韩国产精品一区 | 成人国产一区 | 国产福利专区 | 婷婷久| 91成人在线播放 | 精品欧美一区二区久久久伦 | 亚洲精品网站免费 | 国产成人精品一区二区三区网站观看 | 日韩精品免费一区二区夜夜嗨 | 51社区在线成人免费视频 | 精品伊人久久久久7777人 | 国产精品美女久久 | 免费a级人成a大片在线观看 | 91精品国产自产91精品 | 欧美日韩亚洲不卡 | 夜夜福利 | 国产亚洲网站 | 日韩在线视频一区 | 日韩福利在线 | 69视频播放 | av色资源| 欧美精品一区二区三区一线天视频 | 99热这里只有精品2 国产福利在线导航 | 亚洲精品国产一区 | 国产在线导航 | 国产精品久久久久久影视 | 欧美日韩精品综合 | 日本99精品 | swag国产精品一区二区 | 九九导航 | 久久精品国产亚洲 | 免费在线看a | 性久久久久久 | 国产精品99久久久久久似苏梦涵 | 亚洲成人毛片 | 亚洲精品大片www | 久久亚洲美女 |

<small id="3xzca"></small>

<sup id="3xzca"><b id="3xzca"></b></sup>

<var id="3xzca"></var><tt id="3xzca"><b id="3xzca"></b></tt>

<var id="3xzca"></var>