发布于2019-08-06 10:27 阅读(1036) 评论(0) 点赞(3) 收藏(1)
from sklearn import feature_extraction
f = feature_extraction.text.CountVectorizer()
CountVectorizer将文本中的词转化为词频矩阵,数值为0/1,是关键字则为1。
from sklearn.feature_extraction.text import CountVectorizer corpus = [ 'This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document?', ] '''CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵 get_feature_names()可看到所有文本的关键字 vocabulary_可看到所有文本的关键字和其位置 toarray()可看到词频矩阵的结果''' vectorizer = CountVectorizer() count = vectorizer.fit_transform(corpus) print(vectorizer.get_feature_names()) print(vectorizer.vocabulary_) print(count.toarray()) print(count.toarray().shape) #词频矩阵:向量长度(横向每一行):所有关键字的数量(设为m) 数值:0/1数值==出现、未出现 纵向长度:文档数量 #需要注意关键字又有自己的位置,所以文档中的某一句有m长,该句中某个位置上是关键字的会标注为1. ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this'] {'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4} [[0 1 1 1 0 0 1 0 1] [0 1 0 1 0 2 1 0 1] [1 0 0 0 1 0 1 1 0] [0 1 1 1 0 0 1 0 1]] (4, 9)
作者:加班是一种习惯
链接:https://www.pythonheidong.com/blog/article/7674/7df1316c58d42ac9bea4/
来源:python黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 python黑洞网 All Rights Reserved 版权所有,并保留所有权利。 京ICP备18063182号-1
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!