+关注
已关注

分类  

暂无分类

标签  

暂无标签

日期归档  

暂无数据

搜索完全由词根列表组成的词

发布于2020-09-10 01:29     阅读(1039)     评论(0)     点赞(8)     收藏(4)


我一般都不熟悉编码,现在认为这是个自学Python的好时机。

我目前试图实现的是确定一个单词列表,这些单词列表完全由我将选择的一组可变的词根,音节,前缀和后缀组成。

到目前为止,这是我要做的。

from nltk.corpus import words as english

vocab = set(w.lower() for w in english.words())

syllables = ('in', 'con', 'sis', 'tent', 'tant', 'si', 'ate', 'der', 'ing', 'a', 'c', 't')

syl_set=set(syllables)

for word in vocab:

    if all(x in syl_set for x in set(word)):

        print (word)

在下载了单词语料库的NLTK安装的帮助下,我可以搜索英语单词列表并输出由我的音节列表(如上所示)中的单个字母组成的单词列表,例如cat,tact 。

但是,这不会输出由比一个字母长的字符串组成的单词,例如一致,体贴。

有人可以解释一下为什么不使用这些多字母字符串来查找可以拼出的单词吗?同样,任何有关如何解决此问题的建议也将不胜感激。

谢谢,马库斯


解决方案


好吧,原因是您只是在寻找单个字符。看看这部分:for x in set(word)这一次遍历所有的字母集合中的所有字符包含在word

看一下结果

[x for x in set(word)]

明白我的意思。

解决这个问题可能很棘手。将单词拆分为音节比将其拆分为字符更困难。



所属网站分类: 技术文章 > 问答

作者:黑洞官方问答小能手

链接: https://www.pythonheidong.com/blog/article/515048/

来源: python黑洞网

任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任

8 0
收藏该文
已收藏

评论内容:(最多支持255个字符)