私は、さまざまなソースから膨大な数の名前を持っています。文章クラスタリング
- 私はすべてのグループ(名前の一部)を抽出する必要があります。 以下の例では、プログラムは、郵便局、郵便局、郵便局を探す必要があります。
- 私は人気のカウントを取得する必要があります。
だから、人気のあるフレーズのリストでソートしたいと思います。ここで
は、名前の例です。
Post Office - High Littleton
Post Office Pilton Outreach Services
Town Street Post Office
post office St Thomas
は基本的に、このような結果を得るために、いくつかのアルゴリズムまたはより良いライブラリを見つける必要があります。ここでは
Post Office: 16999
Post: 17934
Office: 16999
Tesco: 7300
...
がいっぱいexample of namesです。
私は、単一の言葉のためではなく、文章の罰金であるコードを書いた:
from textblob import TextBlob
import operator
title_file = open("names.txt", 'r')
blob = TextBlob(title_file.read())
list = sorted(blob.word_counts.items(), key=operator.itemgetter(1))
print list
「私はそれらの間に関連性を持ち、すべての結果を(名前から抽出された)文章でグループ化したいですか? – garg10may
nグラムまたはクラスタごとに文の出現回数をカウントしますか?これらは2つの別々のものです。 –
@SemihYagcioglu私はすべての名前の中で最も普及している文章を入手したい: 2つ以上の名前を含むグループのみ; グループにはテキストデータのみが含まれています。 複数の単語から文を含むことができます。 入力のみが必要です - 名前のリスト –