カウンタを使用してuniqify元のリストをカウントしてカウントを追加しながら順序を維持することができます。
考える:
>>> dates=[datetime.date(2017, 3, 9), datetime.date(2017, 3, 10), datetime.date(2017, 3, 10), datetime.date(2017, 3, 11)]
あなたが行うことができます。
from collections import Counter
cnts=Counter(dates)
seen=set()
>>> [(e, cnts[e]) for e in dates if not (e in seen or seen.add(e))]
[(datetime.date(2017, 3, 9), 1), (datetime.date(2017, 3, 10), 2), (datetime.date(2017, 3, 11), 1)]
更新
をあなたはまた、カウンターを並べ替えることができ、元のリストの順にキーを使って、そのリストの日付(X)の最初のエントリのインデックスを取得する関数:
sorted([(k,v) for k,v in Counter(dates).items()], key=lambda t: dates.index(t[0]))
(この速度は、あなたのリストがどのように注文したか、順不同に相関している...)
誰かがはtimeitを言いました! (Pythonの2.7上の)
from __future__ import print_function
import datetime
from collections import Counter
from collections import OrderedDict
def dawg1(dates):
seen=set()
cnts=Counter(dates)
return [(e, cnts[e]) for e in dates if not (e in seen or seen.add(e))]
def od_(dates):
odct = OrderedDict()
for item in dates:
try:
odct[item] += 1
except KeyError:
odct[item] = 1
return odct
def lc_(lst):
return [(item,lst.count(item)) for item in list(OrderedDict.fromkeys(lst))]
def dawg2(dates):
return sorted([(k,v) for k,v in Counter(dates).items()], key=lambda t: dates.index(t[0]))
if __name__=='__main__':
import timeit
dates=[datetime.date(2017, 3, 9), datetime.date(2017, 3, 10), datetime.date(2017, 3, 10), datetime.date(2017, 3, 11)]*100000
for f in (dawg, od_, lc_,sort_):
print(" {:^10s}{:.4f} secs {}".format(f.__name__, timeit.timeit("f(dates)", setup="from __main__ import f, dates", number=100),f(dates)))
プリント:
dawg1 10.7253 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
od_ 21.8186 secs OrderedDict([(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)])
lc_ 17.0879 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
dawg2 8.6058 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]0000)]
PyPy:
dawg1 7.1483 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
od_ 4.7551 secs OrderedDict([(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)])
lc_ 27.8438 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
dawg2 4.7673 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
パイソン3.6ここ
が大きく、例えば(40万日付)といくつかのタイミングは次のとおりです。
dawg1 3.4944 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
od_ 4.6541 secs OrderedDict([(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)])
lc_ 2.7440 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
dawg2 2.1330 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
ベスト。
python-2.xを使用している場合は、この質問をチェックアウトすることができます:https://stackoverflow.com/questions/35446015/creating-an-ordered-counter注文カウンターを作成する方法。不幸にも、それはPython-3.xではもう動作しません( 'dict'がデフォルトで順序を保持する3.6を除く)。 – MSeifert
「大量のデータに対してこの操作を実行しています」と言えば、どのようなサイズ(おおよそ重複の割合)を話していますか? – MSeifert
[アイテムの数をどのようにカウントするのか、アイテムの表示順はどうすればよいですか?](https://stackoverflow.com/questions/23747564/how-to-get-count-dict-of-items-but) -memtaintain-the-they-appear-they-appear) –