2017-01-15 4 views
0

動的キーを使ってPython辞書を効果的に処理する方法は?動的キーを使ってPython辞書を効果的に処理するには?

オランダの公開データを使用しています。各地域/年の辞書があります。辞書キーは年ごとに異なります。これを扱う有効なコードを書くにはどうすればよいですか?

以下の例のように、2つの作業構造があります。しかし、どちらのキーにも努力が必要であり、公開データには108個のキーがありますので、Pythonが私にはまだ認識していない優れたソリューションを提供することを願っています!

FYIオープンデータについて: 毎年、16194の辞書リストがあります。 NLの近隣あたり1つの辞書。各辞書は、108件のアイテム(キー、値のペア)を有する:

>>> import cbsodata 
>>> table = '83487NED' 
>>> data = cbsodata.get_data(table, dir=None, typed=False) 
Retrieving data from table '83487NED' 
Done! 
>>> len(data) 
16194 
>>> data[0] 
{'Gehuwd_14': 1565, 'MateVanStedelijkheid_105': 5, 'Bevolkingsdichtheid_33': 1350, 'Gemeentenaam_1': 'Aa en Hunze        ', ... etc  
>>> len(data[0]) 
108 

キーは、来年1年の「Code_3」と「Code_4」...例えばソリューションに使用

例のデータであってもよいです:

data2016 = [{'Code_3': 'BU01931000', 'ZipCode_106': '2251MT', 'City_12': 'Amsterdam', 'Number_of_people_5': '24000'}, 
       {'Code_3': 'BU02221000', 'ZipCode_106': '2851MT', 'City_12': 'London', 'Number_of_people_5': '88000'}, 
       {'Code_3': 'BU04444000', 'ZipCode_106': '2351MT', 'City_12': 'Paris', 'Number_of_people_5': '133000'}] 
data2015 = [{'Code_4': 'BU01931000', 'ZipCode_106': '2251MT', 'City_12': 'Amsterdam', 'Number_of_people_6': '22000'}, 
       {'Code_4': 'BU02221000', 'ZipCode_106': '2851MT', 'City_12': 'London', 'Number_of_people_6': '86000'}, 
       {'Code_4': 'BU04444000', 'ZipCode_106': '2351MT', 'City_12': 'Paris', 'Number_of_people_6': '131000'}] 
data2014 = [{'Code_8': 'BU01931000', 'ZipCode_109': '2251MT', 'City_12': 'Amsterdam', 'Number_of_people_14': '18000'}, 
       {'Code_8': 'BU02221000', 'ZipCode_109': '2851MT', 'City_12': 'London', 'Number_of_people_14': '76000'}, 
       {'Code_8': 'BU04444000', 'ZipCode_109': '2351MT', 'City_12': 'Paris', 'Number_of_people_14': '129000'}] 
data2013 = [{'Code_8': 'BU01931000', 'ZipCode_109': '2251MT', 'City_12': 'Amsterdam', 'Number_of_people_14': '14000'}, 
       {'Code_8': 'BU02221000', 'ZipCode_109': '2851MT', 'City_12': 'London', 'Number_of_people_14': '74000'}] # data for Paris 'BU04444000' missing in 2013 
tables = {2013: data2013, 2014: data2014, 2015: data2015, 2016: data2016} 
years = [2013, 2014, 2015, 2016] 
current_year = 2016 

例液1、キーのマッピング:すべての3つの例ソリューションの

def CBSkey(key, year): 
    if key == 'key_code': 
     if year == 2013: 
      return('Code_8') 
     elif year == 2014: 
      return('Code_8') 
     elif year == 2015: 
      return('Code_4') 
     elif year == 2016: 
      return('Code_3') 
    elif key == 'key_people': 
     if year == 2013: 
      return('Number_of_people_14') 
     elif year == 2014: 
      return('Number_of_people_14') 
     elif year == 2015: 
      return('Number_of_people_6') 
     elif year == 2016: 
      return('Number_of_people_5') 

for record_now in tables[current_year]: 
    code = record_now['Code_3'] 
    city = record_now['City_12'] 
    people = {} 
    for year in years: 
     code_year = CBSkey('key_code', year) 
     people_year = CBSkey('key_people', year) 
     for record in tables[year]: 
      if record[code_year] == code: 
       people[year] = (record[people_year]) 

    print(people) 

出力:

{2016: '24000', 2013: '14000', 2014: '18000', 2015: '22000'} 
{2016: '88000', 2013: '74000', 2014: '76000', 2015: '86000'} 
{2016: '133000', 2014: '129000', 2015: '131000'} 

例2は、アイテムに基づいて右の辞書を選択し、他のすべてのキーをループでは、追加のデータを見つけるために:

for record_now in tables[current_year]: 
    city = record_now['City_12'] 
    code = record_now['Code_3'] 
    print('Code: ', code) 
    people = {} 
    for year in years: 
     for record in tables[year]: 
      for v in record.values(): 
       if v == code: 
        for k in record.keys(): 
         key_type = CBSkey(k) 
         if key_type == 'People_type': 
          people[year] = (record[k]) 
    print(people) 

いくつかの明るい「Python的なアイディアを願い、中に多くのおかげで前進!

+0

これはかなり長く詳細です。 [最小限の作業例](http://stackoverflow.com/help/mcve)をお読みください。 –

+0

ありがとう。私は約40%を削除しました! – Wouter

答えて

1

このデータが正しく設定されているとわかった場合、毎年のデータは 個のdictsのリストになります。指定された年のすべてのディクテーションは同じキーを使用します。 のキーは年ごとに異なりますが、一般的なデータは同じです。 したがって、同じデータを複数の 年から効率的に取得する方法が必要です。

data = {} 
data[2016] = [{'Code_3': 'BU01931000'}] # etc. 
data[2015] = [{'Code_4': 'BU01931000'}] # etc. 

のでtables、すべての個々のdatayyyyが離れて行く、tables[year]data[year]次のようになります。

まず、私の代わりにあなたが持っている 間接的なマッピングスキームを使用しての、一つの大きな辞書に年間のすべてを置きますyearsdata.keys()となる。

次に、私は年からキーへのマッピングを考えます。ここで

"""ytok structure 

ytok maps years to dicts of keys. ytok[2016] would be: 
{'code': 'Code_3', 'zip': 'ZipCode_106', 'city': 'City_12', 
'people': 'Number_of_people_5'} 
""" 

は、プロセスを明確にする に中間結果を示す、ytokを構築する一つの方法です。そして、

inputs = 'city code people zip'.split() 
for year in data.keys(): 
    outputs = sorted(data[year][0].keys()) 
    ytok[year] = dict(zip(inputs, outputs)) 

print(ytok) 

ようytokを使用します。ここでは

ytok = {} 

for year in data.keys(): 
    sample = data[year][0] 
    outputs = list(sorted(sample.keys())) 
    # Will be in this order: city, code, people, zip 
    inputs = 'city code people zip'.split() 
    pairs = list(zip(inputs, outputs)) 
    print(pairs) 
    yeardict = dict(pairs) 
    print(yeardict) 
    ytok[year] = yeardict 

print(ytok) 

は、より合理的な方法ですso:

wanted_code = 'BU02221000' 
people = {} 
for year in data.keys(): 
    codekey = ytok[year]['code'] 
    peoplekey = ytok[year]['people'] 
    for record in data[year]: 
     if record[codekey] == wanted_code: 
      people[year] = record[peoplekey] 
      break 

print(people) 

正しいレコードが見つかったらbreakの使用に注意してください。 私たちが欲しいものを見つけたら、一年を探し続けるという意味はありません。 私たちは内側のループfor recordから脱出します。

+0

この素晴らしいソリューションをありがとう! – Wouter

+0

うれしかったです:) –

関連する問題