テキストファイルからSQLデータベースに大量のビルディングコードをインポートする必要があります。これまでは、コード番号とタイトルを正常に返す次のコードを書いています。コードのタイトルの後のテキストを次のコードの先頭にどのように一致させることができますか?正規表現を使用して大量のデータをインポートする
Test.txt:
101.1タイトル。これはサンプルコードです。
101.1.2ローカル料金。地方の管轄区域では、第300.1項に基づく建築許可証 違反の料金を請求することがあります。
import re
file=open(r'C:\Test.txt','r')
text=file.read()
codes=re.findall('(\d{3,4}.[\d.]+?){1}\s([\w\s]+[.]){1}',text)
for code in codes:
print code[0],code[1]
これは、その結果:
101.1タイトル。 私はコード[3] print 'これはサンプルコードです。'を持っています。
101.1.2ローカル料金。