2017-01-13 10 views
0

commoncrawlを分析する必要があります。そのために私はPython 2.7を使用しています。私はいくつかのwarcファイルを見てきました.warc.gzファイルにはいくつかのバイナリデータがあります。私はbs4を使用してHTMLソースを解析する必要があります。しかし、これがテキストデータであることをどのように検出でき、これはバイナリです。 たとえば、バイナリデータを含むURL regestがあります。 http://aa-download.avg.com/filedir/inst/avg_free_x86_all_2015_5315a8160.exePythonを使用してcommoncrawlでバイナリデータを処理する方法

私はどのようにバイナリデータをスキップして、ちょうどPythonでテキストデータを処理できますか?

答えて

0

python-magicを使用して項目を特定できます。これらの例はfrom_file機能、のpython-魔法を使用しながらもfrom_buffer機能を有していることが

In [1]: import magic 

In [2]: magic.from_file('places.sqlite') 
Out[2]: b'SQLite 3.x database, user version 33, last written using SQLite version 3015001' 

In [3]: magic.from_file('installed-port-list.txt') 
Out[3]: b'ASCII text' 

In [4]: magic.from_file('quotes.gz') 
Out[4]: b'gzip compressed data, was "quotes", last modified: Tue Dec 6 20:35:44 2016, from Unix' 

注意。

関連する問題