2011-10-21 10 views
1

EDITにクエリ結果をコード:cx_Oracle - 生

次の印刷が私の意図した値を示しています。

(sys.stdout.encodingとsys.stdin.encodingの両方が 'UTF-8'です)。

なぜ変数値が印刷値と異なるのですか?生の価値を変数に入れる必要があります。

>>username = 'Jo\xc3\xa3o' 
>>username.decode('utf-8').encode('latin-1') 
'Jo\xe3o' 
>>print username.decode('utf-8').encode('latin-1') 
João 

オリジナル質問:

私は問題BDを照会し、Pythonに値をデコードを抱えています。

私は両方の

ldap_username.decode('utf-8') 
>>u'Jo\xe3o' 
unicode(ldap_username, 'utf-8') 
>>u'Jo\xe3o' 

どこ

u'João'.encode('utf-8') 
>>'Jo\xc3\xa3o' 
(同じを返した)試した

select property_value from database_properties where property_name='NLS_CHARACTERSET'; 

'''AL32UTF8 stores characters beyond U+FFFF as four bytes (exactly as Unicode defines 
UTF-8). Oracle’s “UTF8” stores these characters as a sequence of two UTF-16 surrogate 
characters encoded using UTF-8 (or six bytes per character)''' 

os.environ["NLS_LANG"] = ".AL32UTF8" 

.... 
conn_data = str('%s/%[email protected]%s') % (db_usr, db_pwd, db_sid) 

sql = "select user_name apex.users where user_id = '%s'" % userid 

... 

cursor.execute(sql) 
ldap_username = cursor.fetchone() 
... 

print ldap_username 
>>'Jo\xc3\xa3o' 

を使用して、私のDB NLS_LANGを確認

質問を適切な「João」に戻すにはどうすればいいですか?

答えて

1

あなたはすでに適切な「João」のメチンクを持っています。 >>> 'Jo\xc3\xa3o'>>> print 'Jo\xc3\xa3o'の違いは、前者がオブジェクトのreprを呼び出し、後者がstr(おそらくunicode)を呼び出していることです。文字列の表現方法です。

いくつかの例では、これがより明確になるかもしれない:第二と第三の結果が同一であるか

>>> print 'Jo\xc3\xa3o'.decode('utf-8') 
João 
>>> 'Jo\xc3\xa3o'.decode('utf-8') 
u'Jo\xe3o' 
>>> print repr('Jo\xc3\xa3o'.decode('utf-8')) 
u'Jo\xe3o' 

注意してください。元のldap_usernameは現在ASCII文字列です。これはPythonのプロンプトで見ることができます。ACSIIオブジェクトを表示しているときは'ASCII string'と表示され、Unicodeオブジェクトはu'Unicode string'と表示されます。キーはuです。だから、

、あなたのldap_username'Jo\xc3\xa3o'として読み込み、ASCII文字列で、以下が適用される:

>>> 'Jo\xc3\xa3o'.decode('utf-8') 
u'Jo\xe3o' 
>>> print 'Jo\xc3\xa3o'.decode('utf-8') # To Unicode... 
João 
>>> u'João'.encode('utf-8')    # ... back to ASCII 
'Jo\xc3\xa3o' 

がまとめ:あなたは、文字列のタイプを決定する必要がある(ときわからないtypeを使用)、およびそれに基づいて、Unicodeにデコードするか、またはASCIIにエンコードします。

+0

ありがとうございます。あなたの2番目と3番目の例では全く同じ結果が得られますが、最初はJoãoではなくJoãoです。 DBに格納されている生の値 'João'をPythonオブジェクトに取得するにはどうすればよいですか? –

+0

@JoaoFigueiredo:あなたの追加質問に答えるための回答を更新しました。 – jro

+0

私は明確でない場合はお詫び申し上げます。私は、デコードとエンコーディングの基本原則を理解していると思う(u'string 'はそのタイプについて疑いを持たない)。私の問題は、生の文字列を外部APIに渡す方法が続いています。 –

関連する問題