2017-02-13 7 views
2

ベースR関数factor()は、NAではなく、有効な要素要素として空白スペースで構成される文字要素を解釈します。このような空白文字の要素を解釈する利点は何ですか?互換性を維持するために維持されている従来の機能ですか?空白スペース要素をRファクタファクタ()の有効な要素要素として解釈する利点?

例:

因子(C( "A"、 "A"、 ""、 "B"))私は、これは通常問題はそれができないことを理解

とにかく試してみることにしました。 factor()がこのような空白文字の要素を解釈するようにするという設計上の決定は私を混乱させます。これらの要素を代わりにNAと解釈することは明らかな不利益を伴わずに単純化しているようです。

+0

空の文字列と文字の間に違いがあることを認識していますか? – Roland

+0

はい、私は違いがあることを認識しています。しかし、factor()の使用の範囲内では、 ""をNAと扱うことは意味がありませんか? function factor()を使用しているときに、この解釈が間違っていますか? – CarlAH

+0

ファクタ関数はモデリングにとって最も重要です。私たちの中には、私たちのモデルで空の文字列レベルとNA値を区別するオプションがあることに感謝しています。 – Roland

答えて

5

このような空白文字の要素を解釈する利点は何ですか?

空の文字列データは通常、「これは空の文字列である」という意味なので

、および ない「これは、データが欠落しています」。

もちろん、使用方法によっては空の「名前」フィールドが欠落している可能性があります。しかし、空の "title"フィールドはそれだけです:タイトルなし。他にどのようにタイトルの欠如( "Mr"と "Mrs"が別のフィールドを持っていると仮定した場合)をエンコードしますか?

要因のために、空のラベルを持つことはあまり意味がありません。しかし、Rは文字列を因子に変換する傾向があり(特にファイルから表データを読み取る場合)、空の値をすべてNAとして扱うと誤ってアノテーションが付いたデータが多く発生します。一般に、そのような暗黙の変換は常にロスレスでなければならず、すなわち変換される値の全領域を保存する必要がある。

+0

しかし、文字要素が名前であれば、とにかくユーザーのfactor()に意味をなさないでしょうか?しかし、誰かがcsvに文字要素として要素を格納し、欠損値を ""として表示するのはもっともらしいです。 – CarlAH

+0

@CarlAHそうですね、それは名前には意味がありませんが、タイトルには完全に当​​てはまります。空の文字列を欠落した文字列とは違って扱う理由はますます増えています。空の文字列を使ってCSVの欠損値を表示すると、私はあなたを狩り、私はあなたを見つけます。これらの空の文字列をすべて "NA"に変更します。手で。 Excelで。検索&置換なし。あなたは警告されています。 –

+2

私はKonradの欠損値をすべて空の文字列に変更し、4月1日に展開する方法を見つけるつもりです。 – Dason