別のデータフレームに基づいてデータフレームにインデックスを作成する方法R

DF2に基づいてDF1にインデックスを作成しようとしています。 DF2にはIDという名前の列があります.DF1 $ Nameを検索し、DF2 $ Wineの値が入っていればDF2 $ IDからDF1 $ IDにIDを入力します。別のデータフレームに基づいてデータフレームにインデックスを作成する方法R

DF1 = allwines

a <- c("Malbec", "Syrah", "Cabernet Sauvignon", "Merlot") 
b <- c(1, 2, 3, 4) 
allwines <- data.frame(a, b) 

> allwines 
        a b 
1    Malbec 1 
2    Syrah 2 
3 Cabernet Sauvignon 3 
4    Merlot 4

DF2 =ワイン

c <- c("Charles Smith", "K Vintners", "K Vintners", "Two Vintners", "K Vintners", "Kerloo", "Betz Family", "Efeste") 
d <- c("Royal City Syrah", "Cattle King Syrah", "Klein Syrah", "Make Haste Cinsault", "The Hidden Syrah", "Stone Tree Malbec", "Le Parrain Cabernet Sauvignon", "Big Papa Cabernet Sauvignon") 
wines <- data.frame(c, d) 

> wines 
       c        d 
1 Charles Smith    Royal City Syrah 
2 K Vintners    Cattle King Syrah 
3 K Vintners     Klein Syrah 
4 Two Vintners   Make Haste Cinsault 
5 K Vintners    The Hidden Syrah 
6  Kerloo    Stone Tree Malbec 
7 Betz Family Le Parrain Cabernet Sauvignon 
8  Efeste Big Papa Cabernet Sauvignon

所望の出力

> desired 
       c        d ID 
1 Charles Smith    Royal City Syrah 2 
2 K Vintners    Cattle King Syrah 2 
3 K Vintners     Klein Syrah 2 
4 Two Vintners   Make Haste Cinsault NA 
5 K Vintners    The Hidden Syrah 2 
6  Kerloo    Stone Tree Malbec 1 
7 Betz Family Le Parrain Cabernet Sauvignon 3 
8  Efeste Big Papa Cabernet Sauvignon 3

私の試みはわずかNAの完全なID列を生成してきました。アイデアは、ワインの列にあるワインの名前を検索して、すべてのワインのワインと一致させることです。たとえば、オールワインのシラーはRoyal City Syrah、Cattle King Syrah、Klein Syrahとワインを合わせます$

出典

2016-04-24 Jamie Leigh

あなたのデータで、 'sum（unique（df1 $ Name）％in％unique（df2 $ Wine））'はゼロを与えます。したがって、結合/マージするための一致する行を見つけることは期待されていません。代わりに、 'intersect（unique（df1 $ Name）、unique（df2 $ Wine））'は空ベクトルを与えます。 – Gopala

'DF2 $ Wine'のいくつかが' DF1 $ Name'sと実際に一致するようにデータフレームを変更できますか？ – rawr

'idx < - sapply（DF2 $ Wine、function（x）DF1 $ Name [grep（x、DF1 $ Name、ignore.case = TRUE）]）;を試してみてください。 DF1 $ ID < - DF2 $ ID [一致（名前（idx [match（DF1 $ Name、idx）]）、DF2 $ Wine）] 'おそらく。私はいくつかのテストケースを作ったが、それは大丈夫だと思われる。 – rawr

名前がdf2 $ Wineとdf1 $ Nameの間で正確に一致する場合は、それらの列に単純に参加して、必要なものを得ることができます。あなたはすべてのNASのリストを作成する前に

、これを試してみてください。それはDF2に発見された場合

library(dplyr) 
newdf <- left_join(df1, df2, by = c('Name', 'Wine'))

newdfは今、DF1から元のすべての行、および対応するIDを含める必要があります。

もちろん、すべてが正しくフォーマットされていて、名前が一致していることを前提としています。

出典

2016-04-24 21:36:42

私は正確なマッチを探していません。ワイン$ Name **に** allwines $ Wineが含まれている場合は、ID番号を入れます。ワイン$ Nameの名前はRoyal City Syrahのようにユニークなので、私はそれをallwines $のSyrahと一致させたいと思いますワイン。 –

これを反映するために質問を編集できますか？また、おそらく出力が期待される例を提供することは助けになります（現在のケースでは類似点はありません）。 –

別のデータフレームに基づいてデータフレームにインデックスを作成する方法R

答えて

関連する問題