2017-12-14 3 views
0

を変更しないで、私はこの記事に基づいてモジュールを書いた:http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/pytorch損失値は、

アイデアは一緒に連結し、FC層に接続し、複数のストリームに入力を渡すことです。 TextClassifyCnnNet >>FlatCnnLayer >>FilterLayer

FilterLayer:

class FilterLayer(nn.Module): 
    def __init__(self, filter_size, embedding_size, sequence_length, out_channels=128): 
     super(FilterLayer, self).__init__() 

     self.model = nn.Sequential(
      nn.Conv2d(1, out_channels, (filter_size, embedding_size)), 
      nn.ReLU(inplace=True), 
      nn.MaxPool2d((sequence_length - filter_size + 1, 1), stride=1) 
     ) 

     for m in self.modules(): 
      if isinstance(m, nn.Conv2d): 
       n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels 
       m.weight.data.normal_(0, math.sqrt(2./n)) 

    def forward(self, x): 
     return self.model(x) 

FlatCnnLayer:

class FlatCnnLayer(nn.Module): 
    def __init__(self, embedding_size, sequence_length, filter_sizes=[3, 4, 5], out_channels=128): 
     super(FlatCnnLayer, self).__init__() 

     self.filter_layers = nn.ModuleList(
      [FilterLayer(filter_size, embedding_size, sequence_length, out_channels=out_channels) for 
      filter_size in filter_sizes]) 

    def forward(self, x): 
     pools = [] 
     for filter_layer in self.filter_layers: 
      out_filter = filter_layer(x) 
      # reshape from (batch_size, out_channels, h, w) to (batch_size, h, w, out_channels) 
      pools.append(out_filter.view(out_filter.size()[0], 1, 1, -1)) 
     x = torch.cat(pools, dim=3) 

     x = x.view(x.size()[0], -1) 
     x = F.dropout(x, p=dropout_prob, training=True) 

     return x 

TextClassifyCnnNet(メインモジュール):

class TextClassifyCnnNet(nn.Module): 
    def __init__(self, embedding_size, sequence_length, num_classes, filter_sizes=[3, 4, 5], out_channels=128): 
     super(TextClassifyCnnNet, self).__init__() 

     self.flat_layer = FlatCnnLayer(embedding_size, sequence_length, filter_sizes=filter_sizes, 
             out_channels=out_channels) 

     self.model = nn.Sequential(
      self.flat_layer, 
      nn.Linear(out_channels * len(filter_sizes), num_classes) 
     ) 

    def forward(self, x): 
     x = self.model(x) 

     return x 


def fit(net, data, save_path): 
    if torch.cuda.is_available(): 
     net = net.cuda() 

    for param in list(net.parameters()): 
     print(type(param.data), param.size()) 

    optimizer = optim.Adam(net.parameters(), lr=0.01, weight_decay=0.1) 

    X_train, X_test = data['X_train'], data['X_test'] 
    Y_train, Y_test = data['Y_train'], data['Y_test'] 

    X_valid, Y_valid = data['X_valid'], data['Y_valid'] 

    n_batch = len(X_train) // batch_size 

    for epoch in range(1, n_epochs + 1): # loop over the dataset multiple times 
     net.train() 
     start = 0 
     end = batch_size 

     for batch_idx in range(1, n_batch + 1): 
      # get the inputs 
      x, y = X_train[start:end], Y_train[start:end] 
      start = end 
      end = start + batch_size 

      # zero the parameter gradients 
      optimizer.zero_grad() 

      # forward + backward + optimize 
      predicts = _get_predict(net, x) 
      loss = _get_loss(predicts, y) 
      loss.backward() 
      optimizer.step() 

      if batch_idx % display_step == 0: 
       print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
        epoch, batch_idx * len(x), len(X_train), 100. * batch_idx/(n_batch + 1), loss.data[0])) 

     # print statistics 
     if epoch % display_step == 0 or epoch == 1: 
      net.eval() 
      valid_predicts = _get_predict(net, X_valid) 
      valid_loss = _get_loss(valid_predicts, Y_valid) 
      valid_accuracy = _get_accuracy(valid_predicts, Y_valid) 
      print('\r[%d] loss: %.3f - accuracy: %.2f' % (epoch, valid_loss.data[0], valid_accuracy * 100)) 

    print('\rFinished Training\n') 

    net.eval() 

    test_predicts = _get_predict(net, X_test) 
    test_loss = _get_loss(test_predicts, Y_test).data[0] 
    test_accuracy = _get_accuracy(test_predicts, Y_test) 
    print('Test loss: %.3f - Test accuracy: %.2f' % (test_loss, test_accuracy * 100)) 

    torch.save(net.flat_layer.state_dict(), save_path) 


def _get_accuracy(predicts, labels): 
    predicts = torch.max(predicts, 1)[1].data[0] 
    return np.mean(predicts == labels) 


def _get_predict(net, x): 
    # wrap them in Variable 
    inputs = torch.from_numpy(x).float() 
    # convert to cuda tensors if cuda flag is true 
    if torch.cuda.is_available: 
     inputs = inputs.cuda() 
    inputs = Variable(inputs) 
    return net(inputs) 


def _get_loss(predicts, labels): 
    labels = torch.from_numpy(labels).long() 
    # convert to cuda tensors if cuda flag is true 
    if torch.cuda.is_available: 
     labels = labels.cuda() 
    labels = Variable(labels) 
    return F.cross_entropy(predicts, labels) 
私は3つのカスタムモジュールに私のソースコードを分割しました

これは、それぞれのエポックをわずかにpdateして、精度はすべてのプロセスに残っています。 Tensorflowの同じ実装と同じパラメータでは、正しく動作します。

私はPytorchの新作ですので、私の指示に間違いがあります。見つけてください。ありがとうございました!

P.s:F.cross_entropyの代わりにF.nll_loss + F.log_softmaxを使用しようとしています。理論的には、同じ結果が返されるはずですが、実際には別の結果が出力されます(ただし、依然として間違った損失値です)。

答えて

0

アダムオプティマイザーのL2_lossがlossの値を変更しないようにしましたオプティマイザ)。私はL2_lossを削除するとき、それは動作します:

# optimizer = optim.Adam(net.parameters(), lr=0.01, weight_decay=0.1) 
optimizer = optim.Adam(model.parameters(), lr=0.001) 

=== UPDATE(詳細については答えの上を参照してください!)===

self.features = nn.Sequential(self.flat_layer) 
self.classifier = nn.Linear(out_channels * len(filter_sizes), num_classes) 

... 

optimizer = optim.Adam([ 
    {'params': model.features.parameters()}, 
    {'params': model.classifier.parameters(), 'weight_decay': 0.1} 
], lr=0.001) 
1

私はあなたの元のコードでは、weight_decay用語が設定されていることを見てきました0.1となります。 weight_decayは、ネットワークのパラメータを正規化するために使用されます。この用語はあまりにも強すぎて、正則化があまりにも多すぎるかもしれません。 weight_decayの値を小さくしてみてください。

コンピュータビジョンタスクの畳み込みニューラルネットワークの場合。 weight_decayの用語は、通常、5e-4または5e-5に設定されます。テキスト分類に慣れていません。これらの値はあなたのためにすぐに使えるかもしれませんし、試行錯誤して少し調整しなければならないかもしれません。

あなたのために働くかどうか教えてください。

+0

完全結合レイヤのみに「weight_decay」を設定するにはどうすればよいですか?レイヤーごとに特定の 'weight_decay'を設定してください –

+1

これはPyTorchで簡単に実現できます。オプティマイザはパラメータグループを受け取り、各パラメータグループでは 'lr'、' weight_decay'を別々に設定できます。詳細については、[ここ](http://pytorch.org/docs/master/optim.html#per-parameter-options)を参照してください。また、Googleが 'pytorchの異なる層の異なる学習率 'を検索すると、かなりの情報が得られます。もう1つのリソースは素晴らしい[PyTorch forum](https://discuss.pytorch.org/)です。すでに多くの質問があったので、あなたの質問を投稿する前にフォーラムを検索し、良い答えがあることを確認してください。 – jdhao

+0

@VietPhanは減量値が減りますか? – jdhao