nlp

    0

    1答えて

    見つける: テキスト 計算から トークン化文の文章 に存在する各単語の名前付きエンティティのこれがされ何私がこれまで行ってきた: nlp = spacy.load('en') sentence = "Germany and U.S.A are popular countries. I am going to gym tonight" sentence = nlp(sentence) toke

    0

    1答えて

    word2vecアルゴリズムを使って2つの異なる単語ベクトルモデルを作成しました。今問題は、私は直面している最初のモデルからいくつかの言葉は2番目のモデルではないです。私は2つの異なる単語ベクトルモデルから3番目のモデルを作成したいと思います。ここでは、両方のモデルの単語ベクトルを、意味と単語ベクトルのコンテキストを失うことなく使用できます。 私はこれを行うことができますか?

    0

    2答えて

    です。AGENDA ITEMあたりのページ数を数えなければなりません。私はpdf文書からテキストをデータフレームに抽出しました。このデータフレームの本質的に1つの行には、1ページのテキストが含まれています。これは私のデータがどのように見えるかです: AGENDAのTEXT(同じ行)の下で mydf <- data.frame(text = c("AGENDA ITEM 1 4", "T

    0

    1答えて

    私はこのpaperに基づいてテキスト分類のCNNモデルを実装しました。 CNNは固定サイズの文章しか扱えないので、私はデータセットの文の最大長として入力のサイズを設定し、短い文はゼロを埋めます。しかし、私の理解のために、入力文がどれくらい長くても、最大プール戦略は常に各フィルタマップに対して1つの値しか抽出しません。したがって、入力文のサイズが長くても短くても問題はありません。なぜなら、フィルタが

    0

    1答えて

    だから私はそうのような(POSタグ付けは正確には)、リスト内の単語の束をタグ付けしようとしていた: lwは単語のリストである(それは本当に長いですか、私はそれを掲載しているでしょう pos = [nltk.pos_tag(i,tagset='universal') for i in lw] が、それは、(各リストは1つの単語を含むリストのリスト別名)[['hello'],['world']]の

    0

    1答えて

    difflibを使って2つの文字列間の文字の違いを調べる方法はたくさんありますが、削除して2つの文字列の間に追加する方法やモジュールがあるかどうかを知りたいと思っています。例えば 、我々は foo = 'This is a sentence' bar = 'I am a sentence' を持っている場合、私は「この」と「ある」を含むリストを返します deleted_words(foo,

    1

    1答えて

    spaCyでステミングとリーマライズした後に、ワードがストップワードであるかどうかを検出する方法は? はsomethingがストップワードである。この場合、文章 s = "something good\nsomethings 2 bad" と仮定する。明らかに(私に)Somethingとsomethingsもストップワードですが、それは前に起ころうとする必要があります。次のスクリプトは、最初の

    0

    1答えて

    問題: タグは、作成しようとしているリストのタイトル(5-15単語)のみに基づいてユーザーに提案する必要があります。 私たちは約30所定のタグが持っている - だから、 Gaming, Movies, TV shows, Documentaries, Books, Music, Art, History, People, Adventure, Sports, Cooking, Travel, Pl

    0

    1答えて

    私は約3000のドキュメントから構造化されていないテキストデータを抽出しました。このデータをこのドキュメントの分類に使用しようとしています。 ただし、ストップワード&の句読点を除去してデータを字形化した後でも、カウントベクトル化では64000を超えるフィーチャが生成されます。 これらの機能の多くは、乱数などの不要なトークンとさまざまな言語のテキストを含んでいます。私が使用している ライブラリは、以

    0

    1答えて

    私は、ユーザーが送信したメッセージに関する情報を含むpandasデータフレームを持っています。 私のモデルでは、メッセージの受信者の欠落を予測することに興味があります。受信者A、B、Cがメッセージを受け取った場合、他の誰が受信者の一部であったかを予測したいと考えています。 私はOneVsRestClassifierとLinearSVCを使用して複数ラベルの分類を行っています。 機能については、メッ