tokenize

    2

    1答えて

    基本的には、オブジェクトと直接オブジェクトの代名詞を動詞から分離することに問題があります。 これは理想的には2つの別個のエンティティとしてトークン化されるべきであり、「dimelo」は3つのトークン化されるべきである。私は両方の図書館でさまざまなタガを試しましたが、今のところ私が望む結果は得られていません。しかし、これは共通の問題でなければならないと確信しています。

    2

    1答えて

    文字列をトークン化してから、トークンごとにanalyze-stringを実行する必要があります。これは、しかし、不可能だ: 「XPTY0020: 軸子のコンテキスト項目の必須アイテムタイプが(ノードである)された値は、アイテム・タイプxsを有する:文字列) 分析ストリングは、ノードを必要とするためコンテキスト"。 analyze-stringは文字列を解析する必要がありますので、私はこの問題を回避

    0

    1答えて

    拡張子.txtのテキストファイルが100個あります。私は各ファイルのテキストファイルの内容をフィールドのMySQLデータベーステーブルに保存したいと思います。ここでfieldnyaの名前は「トークン」という名前でした。私のテーブルの構造は:id、filename、token、sizeです。私は次のPHPコードで試してみました: it is my code : <?php include

    0

    1答えて

    私はいくつかの文字列演算子をサポートする必要があるflex-bisonプロジェクトを持っています。演算子 '^'は文字列を逆にすることを意味し、演算子[i]は文字列中のインデックスiを返します。 正しい入力と出力の例を示します。その後、 input : ^"abc"[0] ---> correct output: "c", my output: "a" 私は(「CBA」)、それを逆にする最初

    1

    1答えて

    私はwhooshを使ってテキスト検索をしようとしています。 Iは-(例:'IGF-1R')を含む文字列を検索すると、それは'IGF' AND '1R'探してしまう、従って単一の文字列として処理しません。 理由は何ですか? class MyFuzzyTerm(FuzzyTerm): def __init__(self, fieldname, text, boost=1.0, maxdist

    0

    1答えて

    リクエストをトークン化するためのルールがたくさんあります。それらのほとんどはword_delimiterフィルターに適合しています。しかし、リクエストをトークン化するために使用する文字を指定する必要もあります。 ,,:,-,_ ... どうすればよいですか?カスタム・アナライザでのcharフィルタを指定することにより

    1

    1答えて

    シナリオ私は非常に大きなphpファイルを持っています。それは、さまざまな機能への多数の呼び出しを持っています。 このファイルは、通常、「複雑な」MVC内で実行されるため、すべてのオブジェクト、メソッド、関数が他の場所で定義されています。 PHP CLIから実行される、粗いPHPスクリプトを作成しています。このスクリプトは、この他のファイルを直接インクルードします。 私は、この場合にはにログインし、

    0

    1答えて

    core-nlpアノテーションパイプラインをデフォルト設定で使用して、トークン化からner_tagsまでを使用しようとしています。私は、 "tokenizer"モジュールが{副社長}と{タイトル}の代わりに{o、TITLE}というner_tagsの識別をもたらす2つの個別のトークン{副社長}として "副社長"を識別しているのを観察しました。どのようにNer_Tagsが適切なタイトルを識別するのに役

    1

    1答えて

    NLPのトークン化タスクを処理し、Perl scriptからPython scriptにスクリプトを移植するのが目的です。 主な問題は、私たちがトークナイザのPythonのポートを実行したときに起こる誤ったバックスラッシュが付いています。何とか文字通りアンパサンドのエスケープ >>> import re >>> from six import text_type >>> sent = text

    0

    1答えて

    私はPythonを使用してデータクリーニング作業を行い、いくつかの文を含むテキストファイルから読み込みます。次のようにテキストファイルをトークン化した後、私は各文のためのトークンのリストを得続ける: [u'does', u'anyone', u'think', u'that', u'we', u'have', u'forgotten', u'the', u'days', u'of', u'favo