2011-02-02 10 views
-2

URLを正規化するプロジェクト(つまり、同じWebページにマップされている別のURLを特定し、検索エンジンのように冗長性を減らす必要があります)を行っています。URL正規化のデータセット

私はメソッドをテストするために異なるURLを含むデータセットが必要です。正規化データセットのリンクを提供してください。

私はこのプロジェクトをC#で実装しています。私はあなたの提案をお待ちしています。前もって感謝します。

+1

正規化するURLの例をいくつか挙げてもらえますか?また、ここではデータセットをどういう意味ですか? .NETデータセット?何か他のものがある場合は、例を提供してください。 –

+1

期待される結果を持つサンプルデータを提供してください。私はundestand質問を傾けることはできません –

答えて

1

あなたは非常にオープンし、あなたが得るかもしれない提案のどの種類のためのオープンあなたの質問を残して、I'd like your suggestionsを尋ねたので、私は先に行くとあなたに私の提案を与えるでしょう。私は100%あなたが取り組もうとしている問題を確実にしているとは認めませんが、あなたはプログラム/コードに固有の提案を求めていますか?どのようにそのようなプロジェクトを設定するための戦略?またはインスピレーション/アイデアを収集し、既存のワークフローを改善したいですか?この3番目のことを探しているなら、私の人工知能教師の一人が講演した講義に触発された2つのシナリオを見てみることをお勧めします。

  • トップダウンアプローチ:コロニーが自分自身を整理する方法ANTに一瞬ダイブにできファンタジーはantcology女王サブコロニーにそれぞれすべてANTそのルートに処方し、それにより複数の正規化想像蟻がすべて同じ場所に行くことを約束するルートをトレースすると、アリをグループ化して、各グループに目標に向かって1つのルートを使用させ、可能な重複ルートを削除したいと思うようです。これはルートをより効率的にする方法の1つです。現実には蟻が実際に異なる動作:

  • ボトムアップアプローチを:現実を: シングルアリはほとんど意味がありますが、全体のアリコロニーが研究されたときに、組織が明らかになりました。 Thi sisは、アリ自身が他のアリの香りの痕跡に沿っているので、お互いに辿り着いて、最終的には巣へ行く道を見つけるからです。この方法では、中央データベースの上/中央から賢明さを出す必要はありませんが、各antに組み込まれたわずかなインテリジェンスによって同じパスが再利用可能になります。 >>このようにして、正規化する必要のある各ハイパーリンク内で正規化手法を構築することを考えてください。

私はしばしば見つけることより解決する方がはるかに簡単です、それにプログラムコードと質問して、あなたの質問は戦略に基づくが、特定のコードの問題は関係ありませんでしたそれ以外の場合、これはあなたが望んだの提案を与えることができることを望みます最高の戦略。がんばろう!私の2セント。