2012-01-24 12 views
2

「ラインスルークラック」のような停止語を含むフレーズを検索したい。 "スルー"はストップワードです。クエリと同じ結果を得たいフレーズ除外のためのFORMSOFの全文検索条件ストップワード

したがって、すべての行にはストップワードを除くすべての単語が含まれています。 クライアントがストップワードリストを知らないとすることはできますか?

答えて

2

使用しているSQL Serverのバージョンは? 2008年以降の場合は、クエリ実行時にストップワードのリストをプログラムで取得できます。次に、検索語のいずれかがストップワードのリストに含まれているかどうかを確認し、それらを「CONTAINS」クエリ文字列から除外することができます。

次のクエリは、(言語ID 1033である米国英語、のために)ストップワードのリストを返します:あなたはこのような何かを行うには、検索PROCを書くことができ、この情報により

-- Run the following to get a list of languages and their IDs 
select lcid, name from sys.syslanguages order by 1 

-- Then use that ID to get a list of stop words 
select * from sys.fulltext_stopwords where language_id = 1033 

(この非常に基本的な例ですが、あなたは)アイデアを得る必要があります。

USE [AdventureWorks] 
GO 
-- Make sure you have a full-text catalogue to test against 
/* 
IF EXISTS(SELECT * FROM sys.fulltext_indexes WHERE [object_id] = OBJECT_ID('Production.ProductDescription')) 
    DROP FULLTEXT INDEX ON Production.ProductDescription; 
IF EXISTS(SELECT * FROM sys.fulltext_catalogs WHERE name = 'FTC_product_description') 
    DROP FULLTEXT CATALOG FTC_product_description; 
CREATE FULLTEXT CATALOG [FTC_product_description] 
    WITH ACCENT_SENSITIVITY = OFF 
    AS DEFAULT AUTHORIZATION [dbo] 
CREATE FULLTEXT INDEX ON [Production].[ProductDescription]([Description] LANGUAGE [English]) 
    KEY INDEX [PK_ProductDescription_ProductDescriptionID] ON ([FTC_product_description], FILEGROUP [PRIMARY]) 
    WITH (CHANGE_TRACKING = AUTO, STOPLIST = SYSTEM); 
*/ 
GO 
IF OBJECT_ID('dbo.my_search_proc') IS NULL EXEC ('CREATE PROC dbo.my_search_proc AS '); 
GO 
-- My Search Proc 
ALTER PROC dbo.my_search_proc (
    @query_string NVARCHAR(1000), 
    @language_id INT = 1033 -- change this to whatever your default language ID is 
) AS 
BEGIN 
    SET NOCOUNT ON; 

    ------------------------------------------------------ 
    -- Split the string into 1 row per word 
    ------------------------------------------------------ 
    -- I've done this in-line here for simplicity, but I 
    -- would recommend creating a CLR function instead 
    -- for performance reasons. 
    DECLARE @words TABLE (id INT IDENTITY(1,1), word NVARCHAR(100)); 
    DECLARE @cnt INT, @split_on CHAR(1) 
    SELECT @cnt = 1, @split_on = ' '; 
    WHILE (CHARINDEX(@split_on, @query_string) > 0) 
    BEGIN 
     INSERT INTO @words (word) 
     SELECT word = LEFT(LTRIM(RTRIM(SUBSTRING(@query_string,1,CHARINDEX(@split_on,@query_string)-1))), 100); 
     SET @query_string = SUBSTRING(@query_string,CHARINDEX(@split_on,@query_string)+1,LEN(@query_string)); 
     SET @cnt = @cnt + 1; 
    END 
    INSERT INTO @words (word) 
    SELECT word = LEFT(LTRIM(RTRIM(@query_string)), 100); 

    ------------------------------------------------------ 
    -- Now build your "FORMSOF" string, excluding stop words. 
    ------------------------------------------------------ 
    DECLARE @formsof NVARCHAR(4000); 

    SELECT @formsof = ISNULL(@formsof, '') 
      + 'FORMSOF(INFLECTIONAL, "' + w.word + '") AND ' 
    FROM @words AS w 
    LEFT JOIN sys.fulltext_system_stopwords AS sw -- use sys.fulltext_stopwords instead if you're using a user-defined stop-word list (or use both) 
      ON w.word = sw.stopword COLLATE database_default 
      AND sw.language_id = @language_id 
    WHERE sw.stopword IS NULL 
    ORDER BY w.id; -- retain original order in case you do any weighting based on position, etc. 

    -- If nothing was returned, then the whole query string was made up of stop-words, 
    -- so just return an empty result set to the application. 
    IF @@ROWCOUNT = 0 
     SELECT TOP(0) * FROM Production.ProductDescription; 

    SET @formsof = LEFT(@formsof, LEN(@formsof)-4); -- Remove the last "AND" 
    PRINT 'Query String: ' + @formsof 

    ------------------------------------------------------ 
    -- Now perform the actual Full-Text search 
    ------------------------------------------------------ 
    SELECT * 
    FROM Production.ProductDescription 
    WHERE CONTAINS(*, @formsof); 
END 
GO 

EXEC dbo.my_search_proc 'bars for downhill'; 

をので、あなたは「下り坂のためのバー」で検索した場合、その後、「用」)そのため、ストップワード(取り除かれます、あなたはFORMSOF(INFLECTIONAL, "bars") AND FORMSOF(INFLECTIONAL, "downhill").

のままにする必要があります

残念ながら、SQL 2005を使用していてノイズワードファイルの内容がわからない場合は、私が知る限り多くのことができません。

乾杯、 デーブ