キーワード検索のテクニックと考え方
2019.06.01 | 調査コラム
目次
1.はじめに
キーワードを用いた検索はGoogle検索の様に身近であり、特許調査においても特許分類を使わずに手軽にできる検索手法です。本稿では、特許調査を中心とし論文調査等にも活用できるキーワード検索の基本的な手法から、応用的な手法や考え方を紹介します。
2.基本的なキーワード検索のアプローチ
2.1 同義語、類義語
ある特定の物をキーワードで検索する際、同義語や類義語を考慮する事がまず基本です。
例.(同義語・類義語) 船+ボート+フェリー
2.2 省略形、異表記、変換
同義語や類義語だけでは表記揺れに対応できないため、省略形や異表記、変換(漢字-ひらがな-カタカナ-アルファベット変換/英名変換)を利用します。
例.(省略形) パーソナルコンピュータ+パソコン+PC
例.(異表記) ベネチア+ヴェネチア+ヴェネツィア
例.(変換) 車+くるま+クルマ+CAR
また化合物などでは、体系名(IUPAC)-慣用名-CAS No.などの変換もあります。
2.3 特許用語、方言、流行語
特に、特許文献において頻出する特許用語や特定企業内用語(方言)なども存在し、検索においては、それらの利用も考慮します。
例.(特許用語) 摺動+槢動
例.(方言) ○○○○機構
※方言は特定企業ばかりがヒットしてしまう虞もあるため、使用の是非は十分に検討する必要があります。尚、その語句が方言であるか否かについては判断がつきにくい場合もあり、更に、ニッチな産業において最初は方言であったものでも一般化していく場合があります。
分野によっては特定年代に頻出する流行語も存在するため、上手に利用できれば無効資料調査などで効果を発揮する場合があります。
3.応用的なキーワード検索のアプローチ
3.1 上位語・下位語
次に、応用的なアプローチとして上位語・下位語を考慮します。
例.(上位語・下位語) 電子部品+半導体+ICチップ
ここで気をつけておきたい事は、上位語・下位語を挙げる際には調査をしている分野ごとに意味の展開が必要だということです。仮に電子“機器”分野の調査であれば、『半導体』の下位語として『ICチップ』などが用いられるでしょう。その一方で電子“材料”分野であれば『半導体』の下位語には『窒化ガリウム』などの具体的な化合物名が適切な場合もあるでしょう。なお、実際に検索式を組み上げる際は上位語と下位語をまとめて検索せず、上位語同士の同義・類義関係、下位語同士の同義・類義関係の様に、階層を意識して組み上げると良い検索に繋がります。
3.2 近傍検索
また、キーワード検索においては、近傍検索が利用できるツールも存在します。この近傍検索においては、“短近傍”や“長近傍”があり、近傍の文字数や順序を目的に合わせて使い分ける事が有用です。
※近傍検索:キーワード間の距離や順序を指定した検索手法
※短近傍:複合語や短文のヒットを狙った短めの近傍検索(近傍距離が数~数十程度のイメージ)
※長近傍:文章関係や文脈の流れのヒットを狙った長めの近傍検索(近傍距離が数十~数百程度のイメージ)
例.(短近傍) 生体[近傍5]分析
→ 「生体分析」や「生体情報分析」などの複合語や「・・・生体について分析する。」「・・・生体情報を分析する。」などの短文を検索する意図を持たせた近傍検索アプローチ。
例.(長近傍) 判定[近傍100]警報
→ 「【0027】・・・判定を行う(STEP3)。【0028】・・・と警報が作動する(STEP4)。」などの文脈の流れを検索する意図を持たせた近傍検索アプローチ。
3.3 概念の置き換え
「意味合いを踏まえた概念の置き換え」を行うと、特許調査においては非常に有効です。例えば、ある特定の化合物Aを用いている理由が特定の効果Bを生じさせるためであれば、「化合物A ⇔ 効果B」の概念の置き換えが、好結果を生む場合があります。同じく、「部材C ⇔ 機能D」なども概念の置き換えを考慮すると良い場合があります。パラメータ特許では、直接的にパラメータを指すキーワードを用いるだけでなく、単位、規格、測定機器などを考慮する事で目的とするパラメータを間接的に検索ヒットさせる事もできます。
4.その他に留意する事
キーワードの検討を行っていると、いくつ挙げれば良いのか終わりが見えないと考えてしまう方もいるかと思います。その様な時には、以下を参考として心に留め置いて頂けると良いかと思います。
4.1 キーワード情報源の探し場所を決めておく
キーワードは日常用いる用語から特許用語、特定企業内用語(方言)なども存在し、全てを完璧に網羅する事は現実的ではありません。そのため、キーワードを選び出す情報源を決めておき、そこを中心に選定を行うと良いでしょう。例えば、日常用いる用語から同義語・類義語を選定するのであれば、一般的な用語辞書から選定し、特許用語は実際の特許文献中の言い回しや特許分類における説明文などから選定を行うと良いでしょう。業界用語や特定企業内用語(方言)は、その業界の辞書や業界書籍、ウェブサイトなどから選定を行うと良いでしょう。選定の際は、探す時間も決めておき、重要そうな情報源からあたって行く事をお奨めします。
(情報源の例)
4.2 Zipfの法則
キーワードの出現順位と占有割合には「Zipfの法則」と呼ばれる考え方があります。これは、「特定のキーワードの出現確率は、出現頻度の順位の逆数に比例する」という経験則です。例えば、出現頻度が20位のキーワードの再現性は、1位のものの5%にとどまるということです。つまり、キーワードは、出現頻度の高いものから低いものに向かい、効率が落ちていくということが言えます。従って、キーワード検索においてはマニアックなキーワードを時間を掛けて見つける・考えるよりも、出現順位が上位であろうものから積み上げて行く事で効率よく再現性を上げていく事ができると考えられます。この法則を心に留めておくと、キーワードの洗い出しに無為に時間を掛け過ぎず、マニアックなキーワードに固執することも減るのではないでしょうか。
4.3 キーワード化させる前の概念を見直す
ここまでキーワード検索の手法や考え方を述べてきましたが、それでも尚、キーワード検索が上手く行かない場合もあります。その様な時には、そのキーワード化させている概念が適切であるかを再考する事をお奨めします。キーワードを用いる際は、そのキーワードで何(どういったもの)を検索ヒットさせたいのか自問してみると良いでしょう。単に辞書から引っ張ってきたキーワードは、欲しているものを適切に検索ヒットできるのか、ノイズを多く生んではいないかなどと再確認すると良いでしょう。また、キーワード化させる概念はなるべくなら特定性の高い概念、例えば名詞などにしておくと良いでしょう。
5.おわりに
実際に特許検索を行う際には、特許分類を用いながら検索を行う事が多いでしょう。そのため、キーワードの精査をせずとも検索ができてしまう事もあります。しかし検索をより高度化させるためには、特許分類とキーワードの併用・掛け合わせが重要です。キーワード選定の出し引きを自在にコントロールする事が、検索結果の精度・再現性をもコントロールする事に繋がります。
キーワードの検索テクニックを磨き、より良い検索で目的に資する調査結果が得られれば幸いです。
調査事業部 橋間
<参考> (参照日 2019/4/24)
・http://jglobal.jst.go.jp/
・https://en.wikipedia.org/wiki/Zipf%27s_law