ちびのはてな

「ちび(猫)」と「キノコ」から生まれた「ちびキノコ」。ドラゴンボール最強!純粋なサイヤ人のように生きたいと思っているモノ作りを楽しむ人です。IT技術で少しでも多くの人が笑顔になってくれたらいいなと。

自然言語処理の解析技術メモ

これは、G検定のための個人的なメモであり、公式テキストから引用しながら自分の言葉でまとめているものである。

解析技術 説明
形態素解析 テキストデータから、文法・単語に基づき、言語での意味を持つ最小単位である形態素に分割し、その形態素の品詞を判定すること
構文解析 形態素解析を基にして、その形態素間の構文的関係を解析すること
含意関係解析 2つの文の間に含意関係*1が成立するかを判定すること
意味解析*2 構文解析を基にして、意味を持つまとまりを判定すること。意味を利用して構文木を選択する事
文脈解析 文単位で構造や意味を考えること。複数の文のつながりをチェックするもの
照応解析 照応詞*3の指示対象・省略された名詞を推定・補完すること。照応は文と文の間にまたがった構造なので、照応解析は 談話解析 の一種である。
談話解析 文章中の文と文の関係や話題の推移を明らかにすること。記述による言語使用、発話による言語使用、身振り手振りによる言語使用を分析するための様々な方法論である。
LDA Latent Dirichlet Allocation の略。文中の単語から、何のトピックかを推定する教師なし機械学習手法。ディリクレ分布*4が用いられる。各単語が「隠れたあるトピック」から生成されているもとし、そのトピックを推定する
LSI Latent Semantic Indexing の略。文章ベクトルにおいて、複数の文書に共通に現れる単語を解析することによって、低次元の潜在意味空間を構成する手法。特異値分解*5が用いられる

*1:ピカソは1907年にキュビスムの原点とされる『アヴィニョンの娘たち』を発表した」という文が成り立つとき、「ピカソは『アヴィニョンの娘たち』の作者である」という文も成り立つような関係をいう

*2:「望遠鏡で泳ぐ彼女を見た」望遠鏡を使って泳ぐことはできないので、泳ぐ彼女を望遠鏡を使って見たという意味になる

*3:代名詞や指示詞など

*4:連続型の確率分布である。ベータ分布を多変量に拡張して一般化した形をしており、そのため多変量ベータ分布とも呼ばれる

*5:線形代数学における複素数あるいは実数を成分とする行列に対する行列分解の手法。ある行列を複数の行列の積で表現する行列分解の1つ