■ 『シェークスピアは誰ですか?』 計量文献学とは何か (2005.8.27)

現代日本文においては、読点の付け方に書き手の個性が出やすいという。たとえば、井上靖は「と」の後に読点を付ける割合が高く、三島由紀夫は「に」、「を」の後の割合が高い。谷崎潤一郎は「は」の後に付ける割合が低い、といったようなことだ。ほとんどの人は無意識に読点を付けている。文章の特徴は、このような無意識に書く所に現れやすい。どの文字の後に読点を付ける傾向があるかという情報で、書き手を特定できそうだ。

計量文献学とは、文章を計量的に――文字数を数え・単語の長さを算出する――分析する学問である。文章の数量的特徴から書き手が推定できるのではないか、というのは論理代数の創始者ド・モルガンのアイデアとのこと。書き手によって文章に現れる言葉は違うのではないか、「単語の長さの平均値」は書き手ごとに異なるのではないか。それを調べれば書き手の推定ができると。

文章の指紋ともいうべき数量的特徴から書き手を推定する研究が欧米を中心に行われるようになった。文の長さ、単語の長さ、品詞や特定の言葉の出現率、語彙の豊富さといった数量的性質の中に、書き手の文章の特徴を見いだそうというのである。

アメリカの地球物理学者メンデンホールは、書き手の推定には、単語の長さの平均値よりも、むしろ単語の長さの分布、つまり2文字から成る単語・3文字から成る単語・4文字から成る単語などの度数の分布――単語のスペクトルと呼んだ――の方がより有効だと考えた。

メンデンホールは、単語のスペクトル分析を用いて、シェークスピアを巡る謎――戯曲の真の作者はフランシス・ベーコンではないか?――の解明に取り組んだ。その結果、スペクトルの最頻値(モード)が、シェイクスピアの場合は4で、ベーコンの場合は3であることを突きとめた。シェークスピアが4文字からなる単語をもっとも多く用いているのに対し、ベーコンは3文字の単語をもっとも多く用いていると。2人の単語のスペクトルの最頻値が異なることから、メンデンホールは「ベーコンがシェークスピア戯曲の真の作者である」という説を否定したのである。

日本文の分析はむずかしいという。単語の使用率を求めるには、単語と単語の間にスペースを入れ文章を分かち書きする必要がある。その際に、どこまでを一語とみなすかという単語の認定が必要となるが、この単語認定が一意に定まらない。たとえば、「秋の月」か、「秋」「の」「月」かといったぐあいである。さらに、日本の古文には文の終わりを示す句点( 。)が付いていないため、文の長さ、文頭・文末の言葉の分析などの場合には、、何らかの基準で句点をつける必要がある。


◆『シェークスピアは誰ですか? 計量文献学の世界』村上征勝著、文春新書、平成16(2004)年/10月刊


読書ノートIndex2 / カテゴリIndex / Home