日本近現代文学における空間情報のデータベース構築および可視化

代表

工藤 彰(東京大学大学院 教育学研究科・特任助教)

共同研究員

岡本 佳子(東京大学教養学部附属 教養教育高度化機構・特任助教)、河瀬 彰宏(同志社大学文化情報学部・助教)、工藤 彰(東京大学大学院 教育学研究科・特任助教)、福田 宏(愛知教育大学地域社会システム講座・講師)、柳澤 雅之(京都大学地域研究統合情報センター・准教授)

期間

平成28年4月~平成29年3月

目的

日本では著作権を失効したパブリックドメインの作品が様々なかたちで電子化されてきているが、主に作品と作者の提示にすぎず、テキストの内容や特徴を反映させた定量的分析が可能なデータベースはほとんど存在しない。しかし近年、GIS等のデジタル技術を援用し、物語空間の可視化を目指したDigital Literary Geography(DLG)という研究領域が注目されている。従来の一般的な文学研究においても地理的な観点から作品を論じた先行研究はすでに数多く見られるが、単独作品の精緻な検討とは別に、巨大コーパスを扱い文学の空間を歴史的・地理的に俯瞰視するような試みはDLGの中にごくわずか見られるだけである。そこで本研究では、日本近現代文学を対象に、DLGの観点と方法論を用いたデータベースを構築する。さらにそのデータベースを用いた分析の端緒として、小説に描かれた物語の舞台を中心とした空間情報を定量的に把握し、現実に存在する地理空間が文学の虚構の中でどのように描かれているか検討することを目的とする。

研究実績状況

[H28年度]
日本近現代文学コーパスを用意するにあたり本研究では『芥川賞全集』(文藝春秋社)を選択した。『芥川賞全集』は現在までに19巻刊行しており、1935年から2001年までのおよそ130作の受賞作が全文掲載されている。データ化については、2016年8月から4か月間かけて、全テキストに書かれていた地名の含まれる語をすべて抽出し、さらにその語の含まれた一文を抜き出す作業を終えた。しかし、一口に地名といってもテキストに出現する地名の性質はさまざまであり、ビッグデータの機械処理的な発想で、抽出した地名を文字通りに分類・置換してしまうと、数多くの問題をはらんでしまう危険性があると考えられた。たとえば、ある地名を「都道府県」や「国」に分類する際に、複数に該当するケースとして山や海(ex.「富士山」「地中海」)や、鉄道(ex.「東海道線」)などがあげられる。本年度に開催した2回の研究会では、これらの分類方針を中心に話し合った。

研究成果の概要

[H28年度]
上記の問題を踏まえ、まずは芥川賞受賞作の「舞台」、そして作者の「出身」の二つにターゲットを絞って分析を進めた。いくつかの結果が得られたのでここに報告する。
 小説の舞台は、東京が最も多く全体の4分の1を占め、ついで、大阪、神奈川、千葉、北海道など大都市のある都道府県が多く見られた。そのほか、長崎や沖縄のような外国との関わりの強い県も舞台として選ばれる傾向にあった。地方で言えば、関東が最も多く、逆に四国を舞台に定めて描いた作品は一作もなかった。日本を除外した外国の舞台では、中国、朝鮮といった日本に近い国、またフランスやアメリカのような大国が多かった。
 作者の出身は、東京、大阪、神奈川、福岡、北海道などが上位に並び、大都市を持つ都道府県、また外国では日本に近い中国や朝鮮が多く、舞台と比較的似た傾向があると思われる。
 なお舞台について、作者の出身との一致が46(そのうち東京は18)、出身と隣接した県が10、かつて住んだことのある土地が7、赴任先・転勤先が13、留学先が3、地方出身者による東京舞台が12だった。ここから3分の1の芥川賞作品が、作者の出身と同じ舞台を選んでいることがわかる。さらに、出身地との隣接、過去の居住経験、赴任先、留学先など、一定期間住んだことのある土地が舞台になっている作品まで含めれば6割となり、作者が実際に居住した土地と物語の舞台に選ばれる土地には、大きな関連があることが推測できる。

公表実績

[H28年度]
1)2016年12月4日CIAS研究会「芥川賞作品における地域的特徴の分析」
2)2017年3月24日CIAS研究会「文化・芸術のなかの地理空間」

研究成果公表計画, 今後の展開等

[H28年度]
今後の展開として第一に考えられるのは,欧米のDLGにならい「広さ」をもとめ、小説の数そのものを増やし「舞台」を徹底的に調査していくことである。ここまで芥川賞受賞作130件を対象としたが、大規模な統計調査を念頭におくと充分とはいえない。芥川賞の候補作、そして2001年以降の作品群まで含めると1000件近くになると考えられる(しかし『芥川賞全集』とは異なる収集経路になるため,これらの作品を書いた作者の年譜を漏れなく拾いきれるかという問題は出てくる)。この対象データを拡張した研究は、およそ80年にわたる芥川賞の変遷を辿るという点で大きな意義はあるが、パラメータが出版年・舞台・出身・居住経験だけで、やや「深さ」の足りない研究になるかもしれない。また散在する過去の候補作を集めデータ化していくだけでも相当な時間がかかることが予想される。そこで、データを追加する前に、既に抽出を済ませてある130作の本文地名データに対し、物語の主要舞台以外の場所(移動や回想などに関わる場所)、また、言語、山脈、海洋、鉄道、寺社、学校、郷土品などの分類を施すことを予定している。これにより、芥川賞作品を地理的には網羅したと呼べるほどのリッチなデータベース構築と、地理的角度から時代ごとの変化や作品間の差異を計測する多変量解析への展開が期待できる。本研究成果の公表計画としては、2017年に日本デジタルヒューマニティーズ学会(https://www.jadh.org/)へ投稿論文を検討している。

 

あわせて読みたい