スレID: 127
タイトル: 夏目漱石の『こころ』をLinuxとAIで分析してみる
取得日時: 2026-02-18 17:57:30 (JST)
----------------------------------------

[Post #353]
先生のこころ≠Ｋが死んだ理由
grepして読んだ感じだとやっぱりＫもともと死ぬ気だったのでは説が補強されてしまうな

＞＞後に墨《すみ》の余りで書き添えたらしく見える、もっと早く死ぬべきだのになぜ今まで生きていたのだろうという意味の文句でした。

このへんとかで最初からそうだった読める
お嬢さんのことを書いていないのは別にどうでもいいから

[Post #351]
grep -n '友' こころ_utf8.txt|cut -d: -f1
grep -n '愛' こころ_utf8.txt|cut -d: -f1

で友と愛が出てくる行番号を見る。友は全般的に出てくるが、愛は中盤すっぽり抜けている。中盤は私と家族のところ。愛がないのはそういう理由なんだろう。

ちなみに

grep -n '愛' こころ_utf8.txt |grep '友'

で出てきた行はないからKとお嬢さんみたいに愛と友が同時に出てくることはない。たぶん先生の中でこの２つは緊張関係ではない。

[Post #350]
grep -n '死' こころ_utf8.txt|cut -d: -f1
grep -n '自殺' こころ_utf8.txt|cut -d: -f1

で死と自殺が出てくる行を調べる。自殺はほぼKが自殺してからに集中している。死は全般的に出てくるが、やはりKが自殺したあたり（１５００行あたり）からラッシュする。

死はKだけではなく私（こころの主人公）の父親のこともあるにしても作品全体を通して死の雰囲気が漂っているのは間違いない

自殺に関しては４８２行に一回出てきて、そこからはKが自殺するまで出てこないという徹底ぶり。強い言葉を使いたいのなら、その時までは前フリなんかせずに、その時が来るまでとっておく。時が来たらラッシュする。

[Post #349]
三角関係の緊張を書きたいのなら同じ行（Linuxの行＝段落）に３人とも出せということになるのかもしれない。

[Post #348]
grep -n 'Ｋ' こころ_utf8.txt | grep 'お嬢' | cut -d: -f1
でKとお嬢さんがでてくる行を調べる
お嬢だけの場合は全部で９０行、Ｋがいる＆お嬢さんがいる行は５１行で半分以上Ｋとお嬢さんが一緒に出てくる。
またお嬢さんだけが出てくるのは前半に固まっていてＫと一緒に出てくるのはかなり後から。出てくる行はほぼ同じなのにクロスするのはほぼクライマックスになってから。

[Post #335]
LinuxもAIも関係ないけど通説ではKが失恋で死んだことになっているけど描写的にはKがお嬢さんを好きと推測できるところはない。先生が勝手に自分の気持ちをKに反射させているだけのように見える。

元々Kは生活力がなくてどこにも行き場所がないから先生のところで世話になるしかなくて、ずっと死ぬことを考えていて、でもふんぎりがつかないところに先生が結婚するって聞いて、じゃあ俺邪魔だなぁと考えて自殺したとも考えられる。先生の負担になりたくないという友情ゆえに自殺ってこともあるのだ。というか書いていて、そっちの方が確からしく思えてきた。

失恋&裏切りの自殺より、友情のための自殺が信じられるな。この線でまた読み返してみよう。

[Post #334]
”思”が出てくる行番号だけを抜き出し。その頻度を分析させてみた。

① 全体像：307行に「思」が出てくる
行番号は 27〜1577行目 のあいだに散らばってる
「思」が出てくる行は 307行
行数をざっくり 1〜1600行とすると
→ 平均すると 約5行に1回 はどこかで「思」が出てくるペース

でもこれは 平均すると であって、実際にはかなり偏りがある。

② 行区間ごとの「思」の密度
100行ごとに区切って、「思」が出る行の数を数えてみるとこんな感じになった：
行の範囲	「思」が出る行数
1– 100行	11
101– 200行	9
201– 300行	16
301– 400行	13
401– 500行	18
501– 600行	6 ← ここだけガクッと少ない
601– 700行	12
701– 800行	17
801– 900行	13
901–1000行	16
1001–1100行	14
1101–1200行	35 ★
1201–1300行	32 ★
1301–1400行	30 ★
1401–1500行	32 ★
1501–1600行	33 ★

ここから分かる一番大きな特徴は：
1100行あたりを境に、「思」の密度が一気に跳ね上がる

ざっくり分けると：
1〜1100行
「思」が出てくる行：145行
密度：約0.13（100行に13回）

1101〜1600行
「思」が出てくる行：162行
密度：約0.32（100行に32回）

→ 後半（1100行以降）は、前半の 2.5倍くらいの濃さ で「思」が出てきてる。
つまり：前半〜中盤は「思」はそこそこ。ラスト1/3くらいで、“思う”が一気に洪水になる

[Post #333]
grep -n "Ｋ" こころ_utf8.txt 
で抽出した文章をChatGPTに読ませて「書かれていないこと」を聞く。

先生のこころばっかりでKやお嬢さんのこころは書かれていないと返ってくる。私もそう思う。でもそれは１人称のスタイルだから当たり前という気もする。

別の分析の仕方を考えた方が良いかもしれない

[Post #332]
青空文庫からテキストファイルをダウンロード
そのままだとgrepできないのでnkfというソフトでutf8に変換