スレID: 127 タイトル: 夏目漱石の『こころ』をLinuxとAIで分析してみる 取得日時: 2025-12-20 12:10:10 (JST) ---------------------------------------- [Post #353] 先生のこころ≠Kが死んだ理由 grepして読んだ感じだとやっぱりKもともと死ぬ気だったのでは説が補強されてしまうな >>後に墨《すみ》の余りで書き添えたらしく見える、もっと早く死ぬべきだのになぜ今まで生きていたのだろうという意味の文句でした。 このへんとかで最初からそうだった読める お嬢さんのことを書いていないのは別にどうでもいいから [Post #351] grep -n '友' こころ_utf8.txt|cut -d: -f1 grep -n '愛' こころ_utf8.txt|cut -d: -f1 で友と愛が出てくる行番号を見る。友は全般的に出てくるが、愛は中盤すっぽり抜けている。中盤は私と家族のところ。愛がないのはそういう理由なんだろう。 ちなみに grep -n '愛' こころ_utf8.txt |grep '友' で出てきた行はないからKとお嬢さんみたいに愛と友が同時に出てくることはない。たぶん先生の中でこの2つは緊張関係ではない。 [Post #350] grep -n '死' こころ_utf8.txt|cut -d: -f1 grep -n '自殺' こころ_utf8.txt|cut -d: -f1 で死と自殺が出てくる行を調べる。自殺はほぼKが自殺してからに集中している。死は全般的に出てくるが、やはりKが自殺したあたり(1500行あたり)からラッシュする。 死はKだけではなく私(こころの主人公)の父親のこともあるにしても作品全体を通して死の雰囲気が漂っているのは間違いない 自殺に関しては482行に一回出てきて、そこからはKが自殺するまで出てこないという徹底ぶり。強い言葉を使いたいのなら、その時までは前フリなんかせずに、その時が来るまでとっておく。時が来たらラッシュする。 [Post #349] 三角関係の緊張を書きたいのなら同じ行(Linuxの行=段落)に3人とも出せということになるのかもしれない。 [Post #348] grep -n 'K' こころ_utf8.txt | grep 'お嬢' | cut -d: -f1 でKとお嬢さんがでてくる行を調べる お嬢だけの場合は全部で90行、Kがいる&お嬢さんがいる行は51行で半分以上Kとお嬢さんが一緒に出てくる。 またお嬢さんだけが出てくるのは前半に固まっていてKと一緒に出てくるのはかなり後から。出てくる行はほぼ同じなのにクロスするのはほぼクライマックスになってから。 [Post #335] LinuxもAIも関係ないけど通説ではKが失恋で死んだことになっているけど描写的にはKがお嬢さんを好きと推測できるところはない。先生が勝手に自分の気持ちをKに反射させているだけのように見える。 元々Kは生活力がなくてどこにも行き場所がないから先生のところで世話になるしかなくて、ずっと死ぬことを考えていて、でもふんぎりがつかないところに先生が結婚するって聞いて、じゃあ俺邪魔だなぁと考えて自殺したとも考えられる。先生の負担になりたくないという友情ゆえに自殺ってこともあるのだ。というか書いていて、そっちの方が確からしく思えてきた。 失恋&裏切りの自殺より、友情のための自殺が信じられるな。この線でまた読み返してみよう。 [Post #334] ”思”が出てくる行番号だけを抜き出し。その頻度を分析させてみた。 ① 全体像:307行に「思」が出てくる 行番号は 27〜1577行目 のあいだに散らばってる 「思」が出てくる行は 307行 行数をざっくり 1〜1600行とすると → 平均すると 約5行に1回 はどこかで「思」が出てくるペース でもこれは 平均すると であって、実際にはかなり偏りがある。 ② 行区間ごとの「思」の密度 100行ごとに区切って、「思」が出る行の数を数えてみるとこんな感じになった: 行の範囲 「思」が出る行数 1– 100行 11 101– 200行 9 201– 300行 16 301– 400行 13 401– 500行 18 501– 600行 6 ← ここだけガクッと少ない 601– 700行 12 701– 800行 17 801– 900行 13 901–1000行 16 1001–1100行 14 1101–1200行 35 ★ 1201–1300行 32 ★ 1301–1400行 30 ★ 1401–1500行 32 ★ 1501–1600行 33 ★ ここから分かる一番大きな特徴は: 1100行あたりを境に、「思」の密度が一気に跳ね上がる ざっくり分けると: 1〜1100行 「思」が出てくる行:145行 密度:約0.13(100行に13回) 1101〜1600行 「思」が出てくる行:162行 密度:約0.32(100行に32回) → 後半(1100行以降)は、前半の 2.5倍くらいの濃さ で「思」が出てきてる。 つまり:前半〜中盤は「思」はそこそこ。ラスト1/3くらいで、“思う”が一気に洪水になる [Post #333] grep -n "K" こころ_utf8.txt で抽出した文章をChatGPTに読ませて「書かれていないこと」を聞く。 先生のこころばっかりでKやお嬢さんのこころは書かれていないと返ってくる。私もそう思う。でもそれは1人称のスタイルだから当たり前という気もする。 別の分析の仕方を考えた方が良いかもしれない [Post #332] 青空文庫からテキストファイルをダウンロード そのままだとgrepできないのでnkfというソフトでutf8に変換