AIがネットのコメントや雑談で勉強してるって本当?その理由がちょっと意外でした

最近のChatGPTやClaudeって、きれいな論文やニュース記事だけじゃなくて、ネットの書き込みやタイプミスだらけのチャットまで学習データにしてるんです。実はこの「生のテキスト」こそが、AIをもっと賢くする重要な材料なんですよ。


ピンクの背景に青いメタリックな質感のロボットが向き合い、人間とAIの対話を表現したイメージ


なぜわざわざ整理されてないテキストでAIを教えるの?


カカオトークで友達に「今日何食べる?」って聞きますよね。でもAIが「本日お召し上がりになる食事は何になさいますか?」なんて返してきたら、ちょっと違和感ありませんか。


実際に人が使う言葉には、略語もあれば新しい言葉もあるし、時にはタイプミスも混じってます。韓国だと「ㅋㅋㅋ」とか「존맛탱(めっちゃうまい)」みたいな表現をAIが理解するには、こういう実際の会話データを大量に学習する必要があるんです。きれいに整理された文書だけ見せてたら、AIは教科書みたいな堅い話し方しか覚えられません。


だから最近のAI企業は、RedditやDCインサイド、ネイバーカフェの投稿まで集めてるんです。もちろん個人情報は除いてますけどね。


実際にどんな変化が起きてるの?


昔のチャットボット覚えてますか?「申し訳ございません。理解できませんでした」ばかり繰り返す、あのもどかしさ。でも今のAIは「あ、それってこういう意味ですよね?」って文脈を勝手に理解してくれます。


面白いのは、AIが地域の方言や世代別の言葉の違いまで区別し始めたことです。若い世代の表現だとか、ちょっと古い言い回しだとか、そういうのも把握するようになりました。これも色んなコミュニティの投稿を学習した成果なんです。


特に質問の仕方も完全に変わりました。昔は「天気情報要求」みたいに正確なコマンドを入力しないといけなかったのに、今は「明日傘いる?」って聞いても雨の予報を教えてくれます。


これからどうなっていくの?


実はこの学習方法には両刃の剣みたいな面があります。偏見や悪口まで学習する可能性があるんです。だからAI企業はフィルタリング技術にものすごく投資してます。


これからは個人の話し方や文体まで区別して、カスタマイズされた会話をするAIが出てくるでしょう。年配の方には敬語で、友達にはタメ口で自然に切り替えるような。業界用語や専門用語も状況に合わせて使えるようになるはずです。


結局、AIが本当に人間らしく会話するには、人が実際に使うあらゆる形の言葉を学ぶ必要があるんです。だから私たちが何気なく残したコメント一つ一つが、AI発展の土台になってるわけです。今この瞬間、あなたが使ってる言葉遣いが、未来のAIの会話スタイルを作ってるかもしれませんね。


ソウルから見てると、韓国のネット文化特有の表現がAIにどう影響するか、けっこう興味深いです。これからもAIと人間の言葉の関係、注目していきたいところです。


ビットコインがアマゾンを超えたって、これどういうこと?