This paper presents the results of a data collection project focused on online Reddit conversations about the 2020 Olympic games. The study explored the use of theme-specific corpora from online sources for use in language education. The data collection and analysis process involved the use of Python scripts to gather 254,267 comments from the most upvoted Reddit posts related to the Olympics in the 2 months around the Games. The collected comments were then processed using NLTK (Natural Language Tool Kit) to identify parts of speech within each comment, and VADER (Valence Aware Dictionary and sEntiment Reasoner) to give each comment a sentiment score. The data was then analyzed for general insights and compiled into a word frequency list which ranked words based on their usage in the collected comments.
本稿では、2020年のオリンピックに関するオンラインRedditの会話に焦点を当てたデータ収集プロジェクトの結果を紹介する。本研究では、オンラインソースからテーマ別のコーパスを言語教育に利用することを検討した。データ収集と分析プロセスでは、Pythonスクリプトを使用して、大会前後の2ヶ月間にオリンピックに関連するRedditの投稿のうち、最も賛同票を得ている投稿から254,267件のコメントを収集した。収集したコメントは、NLTK(Natural Language Tool Kit)を用いて各コメント内の品詞を特定し、VADER(Valence Aware Dictionary and sEntiment Reasoner)を用いて各コメントに感情スコアを付与した。その後、一般的な洞察を得るためにデータを分析し、収集されたコメントでの使用に基づいて単語をランク付けする単語頻度リストにまとめた。