文字列、テキスト分析

今日は、講義内容はテキスト(文字列)に焦点を当てた分析でした。ここで、ベクトルの計算が出てきて数1Aまでしか習っていない私にとっては大苦戦でした💦
COS類似度とか距離の計算などわかりそうでわからないので、AIに要約、コードのヒント、解説を全振りしています。

今日のコードメモ

import numpy as np
def cos_sim(vec1,vec2):
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2)) #cos類似度を返す 

import csv
def course_list():
    file=open("course_list.csv")
    file=csv.reader(file)
    course=[]
    for c in file:
        course.append(c)
    return course
corses=course_list() #ファイルを読み込み 、各行を要素とするリストを作成する

import csv
def vocab_list():
    file=open("keyword_list.csv")
    file=csv.reader(file)
    keywor=[]
    for c in file:
        keywor.append(c)
    return keywor
vocab=vocab_list() #ファイルを読み込み 、各行を要素とするリストを作成する(ファイルが違うだけ)

講義の動画を見る時間もあったので課題の解けた数は普段と変わらないと思います。
内容が数学チックになってきて難しく感じるけど、好奇心でいっぱいになります。
問題があるとするならpdfをcsvに完ぺきに変換できるソフトがないということ。頑張って見つけねば。。。

この記事が気に入ったらサポートをしてみませんか?