

RAG(retrieval-augmented generation)プロセスは、LLM(large language models)の理解を向上させ、コンテキストを提供し、ハルシネーション)を防ぐ潜在能力から人気を集めています。RAGプロセスには、ドキュメントをチャンク単位で取り込んでコンテキストを抽出し、そのコンテキストでLLMモデルをプロンプトするという複数のステップが含まれます。予測を大幅に改善することが知られている一方で、RAGは時折誤った結果をもたらすことがあります。ドキュメントの取り込み方がこのプロセスで重要な役割を果たします。たとえば、「コンテキストドキュメント」にLLMにとってのタイポや絵文字などの異例の文字が含まれていると、提供されたコンテキストのLLMの理解を混乱させる可能性があります。
この投稿では、LLMによるさらなる処理のためにテキストを取り込んでチャンクに変換する前に、4つの一般的なNLP(natural language processing)テクニックの使用方法を示します。また、これらのテクニックがモデルのプロンプトへの応答を大幅に向上させる方法を説明します。




  • 精度を確保する: 誤りを取り除き、すべてを一貫させることで、モデルを混乱させる可能性が低くなり、モデルのハルシネーションを引き起こすことも少なくなります。

  • 品質を向上させる: よりきれいなデータは、信頼性のある一貫した情報でモデルが動作することを保証し、正確なデータから推論するのに役立ちます。

  • 分析を容易にする: きれいなデータは解釈しやすく分析しやすいものです。たとえば、平文のテキストで訓練されたモデルは表形式データを理解するのに苦労するかもしれません。






  • トークン化: テキストを個々の単語やトークンに分割します。

  • ノイズの除去: 不要な記号、絵文字、ハッシュタグ、Unicode文字を排除します。

  • 正規化: 一貫性を持たせるためにテキストを小文字に変換します。

  • ストップワードの削除: “a,” “in,” “of,” “the”などの一般的または繰り返される意味を持たない単語を破棄します。

Lemmatizationまたはstemming: 単語を基本形や語幹形に縮約します。

“I love coding! #PythonProgramming is fun! ✨ Let’s clean some text ”


import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopword
from nltk.stem import WordNetLemmatizer
# Sample text with emojis, hashtags, and other characters
text = “I love coding!  #PythonProgramming  is fun! ✨ Let’s clean some text ”
# Tokenization
tokens = word_tokenize(text)
# Remove Noise
cleaned_tokens = [re.sub(r’[^ws]’, ‘’, token) for token in tokens]
# Normalization (convert to lowercase)
cleaned_tokens = [token.lower() for token in cleaned_tokens]
# Remove Stopwords
stop_words = set(stopwords.words(‘english’))
cleaned_tokens = [token for token in cleaned_tokens if token not in stop_words]
# Lemmatization
lemmatizer = WordNetLemmatizer()
cleaned_tokens = [lemmatizer.lemmatize(token) for token in cleaned_tokens]
# output:
# [‘love’, ‘coding’, ‘pythonprogramming’, ‘fun’, ‘clean’, ‘text’]

プロセスは不要な文字を削除し、クリーンで意味のあるテキストを残しました。これにより、モデルが理解できるようになりました:[‘love’, ‘coding’, ‘pythonprogramming’, ‘fun’, ‘clean’, ‘text’]。



import re
# Sample text with spelling errors
text_with_errors = “””But ’s not  oherence  about more language  oherence . 
Other important aspect is ensuring accurte retrievel by  oherence  product name spellings. 
Additionally, refning descriptions  oherenc the  oherence of the contnt.”””
# Function to correct spelling errors
def correct_spelling_errors(text):
    # Define dictionary of common spelling mistakes and their corrections
    spelling_corrections = {
        “ oherence ”: “everything”,
        “ oherence ”: “refinement”,
        “accurte”: “accurate”,
        “retrievel”: “retrieval”,
        “ oherence ”: “correcting”,
        “refning”: “refining”,
        “ oherenc”: “enhances”,
        “ oherence”: “coherence”,
        “contnt”: “content”,
# Iterate over each key-value pair in the dictionary and replace the
    # misspelled words with their correct versions
    for mistake, correction in spelling_corrections.items():
        text = re.sub(mistake, correction, text)
return text
# Correct spelling errors in the sample text
cleaned_text = correct_spelling_errors(text_with_errors)
# output
# But it’s not everything about more language refinement.
# other important aspect is ensuring accurate retrieval by correcting product name spellings.
# Additionally, refining descriptions enhances the coherence of the content.


ステップ3: メタデータの取り扱い


Import spacy
import json
# Load English language model
nlp = spacy.load(“en_core_web_sm”)
# Sample text with meta data candidates
text = “””In a blog post titled ‘The Top 10 Tech Trends of 2024,’ 
John Doe discusses the rise of artificial intelligence and machine learning 
in various industries. The article mentions companies like Google and Microsoft 
as pioneers in AI research. Additionally, it highlights emerging technologies 
such as natural language processing and computer vision.”””
# Process the text with spaCy
doc = nlp(text)
# Extract named entities and their labels
meta_data = [{“text”: ent.text, “label”: ent.label_} for ent in doc.ents]
# Convert meta data to JSON format
meta_data_json = json.dumps(meta_data)
# output
    {“text”: “2024”, “label”: “DATE”},
    {“text”: “John Doe”, “label”: “PERSON”},
    {“text”: “Google”, “label”: “ORG”},
    {“text”: “Microsoft”, “label”: “ORG”},
    {“text”: “AI”, “label”: “ORG”},
    {“text”: “natural language processing”, “label”: “ORG”},
    {“text”: “computer vision”, “label”: “ORG”}

提供されたコードは、spaCyの 固有表現認識機能がテキスト内の日付、人物、組織、およびその他の重要な実体を認識する方法を示しています。これにより、RAGアプリケーションは文脈や単語間の関係をより良く理解することができます。

ステップ4: コンテキスト情報の取り扱い

まずは言語の翻訳から始めましょう。Google翻訳APIを使用して、コードは元のテキスト「Hello, how are you?」を英語からスペイン語に翻訳します。

From googletrans import Translator
# Original text
text = “Hello, how are you?”
# Translate text
translator = Translator()
translated_text = translator.translate(text, src=’en’, dest=’es’).text
print(“Original Text:”, text)
print(“Translated Text:”, translated_text)

トピックモデリングは、データのクラスタリングなどの技術を含み、散らかった部屋をきちんとしたカテゴリーに整理するようなものであり、モデルが文書のトピックを特定し、多くの情報を迅速に整理するのに役立ちます。潜在ディリクレ配分(Latent Dirichlet Allocation: LDA)は、トピックモデリングプロセスを自動化するための最も一般的な技術であり、単語のパターンを注意深く見ることでテキスト内の隠れたテーマを見つけるのに役立つ統計モデルです。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
# Sample documents
documents = [
    "Machine learning is a subset of artificial intelligence.",
    "Natural language processing involves analyzing and understanding human languages.",
    "Deep learning algorithms mimic the structure and function of the human brain.",
    "Sentiment analysis aims to determine the emotional tone of a text."
# Convert text into numerical feature vectors
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(documents)
# Apply Latent Dirichlet Allocation (LDA) for topic modeling
lda = LatentDirichletAllocation(n_components=2, random_state=42)
# Display topics
for topic_idx, topic in enumerate(lda.components_):
    print("Topic %d:" % (topic_idx + 1))
    print(" ".join([vectorizer.get_feature_names()[i] for i in topic.argsort()[:-5 - 1:-1]]))
# output
# #Topic  1: #learning  machine subset artificial intelligence #Topic  2: #processing  natural language involves analyzing understanding


  • 非負値行列因子分解(Non-negative Matrix Factorization: NMF) は、画像など負の値が意味をなさない場合に優れています。明確で理解しやすい要因が必要な場合に便利です。例えば、画像処理では、NMFは負の値の混乱なしに特徴を抽出するのに役立ちます。

  • 潜在的意味解析(Latent Semantic Analysis: LSA) は、複数の文書にまたがる大量のテキストがあり、単語と文書の関連性を見つけたい場合に活躍します。LSAは、特異値分解(SVD)を使用して用語と文書の間の意味的関係を特定し、文書の類似性によるソートや盗作の検出などのタスクを効率化します。

  • 階層ディリクレ過程(Hierarchical Dirichlet Process: HDP) は、膨大なデータを迅速に整理し、文書内のトピックを特定する際に役立ちます。LDAの拡張として、HDPは無限のトピックとモデリングの柔軟性を可能にします。学術論文やニュース記事のトピックの組織を理解するなどのタスクのために、テキストデータ内の階層構造を特定します。

  • 確率的潜在意味解析(Probabilistic Latent Semantic Analysis: PLSA) は、過去の相互作用に基づいて個人に合わせた推薦を提供する推薦システムを構築する際に、文書が特定のトピックに関連している可能性をどの程度示しているかを把握するのに役立ちます。



synthetic_text = """
Sarah (S): Technology Enthusiast
Mark (M): AI Expert
S: Hey Mark! How's it going? Heard about the latest advancements in Generative AI (GA)?
M: Hey Sarah! Yes, I've been diving deep into the realm of GA lately. It's fascinating how it's shaping the future of technology!
S: Absolutely! I mean, GA has been making waves across various industries. What do you think is driving its significance?
M: Well, GA, especially Retrieval Augmented Generative (RAG), is revolutionizing content generation. It's not just about regurgitating information anymore; it's about creating contextually relevant and engaging content.
S: Right! And with Machine Learning (ML) becoming more sophisticated, the possibilities seem endless.
M: Exactly! With advancements in ML algorithms like GPT (Generative Pre-trained Transformer), we're seeing unprecedented levels of creativity in AI-generated content.
S: But what about concerns regarding bias and ethics in GA?
M: Ah, the age-old question! While it's true that GA can inadvertently perpetuate biases present in the training data, there are techniques like Adversarial Training (AT) that aim to mitigate such issues.
S: Interesting! So, where do you see GA headed in the next few years?
M: Well, I believe we'll witness a surge in applications leveraging GA for personalized experiences. From virtual assistants to content creation tools, GA will become ubiquitous in our daily lives.
S: That's exciting! Imagine AI-powered virtual companions tailored to our preferences.
M: Indeed! And with advancements in Natural Language Processing (NLP) and computer vision, these virtual companions will be more intuitive and lifelike than ever before.
S: I can't wait to see what the future holds!
M: Agreed! It's an exciting time to be in the field of AI.
S: Absolutely! Thanks for sharing your insights, Mark.
M: Anytime, Sarah. Let's keep pushing the boundaries of Generative AI together!
S: Definitely! Catch you later, Mark!
M: Take care, Sarah!



# Sample text with emojis, hashtags, and unicode characters
# Tokenization
tokens = word_tokenize(synthetic_text)
# Remove Noise
cleaned_tokens = [re.sub(r'[^ws]', '', token) for token in tokens]
# Normalization (convert to lowercase)
cleaned_tokens = [token.lower() for token in cleaned_tokens]
# Remove Stopwords
stop_words = set(stopwords.words('english'))
cleaned_tokens = [token for token in cleaned_tokens if token not in stop_words]
# Lemmatization
lemmatizer = WordNetLemmatizer()
cleaned_tokens = [lemmatizer.lemmatize(token) for token in cleaned_tokens]



MESSAGE_SYSTEM_CONTENT = "You are a customer service agent that helps 
a customer with answering questions. Please answer the question based on the
provided context below. 
Make sure not to make any changes to the context if possible,
when prepare answers so as to provide accurate responses. If the answer 
cannot be found in context, just politely say that you do not know, 
do not try to make up an answer."



def response_test(question:str, context:str, model:str = "gpt-4"):
    response = client.chat.completions.create(
                "role": "system",
                "content": MESSAGE_SYSTEM_CONTENT,
            {"role": "user", "content": question},
            {"role": "assistant", "content": context},
return response.choices[0].message.content



question1 = "What are some specific techniques in Adversarial Training (AT) 
that can help mitigate biases in Generative AI models?"
response = response_test(question1, synthetic_text)
print(response) #Output 
# I'm sorry, but the context provided doesn't contain specific techniques in Adversarial Training (AT) that can help mitigate biases in Generative AI models.




データ元: Four Data Cleaning Techniques to Improve Large Language Model (LLM) Performance | by Intel | Intel Tech | Apr, 2024 | Medium
