OpenAI GPT3 API Taokenizerを、Pythonで動作させる

2023年2月10日 23:49

OpenAI API GPT-3を用いる場合、リクエストあたり最大トークンは4097に制限されており、リクエストあたりのコストもトークンによって換算されます。そのため、トークンカウントは、GPT-3を用いる上で重要になります。

GPT-3のTalkenizerはGPT2と同一のため、GPT2のTalkenizerを用ます。

>>> from transformers import GPT2TokenizerFast

>>> tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

>>> tokenizer("Hello world")['input_ids']
[15496, 995]

>>> tokenizer(" Hello world")['input_ids']
[18435, 995]

上記コマンドで、返される値は、Tokenではなく、Token IDであるため、Tokenをカウントする場合は、len等で、要素数に変換します。

>>> len(tokenizer("Hello world")['input_ids'])
2

また、Tokenは、OpenAIのサイトでも確認できますので、Pythonでの出力結果と、比較することが可能です。

この記事が気に入ったらサポートをしてみませんか？