見出し画像

ArXiv API/OAIを用いて論文メタデータを取得してみる

注意:この記事は、記事作成にClaude 3 Opusに手伝ってもらっています。

0.この記事を読んでわかること

  1. Arxivの概要と、ArxivAPIを利用して論文のメタデータ(タイトル、著者、要約、カテゴリ、公開日など)や論文リソース(HTMLページ、PDFファイル)のURLを取得する方法

  2. ArxivAPIの利用規約、著作権の尊重、メタデータの利用、行動規範の順守、使用制限の尊重、APIの変更への対応、個人情報の収集に関する注意点

  3. ArxivAPIのリクエスト制限(リクエスト回数制限、IPアドレスごとの制限、User-Agentの指定)

  4. Pythonを使用して、ArxivIDを元に論文メタデータを取得するサンプルコードと、APIレスポンスに含まれる情報の解説

  5. Pythonを使用して、著者名を元に論文を検索するサンプルコードと、取得した論文情報の出力例

この記事では、Arxivの概要とArxivAPIの機能、利用規約、リクエスト制限について説明し、PythonによるAPIの利用例を通じて、論文メタデータの取得方法と著者名による論文検索の方法を解説します。


1.概要

1A.Arxivについて

Arxivは、物理学、数学、コンピュータサイエンスなどの分野のプレプリント(査読前の論文)を無料で公開しているオンラインリポジトリです。

1B.ArxivAPIの機能

  1. 論文メタデータの取得
    - タイトル、著者、要約、カテゴリ、公開日など

  2. 論文リソースのURL取得
    - 論文のHTMLページやPDFファイルへのリンク

  3. 論文の検索
    - キーワード、カテゴリ、著者などによる検索

1C.APIの利用例

  • 特定の論文のメタデータ取得

  • キーワードやカテゴリによる論文検索

  • 新着論文のチェック

  • 論文データの分析や他システムとの統合

2.Arxiv APIの利用規約

  1. 著作権の尊重
    - Arxivで公開されている論文には著作権があり、著者または出版社の許可なく再配布することはできません。
    - 一部の論文はCreative Commonsライセンスの下で提出されており、事前に許可が与えられています。
    - 大部分の論文は、Arxivの非独占的配布権の下で提出されています。

  2. メタデータの利用
    - 論文の説明的メタデータ(タイトル、要約、著者、識別子、分類用語など)は、Creative Commons Universal (CC0 1.0) Public Domain Declarationの条件の下で自由に使用できます。
    - メタデータは、著者、ボランティアのモデレーター、Arxivスタッフ、外部パートナーによって提供されています。

  3. 行動規範の順守
    - Arxivスタッフや運営に関わる人々とのやり取りにおいて、Arxivの行動規範を順守する必要があります。
    - 行動規範に違反した場合、APIの使用を禁止される可能性があります。

  4. 使用制限の尊重
    - APIの使用制限(レート制限や認証メカニズムなど)を尊重する必要があります。
    - 制限を回避しようとしたり、Arxivプラットフォームの通常の運用や可用性を脅かしたりする行為は禁止されています。

  5. APIの変更への対応
    - Arxiv APIには変更が加えられることがあり、互換性の問題が発生する可能性があります。
    - Arxivは、ウェブサイトやArxiv APIグループを通じて変更の事前通知を行うよう努めます。
    - APIの使用に影響を与える可能性のある変更を把握し、必要な変更を行うことはユーザーの責任です。

  6. 個人情報の収集
    - APIの改善やサポートのために、ユーザーの名前やメールアドレスなどの個人情報が収集されます。
    - 収集された情報の使用や保護については、Arxivのプライバシーポリシーを参照してください。
    - APIの使用促進やユーザーの成果の紹介のために、ユーザーやプロジェクトに関する情報を公開するオプションが提供される場合があります。

あなたができる(そしてすべき!)こと

  • arXivの電子プリントに関する説明的メタデータを取得、保存、変換、共有すること。

  • 個人的な利用や研究目的で、arXivの電子プリントの内容を取得、保存、利用すること。

  • ユーザーがarXivの電子プリントを発見したり、通知を受けたりするのに役立つツールやサービスを提供すること。例えば:

    • より良い検索インターフェース

    • ユーザーに興味のある電子プリントについて通知するモバイルアプリ

    • arXivの電子プリントのトピックを時系列で可視化したもの

    • 電子プリントの書誌情報を使用した引用グラフ

  • APIを活用して、ユーザーがarXivと新しく有用な方法でインタラクションできるようにする他の種類のインターフェースを構築すること。

  • 電子プリントのコンテンツ(PDF、ソースファイルなど)を取得するために、ユーザーをarXiv.orgに誘導すること。概要ページへのリンクを張ることをお勧めします。

してはいけないこと

  • 電子プリントが提出されたライセンスによって許可されている場合や、著作権者の許可がある場合を除き、arXivの電子プリント(PDF、ソースファイル、その他のコンテンツ)を自分のサーバーに保存して提供すること。再配布を許可するライセンスで提出されているarXivの電子プリントは非常に少数であることに注意してください。

  • arXiv.orgの許可なく、自分のプロジェクトがarXiv.orgに支持または支援されていると表現すること。

  • レート制限を回避しようとすること。

  • 他人の認証情報を使用してarXiv APIにアクセスすること。


3.ArXiv APIのリクエスト制限

arXivAPIは、無料でアクセスできるAPIですが、リクエスト制限があります。以下のとおりです。

  1. リクエスト回数の制限

    • 3秒あたり1リクエストまで

  2. IPアドレスごとの制限

    • 同一IPアドレスからのリクエストは、上記の制限に従う必要があります。

    • 制限を超えると、一時的にブロックされる可能性があります。

  3. User-Agentの指定

    • APIにリクエストを送信する際は、User-Agentヘッダーを指定する必要があります。

    • User-Agentには、アプリケーションの名前とメールアドレスを含める必要があります。

4.ArXiv IDを元に論文メタデータを問い合わせる

Code:

import requests

# ArXiv APIのエンドポイント
base_url = "https://export.arxiv.org/api/query"

# 論文のArXiv ID(例: 2402.10949)
arxiv_id = "2402.10949"

# APIリクエストのパラメータ
params = {
    "id_list": arxiv_id,
    "max_results": 1,
}

# APIリクエストを送信
response = requests.get(base_url, params=params)

# XMLレスポンスをパースする
from xml.etree import ElementTree as ET
root = ET.fromstring(response.text)
print("XMLデータ:")
print(ET.tostring(root, encoding='unicode'))

Responce:

<ns0:feed xmlns:ns0="http://www.w3.org/2005/Atom" xmlns:ns1="http://a9.com/-/spec/opensearch/1.1/" xmlns:ns2="http://arxiv.org/schemas/atom">
  <ns0:link href="http://arxiv.org/api/query?search_query%3D%26id_list%3D2402.10949%26start%3D0%26max_results%3D1" rel="self" type="application/atom+xml" />
  <ns0:title type="html">ArXiv Query: search_query=&amp;id_list=2402.10949&amp;start=0&amp;max_results=1</ns0:title>
  <ns0:id>http://arxiv.org/api/y+FD0cxlFPgEAoqsVzSKKtMA4+Y</ns0:id>
  <ns0:updated>2024-03-11T00:00:00-04:00</ns0:updated>
  <ns1:totalResults>1</ns1:totalResults>
  <ns1:startIndex>0</ns1:startIndex>
  <ns1:itemsPerPage>1</ns1:itemsPerPage>
  <ns0:entry>
    <ns0:id>http://arxiv.org/abs/2402.10949v2</ns0:id>
    <ns0:updated>2024-02-20T15:03:00Z</ns0:updated>
    <ns0:published>2024-02-09T22:48:45Z</ns0:published>
    <ns0:title>The Unreasonable Effectiveness of Eccentric Automatic Prompts</ns0:title>
    <ns0:summary>  Large Language Models (LLMs) have demonstrated remarkable problem-solving and     
basic mathematics abilities. However, their efficacy is highly contingent on
the formulation of the prompt. This study endeavors to quantify the influence
of incorporating "positive thinking" into the system message of the prompt,
then compare that to systematic prompt optimization. We assess the performance
of 60 combinations of system message snippets, tested with and without Chain of
Thought prompting, across three models with parameters ranging from 7 to 70
billion on the GSM8K dataset. Our findings reveal that results do not
universally generalize across models. In most instances, the inclusion of
"positive thinking" prompts positively affected model performance. Notably,
however, Llama2-70B exhibited an exception when not utilizing Chain of Thought,
as the optimal system message was found to be none at all. Given the
combinatorial complexity, and thus computation time, of experimenting with
hand-tuning prompts for large black-box models, we then compared the
performance of the best "positive thinking" prompt against the output of
systematic prompt optimization. We show that employing an automated prompt
optimizer emerges as the most effective method for enhancing performance, even
when working with smaller open-source models. Additionally, our findings reveal
that the highest-scoring, automatically-optimized prompt exhibits a degree of
peculiarity far beyond expectations.
</ns0:summary>
    <ns0:author>
      <ns0:name>Rick Battle</ns0:name>
    </ns0:author>
    <ns0:author>
      <ns0:name>Teja Gollapudi</ns0:name>
    </ns0:author>
    <ns0:link href="http://arxiv.org/abs/2402.10949v2" rel="alternate" type="text/html" />
    <ns0:link title="pdf" href="http://arxiv.org/pdf/2402.10949v2" rel="related" type="application/pdf" />
    <ns2:primary_category term="cs.CL" scheme="http://arxiv.org/schemas/atom" />
    <ns0:category term="cs.CL" scheme="http://arxiv.org/schemas/atom" />
    <ns0:category term="cs.AI" scheme="http://arxiv.org/schemas/atom" />
    <ns0:category term="cs.LG" scheme="http://arxiv.org/schemas/atom" />
  </ns0:entry>
</ns0:feed>

上記レスポンスに含まれている情報

  1. ns0:feed: Atomフィードのルート要素で、XML名前空間が定義されています。

  2. ns0:link: フィードの自己参照リンクが含まれています。リンクは、このフィードを取得するためのAPIリクエストURLを示しています。

  3. ns0:title: [APIクエリ詳細](ArXiv Query: search_query=&id_list=2402.10949&start=0&max_results=1)が含まれています。

  4. ns0:id: フィードIDが含まれています。

  5. ns0:updated: 最終更新日時が含まれています。

  6. ns1:totalResults: 検索結果の総数が含まれています。 ns1:startIndex: 開始インデックスが含まれています。 ns1:itemsPerPage: 1ページあたりのアイテム数が含まれています。

  7. ns0:entry: フィードの各エントリを表す要素で、論文のメタデータが含まれています。

    • ns0:id: 論文IDが含まれています。

    • ns0:updated: 更新日が含まれています。

    • ns0:published: 公開日が含まれています。

    • ns0:title: [論文タイトル](The Unreasonable Effectiveness of Eccentric Automatic Prompts)が含まれています。

    • ns0:summary: [論文要約](Large Language Models (LLMs) have demonstrated...)が含まれています。

    • ns0:author: 論文の著者情報が含まれています。

      • [著者1](Rick Battle)

      • [著者2](Teja Gollapudi)

    • ns0:link: 論文の関連リンクが含まれています。

    • ns2:primary_category: 主要カテゴリが含まれています。

    • ns0:category: 論文のカテゴリ情報が含まれています。

5.著者名を元に、論文を検索する

import requests
import xml.etree.ElementTree as ET

# ArXiv APIのエンドポイント
base_url = "http://export.arxiv.org/api/query"

# 著者名
author_name = "Teja Gollapudi"

# APIリクエストのパラメータ
params = {
    "search_query": f"au:{author_name}",
    "max_results": 10,
    "start": 0,
    "sortBy": "submittedDate",
    "sortOrder": "descending"
}

# APIリクエストを送信
response = requests.get(base_url, params=params)

# XMLレスポンスをパースする
root = ET.fromstring(response.text)

# 論文情報を取得
for entry in root.findall("{http://www.w3.org/2005/Atom}entry"):
    # タイトル
    title = entry.find("{http://www.w3.org/2005/Atom}title").text

    # 著者
    authors = []
    for author in entry.findall("{http://www.w3.org/2005/Atom}author"):
        name = author.find("{http://www.w3.org/2005/Atom}name").text
        authors.append(name)

    # 公開日
    published = entry.find("{http://www.w3.org/2005/Atom}published").text

    # リンク
    link = entry.find("{http://www.w3.org/2005/Atom}id").text

    # 結果を出力
    print("Title:", title)
    print("Authors:", ", ".join(authors))
    print("Published:", published)
    print("Link:", link)
    print("---")

Responce:

Title: Complexity-constrained quantum thermodynamics
Authors: Anthony Munson, Naga Bhavya Teja Kothakonda, Jonas Haferkamp, Nicole Yunger Halpern, Jens Eisert, Philippe Faist
Published: 2024-03-07T19:00:01Z
Link: http://arxiv.org/abs/2403.04828v1
---
Title: A Decade of Privacy-Relevant Android App Reviews: Large Scale Trends
Authors: Omer Akgul, Sai Teja Peddinti, Nina Taft, Michelle L. Mazurek, Hamza Harkous, Animesh Srivastava, Benoit Seguin
Published: 2024-03-04T18:21:56Z
Link: http://arxiv.org/abs/2403.02292v2
---
Title: The Unreasonable Effectiveness of Eccentric Automatic Prompts
Authors: Rick Battle, Teja Gollapudi
Published: 2024-02-09T22:48:45Z
Link: http://arxiv.org/abs/2402.10949v2
---
Title: The enigmatic double-peaked stripped-envelope SN 2023aew
Authors: Tuomas Kangas, Hanindyo Kuncarayakti, Takashi Nagao, Rubina Kotak, Erkki Kankare, Morgan Fraser, Heloise Stevance, Seppo Mattila, Kei'ichi Maeda, Maximilian Stritzinger, Peter Lundqvist, Nancy Elias-Rosa, Lucía Ferrari, Gastón Folatelli, Christopher Frohmaier, Lluís Galbany, Miho Kawabata, Eleni Koutsiona, Tomás E. Müller-Bravo, Lara Piscarreta, Miika Pursiainen, Avinash Singh, Kenta Taguchi, Rishabh Singh Teja, Giorgio Valerin, Andrea Pastorello, Stefano Benetti, Yong-Zhi Cai, Panagiotis Charalampopoulos, Claudia P. Gutiérrez, Timo Kravtsov, Andrea Reguitti
Published: 2024-01-30T20:26:14Z
Link: http://arxiv.org/abs/2401.17423v1
---
Title: Data Exchange Markets via Utility Balancing
Authors: Aditya Bhaskara, Sreenivas Gollapudi, Sungjin Im, Kostas Kollias, Kamesh Munagala, Govind S. Sankar
Published: 2024-01-23T19:24:41Z
Link: http://arxiv.org/abs/2401.13053v1
---
Title: SN 2020udy: A new piece of the homogeneous bright group in the diverse
  Iax subclass
Authors: Mridweeka Singh, Devendra K. Sahu, Barnabas Barna, Anjasha Gangopadhyay, Raya Dastidar, Rishabh Singh Teja, Kuntal Misra, D. Andrew Howell, Xiaofeng Wang, Jun Mo, Shengyu Yan, Daichi Hiramatsu, Craig Pellegrino, G. C. Anupama, Arti Joshi, K. Azalee Bostroem, Jamison Burke, Curtis McCully, Rama Subramanian V, Gaici Li, Gaobo Xi, Xin Li, Zhitong Li, Shubham Srivastav, Hyobin Im, Anirban Dutta  
Published: 2024-01-13T16:15:42Z
Link: http://arxiv.org/abs/2401.07107v1
---
Title: Intermediate-luminosity Type IIP SN 2021gmj: a low-energy explosion with
  signatures of circumstellar material
Authors: Yuta Murai, Masaomi Tanaka, Miho Kawabata, Kenta Taguchi, Rishabh Singh Teja, Tatsuya Nakaoka, Keiichi Maeda, Koji S. Kawabata, Takashi Nagao, Takashi J. Moriya, D. K. Sahu, G. C. Anupama, Nozomu Tominaga, Tomoki Morokuma, Ryo Imazawa, Satoko Inutsuka, Keisuke Isogai, Toshihiro Kasuga, Naoto Kobayashi, Sohei Kondo, Hiroyuki Maehara, Yuki Mori, Yuu Niino, Mao Ogawa, Ryou Ohsawa, Shin-ichiro Okumura, Sei Saito, Shigeyuki Sako, Hidenori Takahashi, Kohki Uno, Masayuki Yamanaka
Published: 2024-01-11T11:14:56Z
Link: http://arxiv.org/abs/2401.05837v1
---
Title: X-ray luminosity versus orbital period of AM CVn systems
Authors: Teja Begari, Thomas J. Maccarone
Published: 2023-12-10T21:39:55Z
Link: http://arxiv.org/abs/2312.06007v1
---
Title: SPEEDNet: Salient Pyramidal Enhancement Encoder-Decoder Network for
  Colonoscopy Images
Authors: Tushir Sahu, Vidhi Bhatt, Sai Chandra Teja R, Sparsh Mittal, Nagesh Kumar S
Published: 2023-12-02T13:03:08Z
Link: http://arxiv.org/abs/2312.01128v1
---
Title: Continual Learning with Low Rank Adaptation
Authors: Martin Wistuba, Prabhu Teja Sivaprasad, Lukas Balles, Giovanni Zappella
Published: 2023-11-29T12:53:32Z
Link: http://arxiv.org/abs/2311.17601v1
---

6.OAI-PMHでの、論文メタデータの取得

ArXiv APIへのアクセスでのXMLデータには、残念ながら論文のライセンス情報が含まれていません。ArXiv APIから取得したデータを社内や、学内に公開するにあたり、論文のライセンス情報(再配布可能か?)を取得することが重要になります。

ArXivAPIとOAI-PMHの違いは以下の通りとなります。

  1. プロトコルの種類

    • OAI-PMH: メタデータハーベスティングのための標準プロトコル

    • ArXiv API: RESTful APIによるデータアクセス

  2. 主な目的

    • OAI-PMH: メタデータの収集と共有に特化

    • ArXiv API: プログラムからArXivのデータにアクセスするための汎用的なインターフェース

  3. データの範囲

    • OAI-PMH: メタデータのみ(タイトル、著者、要約、ライセンスなど)

    • ArXiv API: メタデータに加え、フルテキスト(PDFファイル)へのアクセスも可能

  4. クエリの柔軟性

    • OAI-PMH: 限定的なクエリ機能(日付範囲、セット、メタデータ形式など)

    • ArXiv API: 著者、タイトル、キーワードなどによる柔軟な検索が可能

  5. 認証

    • OAI-PMH: 認証不要

    • ArXiv API: APIキーによる認証が必要な場合がある

  6. 更新頻度

    • OAI-PMH: 増分ハーベスティングによる効率的な更新が可能

    • ArXiv API: リアルタイムのデータアクセスが可能だが、頻繁なリクエストには制限がある

  7. 利用シーン

    • OAI-PMH: メタデータの定期的な収集、リポジトリ間の相互運用性の確保など

    • ArXiv API: アプリケーション開発、データ分析、カスタム検索機能の実装など

以下が、OAI-PMHで、論文のメタデータをと合わせる例です。

import requests
import xml.etree.ElementTree as ET

def get_license_info(arxiv_id):
    # OAI-PMH endpoint
    base_url = 'http://export.arxiv.org/oai2'
    
    # Set parameters for the OAI-PMH request
    params = {
        'verb': 'GetRecord',
        'identifier': f'oai:arXiv.org:{arxiv_id}',
        'metadataPrefix': 'arXiv',
    }
    
    # Send the OAI-PMH request
    response = requests.get(base_url, params=params)
    
    # Parse the XML response
    root = ET.fromstring(response.text)
    print(ET.tostring(root, encoding='unicode'))
    
    # Find the license information in the metadata
    license_element = root.find('.//{http://arxiv.org/OAI/arXiv/}license')
    
    if license_element is not None:
        license_info = license_element.text
        return license_info
    else:
        return 'License information not found'

# Example usage
arxiv_id = '2402.10949'
license_info = get_license_info(arxiv_id)
print(f'License information for {arxiv_id}: {license_info}')

Responce

<ns0:OAI-PMH xmlns:ns0="http://www.openarchives.org/OAI/2.0/" xmlns:ns2="http://arxiv.org/OAI/arXiv/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
<ns0:responseDate>2024-03-12T02:37:35Z</ns0:responseDate>
<ns0:request verb="GetRecord" identifier="oai:arXiv.org:2402.10949" metadataPrefix="arXiv">http://export.arxiv.org/oai2</ns0:request>
<ns0:GetRecord>
<ns0:record>
<ns0:header>
 <ns0:identifier>oai:arXiv.org:2402.10949</ns0:identifier>
 <ns0:datestamp>2024-02-21</ns0:datestamp>
 <ns0:setSpec>cs</ns0:setSpec>
</ns0:header>
<ns0:metadata>
 <ns2:arXiv xsi:schemaLocation="http://arxiv.org/OAI/arXiv/ http://arxiv.org/OAI/arXiv.xsd">
 <ns2:id>2402.10949</ns2:id><ns2:created>2024-02-09</ns2:created><ns2:updated>2024-02-20</ns2:updated><ns2:authors><ns2:author><ns2:keyname>Battle</ns2:keyname><ns2:forenames>Rick</ns2:forenames></ns2:author><ns2:author><ns2:keyname>Gollapudi</ns2:keyname><ns2:forenames>Teja</ns2:forenames></ns2:author></ns2:authors><ns2:title>The Unreasonable Effectiveness of Eccentric Automatic Prompts</ns2:title><ns2:categories>cs.CL cs.AI cs.LG</ns2:categories><ns2:license>http://creativecommons.org/licenses/by/4.0/</ns2:license><ns2:abstract>  Large Language Models (LLMs) have demonstrated remarkable problem-solving and
basic mathematics abilities. However, their efficacy is highly contingent on
the formulation of the prompt. This study endeavors to quantify the influence
of incorporating "positive thinking" into the system message of the prompt,
then compare that to systematic prompt optimization. We assess the performance
of 60 combinations of system message snippets, tested with and without Chain of
Thought prompting, across three models with parameters ranging from 7 to 70
billion on the GSM8K dataset. Our findings reveal that results do not
universally generalize across models. In most instances, the inclusion of
"positive thinking" prompts positively affected model performance. Notably,
however, Llama2-70B exhibited an exception when not utilizing Chain of Thought,
as the optimal system message was found to be none at all. Given the
combinatorial complexity, and thus computation time, of experimenting with
hand-tuning prompts for large black-box models, we then compared the
performance of the best "positive thinking" prompt against the output of
systematic prompt optimization. We show that employing an automated prompt
optimizer emerges as the most effective method for enhancing performance, even
when working with smaller open-source models. Additionally, our findings reveal
that the highest-scoring, automatically-optimized prompt exhibits a degree of
peculiarity far beyond expectations.
</ns2:abstract></ns2:arXiv>
</ns0:metadata>
</ns0:record>
</ns0:GetRecord>
</ns0:OAI-PMH>
License information for 2402.10949: http://creativecommons.org/licenses/by/4.0/

OAIレスポンスには以下の情報が含まれます。

  1. OAI-PMHリクエストの詳細

    • リクエスト日時: 2024-03-12T02:37:35Z

    • リクエストの種類: GetRecord

    • 論文のID: oai:arXiv.org:2402.10949

    • メタデータの形式: arXiv

  2. 論文のメタデータ

    • 論文ID: 2402.10949

    • 作成日: 2024-02-09

    • 更新日: 2024-02-20

    • 著者情報:

      • 著者1: Rick Battle

      • 著者2: Teja Gollapudi

    • タイトル: The Unreasonable Effectiveness of Eccentric Automatic Prompts

    • カテゴリ: cs.CL, cs.AI, cs.LG

    • ライセンス: http://creativecommons.org/licenses/by/4.0/

    • アブストラクト: Large Language Models (LLMs) have demonstrated remarkable problem-solving and basic mathematics abilities. However, their efficacy is highly contingent on the formulation of the prompt. ...

  3. 追加情報

10.ライセンスの種類

以下に、ArXivに配信されている論文のライセンス種類を列挙します。

CCライセンス

  1. CC BY (Attribution):

    • 著作権者の表示が必要

    • 改変や商用利用を含む、あらゆる利用が可能

  2. CC BY-SA (Attribution-ShareAlike):

    • 著作権者の表示が必要

    • 改変や商用利用を含む、あらゆる利用が可能

    • 派生物は同じライセンスで公開する必要がある

  3. CC BY-ND (Attribution-NoDerivs):

    • 著作権者の表示が必要

    • 改変は禁止されているが、商用利用を含む、その他の利用は可能

  4. CC BY-NC (Attribution-NonCommercial):

    • 著作権者の表示が必要

    • 非商用目的に限り、改変を含むあらゆる利用が可能

  5. CC BY-NC-SA (Attribution-NonCommercial-ShareAlike):

    • 著作権者の表示が必要

    • 非商用目的に限り、改変を含むあらゆる利用が可能

    • 派生物は同じライセンスで公開する必要がある

  6. CC BY-NC-ND (Attribution-NonCommercial-NoDerivs):

    • 著作権者の表示が必要

    • 非商用目的に限り、改変せずに利用可能

  7. CC0 (No Rights Reserved):

    • パブリックドメインに近い状態

    • 著作権者が著作権を放棄し、利用者は自由に利用可能

arXiv.org - Non-exclusive license to distribute

arXiv.orgに論文を投稿する際に、投稿者がarXiv.orgに付与する独自のライセンスです。このライセンスの主な特徴は以下の通りです。

  1. 非独占的配布許諾:

    • 投稿者は、arXiv.orgに対して、投稿論文を配布する永続的かつ非独占的な許諾を与える

    • これにより、arXiv.orgは論文を自由に配布できるが、投稿者も他の場所で論文を配布することができる

  2. ライセンス付与の権利の保証:

    • 投稿者は、このライセンスを付与する権利を有していることを保証する

    • つまり、投稿者は論文の著作権を持っているか、このライセンスを付与する権限を持っていることを確認する

  3. 投稿論文の撤回不可:

    • 投稿者は、一度受理された論文を完全に撤回することはできないことを理解する

    • これは、arXiv.orgが学術記録の保存と整合性を維持するためである

  4. 論文の再分類や拒否の権利:

    • arXiv.orgは、投稿された論文を再分類したり、拒否したりする権利を有する

    • これは、arXiv.orgが提供するサービスの質を維持するために必要である

このライセンスは、主にarXiv.orgと投稿者の間の関係を定めたものであり、第三者による商用利用や再配布については明示的に言及していません。第三者の商用利用や再配布については別途著作者の許可が必要だと思われます。

11.カテゴリーの種類

ArXivのカテゴリリストは以下のリンクにて参照できます。


99.最後に

ArxivAPIを使えば、Arxivにある大量の論文データを簡単に取得できます。
APIを使って論文情報を自動的に集めたり、分析したりするのは、研究者や開発者にとってかなり便利なツールとなり得ます。

ただし、ArXivのAPIには利用規約や、リクエストの制限などの縛りもあるため利用方法を確認して使う必要がありそうです。

私にとって、論文へのソート+アクセスは現在、Xからのリンクメインとなってしまっているため、もっと簡単にアクセスできる手段はないかということで今回調査を行いました。参考になれば幸いです。

この記事が気に入ったらサポートをしてみませんか?