見出し画像

ローカルLLMで無料、海外データセットを機械翻訳

かねてより課題である、日本語LLM学習データ不足の問題

APIを使った機械翻訳では、特に大量データを扱う場合費用面が大変です

昨年から、ローカルLLMを使用した翻訳特化調整に取り組んできました

今回HuggingFaceがApache2.0ライセンスで公開しているデータセットの翻訳を試してみました

現在作成中の翻訳モデルの出力結果です

<english>: When you've been involved in an auto accident, particularly one involving a commercial truck, receiving a settlement offer from the insurance company is often top of mind. After all, medical bills, lost wages, and property damage can quickly add up, leaving you financially strained. However, the timing of a settlement offer can vary greatly depending on several factors. Let's delve deeper into the nuances of this topic.\n\nFirst and foremost, before any settlement negotiation can occur, it's crucial to establish liability. Gathering evidence such as medical records, photographs, witness statements, and other relevant documentation helps build a solid foundation for your case. An experienced Austin truck accident attorney can guide you through this process and ensure that all necessary evidence is gathered and presented effectively. \n\nOne factor that can significantly impact the timeline of a settlement offer is the complexity of the case itself. For instance, if multiple parties are involved, determining responsibility becomes more intricate, potentially delaying the settlement process. Additionally, cases involving severe injuries usually require extensive medical evaluations and treatment plans, which takes time to compile and present accurately.\n\nAnother critical aspect influencing the speed of a settlement offer is communication between the two negotiating parties – i.e., your legal representative and the insurance adjuster. While some adjusters work diligently to resolve claims swiftly, others might employ stall tactics designed to lowball offers or wear down claimants. Patience and perseverance are essential here; attempting to rush the process could result in a lower payout than what you rightfully deserve.\n\nFurthermore, keep in mind that each case is unique, meaning there's no standard timeline for receiving a settlement offer following a truck accident. Some claims may reach resolution within months, while others might drag on for over a year due to unforeseen complications or disputes. It's vital to stay informed throughout the process, maintaining open lines of communication with your attorney to understand where things stand and what to expect moving forward.\n\nLastly, consider mediation as a viable option if negotiations become tense or protracted. Mediators act as impartial third parties who facilitate discussions between opposing counsel, aiming to find middle ground and expedite resolutions. By bringing in a mediator, both sides agree to compromise, often leading to faster (and fairer) outcomes.\n\nIn conclusion, various elements contribute to the length of time it takes for a settlement offer after an Austin truck accident. Building a strong case through thorough evidence collection, exercising patience during negotiations, and considering alternative dispute resolution methods can help streamline the process. Remember, staying informed and working closely with an experienced truck accident lawyer increases your chances of securing a favorable outcome, even if it requires a bit of waiting.\n<NL>\n\n

<japanese>: 自動車事故に巻き込まれた場合、特に商業トラックが絡む事故の場合、保険会社からの和解案を受け取ることが、しばしば頭に浮かびます。医療費、失われた賃金、財産の損害はすぐに積み重なり、あなたは経済的に苦境に立たされることになるからです。しかし、和解案の提示時期は、いくつかの要因によって大きく異なることがあります。このトピックのより深い洞察を得るために、さらに掘り下げてみましょう。\n\nまず第一に、和解交渉を行う前に、責任の所在を確立することが非常に重要です。医療記録、写真、目撃者の陳述書、その他の関連資料などの証拠を収集することで、あなたのケースの強固な基盤を築くことができます。経験豊富なオースティンのトラック事故弁護士は、このプロセスをガイドし、必要な証拠を効果的に収集・提示することができます。\n\n和解案の提示時期に大きな影響を与える要因の 1 つは、事件の複雑さです。複数の当事者が関与している場合、責任の所在を確定することがより複雑になり、和解交渉が遅れる可能性があります。また、重傷を負った事件では、医療評価や治療計画が必要になることが多く、これを正確にまとめて提示するには時間がかかります。\n\n和解案の提示時期に影響を与えるもう 1 つの重要な要素は、交渉当事者間のコミュニケーションです。つまり、あなたの代理人と保険調整者とのコミュニケーションです。一部の調整者は迅速に請求を解決するために懸命に働くかもしれませんが、他の調整者は和解金を低めに提示するために遅延戦術を使用したり、請求者を疲れさせようとするかもしれません。忍耐と粘り強さがここでは重要です。和解交渉を急ぐと、本来受け取るべき金額よりも低い和解金を受け取ることになる可能性があります。\n\nさらに、オースティンのトラック事故後に和解案を受け取るまでの時間は、それぞれのケースがユニークであるため、標準的なタイムラインはありません。一部の請求は数か月以内に解決する可能性がありますが、他の請求は予期せぬ事態や紛争により、1 年以上かかる可能性があります。和解交渉の状況を把握し、今後の見通しを理解するために、弁護士と常に連絡を取り合うことが重要です。\n\n最後に、交渉が緊張したり長引いたりした場合には、仲裁を検討することをお勧めします。仲裁人は、対立する当事者間の話し合いを促進し、妥協点を見つけて迅速な解決を目指す中立的な第三者です。仲裁人を介入させることで、双方が妥協し、より迅速かつ公正な結果を得ることができます。\n\n結論として、オースティンのトラック事故後の和解案提示までの時間は、さまざまな要因によって影響を受けます。証拠を徹底的に収集し、交渉を忍耐強く行い、代替的な紛争解決方法を検討することで、和解交渉のプロセスを合理化することができます。覚えておいてください。経験豊富なトラック事故弁護士と緊密に連携することで、あなたが受け取るべき和解金を確保することができ、たとえそれには少し待つことが必要であっても、より有利な結果を得ることができます。\n<NL>\n

同じ文章をブラウザでGoogle翻訳します

自動車事故、特に商用トラックが関係する事故に巻き込まれた場合、保険会社から示談金を受け取ることが一番の関心事になることがよくあります。結局のところ、医療費、賃金の損失、物的損害がすぐに積み重なり、経済的に負担が大きくなる可能性があります。ただし、和解案のタイミングは、いくつかの要因によって大きく異なる場合があります。このトピックのニュアンスをさらに深く掘り下げてみましょう。\n\n何よりもまず、和解交渉を行う前に、責任を確立することが重要です。医療記録、写真、証人の陳述書、その他の関連文書などの証拠を収集することは、訴訟の強固な基盤を構築するのに役立ちます。経験豊富なオースティンのトラック事故弁護士がこのプロセスをガイドし、必要な証拠をすべて効果的に収集して提出できるようにします。 \n\n和解案のスケジュールに大きな影響を与える可能性がある要因の 1 つは、訴訟自体の複雑さです。たとえば、複数の当事者が関与している場合、責任の判断はより複雑になり、和解プロセスが遅れる可能性があります。さらに、重傷を伴うケースでは通常、広範な医学的評価と治療計画が必要であり、正確にまとめて提示するには時間がかかります。\n\n和解案のスピードに影響を与えるもう 1 つの重要な側面は、交渉当事者 (つまり、あなたの法定代理人) の間のコミュニケーションです。そして保険査定人。請求を迅速に解決するために熱心に働く鑑定人もいますが、他の鑑定人は、オファーを低めに設定したり、請求者を疲弊させたりすることを目的とした手詰まり戦術を採用する場合があります。ここでは忍耐と忍耐が不可欠です。手続きを急いで進めようとすると、正当に支払われる金額よりも低い金額が支払われる可能性があります。\n\nさらに、それぞれのケースは個別であること、つまり、トラック事故後に和解案を受け取るための標準的なスケジュールがないことを念頭に置いてください。請求によっては数か月以内に解決に至る場合もありますが、予期せぬ複雑な問題や紛争により 1 年以上長引く場合もあります。プロセス全体を通して常に情報を入手し、弁護士とのオープンなコミュニケーションを維持して、現状と今後何が予想されるかを理解することが重要です。\n\n最後に、交渉が緊張したり長引いたりする場合は、実行可能な選択肢として調停を検討してください。調停人は公平な第三者として機能し、対立する弁護士間の話し合いを促進し、妥協点を見つけて解決を促進することを目指します。調停者を入れることで、双方が妥協することに同意し、多くの場合、より迅速な (そしてより公平な) 結果が得られます。\n\n結論として、オースティンのトラック事故後の和解提案までにかかる時間の長さには、さまざまな要素が影響しています。徹底的な証拠収集を通じて強力な主張を構築し、交渉中に忍耐力を発揮し、代替紛争解決方法を検討することは、プロセスを合理化するのに役立ちます。常に情報を入手し、経験豊富な交通事故弁護士と緊密に連携することで、多少の待ち時間が必要であっても、有利な結果が得られる可能性が高まることを忘れないでください。

さすが、Google品質と速度が素晴らしいです

翻訳品質は実際読んでみるのがよいですが、全部読んでられないので、GPT-4に採点してもらいます

🤖GPT-4
この2つの翻訳は、オリジナルの英語のテキストに基づいて、オースティンでのトラック事故後の保険和解案に関する内容を日本語に翻訳したものです。両方の翻訳は内容を適切に伝えていますが、品質を評価する際には、いくつかの異なる側面に注意を払う必要があります。

正確性翻訳A翻訳Bはどちらも原文の意味を正確に伝えています。特に専門用語の使用や文脈の理解について、誤訳や意味の歪みは見られません。


自然さと流暢さ翻訳Aは、日本語としての自然さと流暢さにおいて、やや優れています。文章は読みやすく、日本語ネイティブスピーカーが書いたかのように感じられます。
翻訳Bも適切な翻訳をしていますが、一部の文がやや硬い表現や直訳に近い形で訳されている場合があります。これは読み手によっては少し不自然に感じられるかもしれません。


技術的な正確さ両方の翻訳は、法律的プロセスや保険の交渉に関連する専門用語を適切に扱っています。この点で大きな差はありません。


コヒーレンスと一貫性翻訳A翻訳Bはいずれも、原文の構造と論理的な流れを保っています。情報の提示順序や段落の構成が元のテキストの意図を忠実に反映しており、読み手が情報を追いやすいです。


総合評価翻訳Aは、日本語としての流暢さと自然さにおいて若干優れているため、9/10の評価です。
翻訳Bは、全体的に適切な翻訳であるものの、一部の不自然な表現が読み手の理解を妨げる可能性があるため、8.5/10の評価です。


両翻訳ともに高品質ですが、翻訳Aの方が若干優れていると評価します。それでも、特定のニーズや好みに応じて、どちらの翻訳も有用です。

Google翻訳に、品質面で勝ちました!!

次のエントリを見てみます。

<english>: Course Unit: LISA Pathfinder Mission and Gravitational Wave Detection\n\n1. Introduction\nGravitational waves are ripples in spacetime caused by some of the most violent and energetic processes in the Universe, such as colliding neutron stars or merging black holes. These waves were first predicted by Albert Einstein in 1916 as part of his general theory of relativity, but they have never been directly detected until recently. The Laser Interferometer Space Antenna (LISA) Pathfinder mission, launched in December 2015, was a crucial step towards detecting gravitational waves from space. This course unit explores the science behind gravitational waves, the LISA Pathfinder mission, its objectives, achievements, and implications for future astrophysical research.\n2. Gravitational Waves: Concept and Significance\nGravitational waves are disturbances in the curvature of spacetime generated by accelerating massive objects. They propagate outward from their source like waves on water, carrying unique information about their cataclysmic origins and providing insights into the nature of gravity itself. Detecting and measuring gravitational waves can help us understand how the universe works, test our theories of gravity, and open up new ways of studying phenomena we cannot observe any other way.\n3. The LISA Pathfinder Mission\nThe LISA Pathfinder mission was designed to demonstrate technology necessary for detecting gravitational waves from space. It tested the fundamental technologies required for LISA, which includes drag-free flight, high-precision interferometry, and low-noise laser systems. By demonstrating these technologies, LISA Pathfinder paved the way for a full-scale space-borne gravitational wave detector capable of making observations impossible from Earth-based detectors.\n4. Objectives and Achievements of LISA Pathfinder\nThe primary objective of LISA Pathfinder was to validate free-fall motion control and measure the performance of micro-Newton thrusters used to keep the spacecraft centered on a pair of cubes separated by just 38 cm. Additionally, it aimed to prove that two independent objects could be put in free fall and kept under control at the level needed for LISA's detection sensitivity. Both objectives were achieved successfully.\n\t* Free-Falling Cubes: LISA Pathfinder carried two identical gold-platinum cubes weighing approximately 2 kg each. These cubes were placed inside electrode housings, which created an electric field around them. By applying voltages to the electrodes, scientists controlled the position and orientation of the cubes precisely, allowing them to maintain their relative positions to better than one billionth of a meter over time scales of minutes to hours.\n\t* Low Noise Measurement System: To achieve the desired accuracy, LISA Pathfinder incorporated a highly sensitive measurement system based on laser interferometry. The system measured changes in distance between the two cubes down to 10 pm (picometers), equivalent to one ten-millionth of the diameter of a human hair. Moreover, this level of precision surpassed what was initially envisaged for LISA Pathfinder by more than a factor of three.\n5. Implications for Future Research\nWith the successful completion of the LISA Pathfinder mission, researchers now have confidence that a full-scale space-based gravitational wave observatory can deliver the expected sensitivity levels. Furthermore, it opened doors for various applications, including testing general relativity further, probing the early universe, understanding supermassive black hole formation, and much more. As a result, the European Space Agency approved the LISA mission, scheduled for launch in the late 2030s, aiming to make direct detections of gravitational waves from space finally.\n\nConclusion\nThe LISA Pathfinder mission represents a significant milestone in astronomy and astrophysics, advancing humanity's ability to study the cosmos through gravitational waves. Its groundbreaking technolo\n<NL>\n\n

<japanese>: コース単位: リサ・パスファインダー・ミッションと重力波検出\n\n1. 導入\n重力波は、宇宙で最も暴力的でエネルギッシュなプロセスのいくつか、例えば、衝突する中性子星や合体するブラックホールなどによって引き起こされる時空の波紋です。 これらの波は、アルバート・アインシュタインが1916年に一般相対性理論の一部として初めて予測しましたが、最近まで直接検出されていませんでした。 2015 年 12 月に打ち上げられたレーザー干渉計宇宙アンテナ (LISA) パスファインダー ミッションは、重力波を宇宙から検出するための重要なステップでした。 このコース単位では、重力波の科学、LISA パスファインダー ミッション、その目的、達成、および将来の宇宙物理学研究への影響について詳しく説明します。\n2. 重力波: 概念と重要性\n重力波は、加速する質量の大きい物体によって時空の曲率に生じる波紋です。 波紋は水の波紋のように宇宙空間に広がっていき、その起源の悲惨な起源や重力の本質についての独自の情報を伝えます。 重力波を検出し、測定することは、宇宙がどのように機能するかを理解するのに役立ち、私たちの重力理論をテストし、重力波でしか観測できない現象を研究する新しい方法を開くことができます。\n3. LISA Pathfinder ミッション\nLISA Pathfinder ミッションは、重力波を宇宙から検出するために必要な技術を実証することを目的としていました。 このミッションでは、LISA に必要な基本的な技術である、自由落下運動制御の検証と、マイクロニュートン スラスターの使用による宇宙船の中心への正確な配置、および低ノイズ レーザー システムの性能測定がテストされました。 これらの技術を実証することで、LISA Pathfinder は、地球ベースの検出器では不可能な観測を行うことができる、完全な軌道上重力波検出器を実現する道を開きました。\n4. LISA Pathfinder の目的と成果\nLISA Pathfinder の主な目的は、自由落下運動制御を検証し、マイクロニュートン スラスターを使用して宇宙船を 38 cm 間隔で配置された 2 つの立方体の中心に正確に配置することでした。 さらに、2 つの独立した物体を自由落下させ、LISA の検出感度に必要なレベルで制御できることを実証することを目的としていました。 どちらの目標も成功裏に達成されました。\n\t* 自由落下立方体: LISA Pathfinder は、重さ約 2 kg の金プラチナ製の立方体 2 個を搭載していました。 これらの立方体は、電極ハウジング内に配置され、電場が周囲に形成されました。 電極に電圧を印加することで、科学者は立方体の位置と向きを精密に制御し、時間スケールで立方体の相対位置をより正確に 10 億分の 1 メートルに保つことができました。\n\t* 低ノイズ測定システム: 必要な精度を達成するために、LISA Pathfinder には、レーザー干渉計に基づく非常に感度の高い測定システムが組み込まれていました。 このシステムは、立方体間の距離の変化を 10 pm (ピコメートル) の精度で測定し、これは人間の髪の毛の直径の 10 億分の 1 の精度に相当します。 さらに、このレベルの精度は、当初 LISA Pathfinder で想定されていたものを 3 倍以上上回りました。\n5. 今後の研究への影響\nLISA Pathfinder の成功により、科学者は重力波観測所を軌道上に設置することで、期待される感度レベルを達成できるという自信を持つことができました。 さらに、重力波天文学のさまざまな応用が開かれ、一般相対性理論をさらに深く探求すること、初期宇宙を調査すること、超大質量ブラックホールの形成を理解すること、そしてさらに多くのことが可能になりました。 その結果、欧州宇宙機関は LISA ミッションを承認し、2030 年代後半の打ち上げを目指しています。\n\n結論\nLISA Pathfinder ミッションは、重力波を通じて宇宙を研究する人類の能力における画期的なマイルストーンです。

GPT-4に評価してもらいました。長文のため、Googleの翻訳結果を同時に送信できなかったため、まず単独での評価です。

🤖この翻訳は、原文の内容と意味をかなり正確に反映していると言えますが、いくつかの点で改善の余地があります。以下にその評価を示します。

正確性と完全性翻訳は原文の情報を適切にカバーしており、主要なポイントと細部を失うことなく伝えています。特に、LISA Pathfinderミッションの目的、技術的達成、そして将来の研究への影響についての説明は忠実に翻訳されています。


語彙と表現専門用語(例:「重力波」、「レーザー干渉計」、「自由落下」など)は適切に使用されており、分野の専門家や興味を持つ一般読者にも理解しやすい。
ただし、「重力波の科学」という表現は英文の「the science behind gravitational waves」を直訳したもので、少し不自然に感じるかもしれません。「重力波の背後にある科学」や「重力波科学の基礎」といった表現がより自然でしょう。


文体と流れ文体は一般的に原文の情報を明確に伝えるために適していますが、英文の流れや文脈を日本語の読者にとってより自然に感じさせるためには、いくつかの文をより流暢にすることができます。例えば、「これらの波は、アルバート・アインシュタインが1916年に一般相対性理論の一部として初めて予測しましたが、最近まで直接検出されていませんでした。」という文は、「アルバート・アインシュタインが1916年に一般相対性理論の一環としてこれらの波を初め


翻訳Aは、原文の内容を正確に反映していると言えますが、いくつかの点で改善の余地があります。以下にその評価を示します。

正確性と完全性

翻訳は原文の情報を正確に伝えています。技術的な用語や科学的な概念も適切に翻訳されており、LISA Pathfinder ミッションの目的、達成事項、さらには未来の研究への影響までしっかりとカバーしています。特に、重力波検出の科学的背景や、LISA Pathfinder による技術的試験の重要性が明確に説明されています。

技術用語の取り扱い

専門用語や科学的な概念は適切に翻訳され、原文の意味を正確に反映しています。たとえば、「重力波」、「時空の曲率」、「レーザー干渉計」などの用語は、専門的な文脈において正しい翻訳を用いています。

文体と流れ

翻訳の文体は、原文の教育的かつ情報提供的なトーンを維持しています。しかし、日本語の自然な流れや文体にはいくつかの改善点があります。特に、長い文や複雑な節の構造が読み手にとって難解にならないよう、より短く簡潔な表現に分割することが推奨されます。また、一部の文章では、もう少し自然な日本語表現に修正することで読みやすさが向上するでしょう。

改善提案専門用語の一貫性: 一部の専門用語については、同じ用語でも異なる表現が用いられている場合があるため、用語の使用を統一することで理解を深めることができます。
文の構造: 複雑な文や節の構造を簡略化し、情報を分かりやすく伝えるために、より短い文を使用することが望ましいです。
日本語の自然さ: 一部の文は直訳的なニュアンスが強く、もう少し日本語として自然な表現に置き換えることができます。


総評

翻訳Aは全体的に高い品質を示していますが、読みやすさを向上させるために文体や表現を若干修正することが推奨されます。内容の正確さと情報の完全性に関しては、原文の意図をよく反映しており、科学的な概念も適切に翻訳されているため、高く評価されます。


かなり良いですが、少し改善の余地があります。
Google翻訳結果も送って比較しました。

翻訳Aと翻訳Bを比較して評価すると、以下のような違いが見られます。

正確性翻訳A翻訳Bはどちらも原文の情報を正確に伝えており、重要な技術的詳細とミッションの成果を適切にカバーしています。特に、LISA Pathfinderミッションの目的と成果、重力波の概念とその科学的重要性についての説明は、両翻訳ともに正確です。


自然さと流暢さ翻訳Bは、表現が若干より自然で流れがスムーズな印象を与えます。特に、「はじめに」のセクションや「重力波: 概念と意義」の部分では、文が短く、情報の提供方法が直接的であるため、読みやすさが増しています。
翻訳Aでは、いくつかの表現が直訳的に感じられる箇所があり、日本語としての自然さを若干損ねています。しかし、専門用語の使用と技術的な詳細の説明は正確であり、内容理解に必要な情報はしっかり伝えられています。


一貫性両翻訳ともに、用語の使用において一貫性が保たれています。特に、専門用語の翻訳においては、どちらの翻訳も適切な用語を選択しており、科学的な内容の理解に影響を与えるような不一致は見られません。


総評翻訳Bは、自然さと流暢さの面で若干優れています。情報の提示方法が直接的で、読み手にとって理解しやすい表現を使用しているため、一般の読者にもアクセスしやすい内容となっています。
翻訳Aも高い品質を持っており、特に専門用語の正確な使用と技術的詳細の丁寧な説明によって、原文の意図を正しく伝えています。ただし、日本語としての自然さや読みやすさをさらに高めるためには、いくつかの表現を改善する余地があります。


総合的に評価すると、翻訳Bが若干優れていると言えますが、翻訳Aも重要な情報を適切に伝えており、特に科学的内容の理解においては非常に有用です。どちらの翻訳も、それぞれに長所があり、目的に応じて適切に使用されるべきです。

今回は、Google翻訳のほうが評価が良いです。
あと一息のところまで来ているようですが、速度面ではGoogle翻訳が圧倒的です。

言語モデルを用いた翻訳の大きな利点は、従来の機械翻訳と異なり、長い文章の文脈に応じて翻訳結果を変えるなど、文章全体を考慮した翻訳が可能であることです。

ハルシネーションや読み飛ばしが多いため、重大な結果をもたらす領域では使用しにくいですが、領域を選べば実用的になってきました

今回100%の目標達成には至っていませんが、ファインチューニング用の翻訳データセットの作成にこれを使用していこうと考えています。ファインチューニングに用いるデータセットは、一定の整合性があり、論理的に問題がなく、文の構造が適切であれば良いと考えます。

この理由は、最近のファインチューニング実験で、自然な日本語の流れを維持するための次のトークンの予測が事前学習に大きく依存していると感じたからです。単語間の自然なつながりを重視する場合、基礎となるモデルの性能が最も重要であると考えています。

海外では高品質なデータセットやオープンな言語モデルが次々とでていますが、日本語圏では厳しい状況が続いています。
日本語が堪能で、高品質なデータセットを作成できる言語モデル発表が待たれます

この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?