Testing Translation Models Beyond Accuracy Scores

Share this article

Testing Translation Models Beyond Accuracy Scores

One might argue that translation is a problem that has long been solved with the advent of sequence-to-sequence models. That assumption, however, is far from the truth. While significant progress has been made, particularly in handling complex and non-Latin languages, many translation systems still break in production when applied to real-world, cross-lingual use cases on the web. These failures surface not only in specialised scenarios but also in routine tasks, such as general text translation and full web page localisation.

In this context, we aim to evaluate where our service stands today, in light of recent research-driven advances, new model releases, and our own internal improvements to JigsawStack Translation.

What Makes a Great Translation Solution?

Translation models should maintain consistency in grammar, word order, and syntax across languages while preserving meaning, intent, and contextual relationships without introducing omissions, distortions, or unintended reinterpretations. We tested ChatGPT Translate, Translate Gemma 27b, Google Translation API & JigsawStack using these five categories to evaluate where models break.

  1. Long-Form Legal Sentences
    Testing preservation of sentence boundaries, clause hierarchy, tense flow, and referential integrity.

  2. Grammar & Ambiguity
    Evaluating how models resolve structurally or semantically ambiguous constructions without hallucinating clarity or altering intent.

  3. Numbers, Dates, Identifiers & Entities
    Verifying exact retention of numeric values, temporal references, legal identifiers, and named entities without normalisation, reformatting, or substitution.

  4. RTL and LTR Language Pairs
    Assessing stability when translating between right-to-left and left-to-right scripts, including punctuation direction, token ordering, and structural alignment.

  5. Slang & Informal Language
    Measuring how models handle colloquial expressions, idioms, and non-standard grammar without sanitising tone or over-formalising the output.

Sneak peek if you can’t wait 👇

◐ = partial | ❌ = inaccurate/fails | ✅ = accurate/succeeds

CategoryJigsawStackGoogle TranslateGemmaChatGPT
Long Form Legal Sentences✅ Preserves legal, document identifiers, and nouns well while maintaining the structure and relation❌ Mistranslates when document identifiers or abbreviations are involved (e.g., "Dkt. 298" as "Doctor number 298")❌ Results in incorrect translation (i.e., "Dkt." incorrectly; mistranslated "tort" as "compensation" (क्षतिपूर्ति))✅ Preserves legal, document identifiers and nouns well while maintaining the structure and relation
Grammar & Ambiguity✅ Preserves nested relative clause structure with जिसे...जिसे chain❌ Flattenes structure into adjective phrase; changed past tense to present◐ Simplifies structure; added extra content that is not in the source✅ Preserves nested relative clause structure with जिसे...जिसे chain
Numbers, Dates, Identifiers✅ Preserves all numbers, currencies (€, $), dates, build ID, brand names◐ Translates brands names to Hindi (एप्पल, आईफोन, सैमसंग)❌ Transliterates brands + replaced currency symbols with words (यूरो, डॉलर)✅ Preserves Nouns, Currency signs, and numbers well
RTL/LTR Languages✅ Preserves of identifiers; minor: "10:00" instead of "10"◐ Write the time in words❌ Hallucinates (i.e., "final version" instead of “file version )◐ Can translate proper nouns (i.e., apple → آبل)
Slangs✅ Preserves slang well without getting too informal❌ Misses out on words due to overformalizing the sentence❌ Hallicunates majorly✅ Preserves slang well without getting too informal
Developer Friendly✅ Has an easy-to-use API✅ Has an easy-to-use API❌ Have to self-host❌ No API Service available
Pricing~$0.00003 incurred here~$0.00004 incurred here$0.20 ( 33,101ms ÷ 3,600,000ms/hour × $21.48/hour )❌ No API Service available
Rate Limits50 requests per second30,000 characters per second✅ Configurable as required❌ No API Service available
SpeedAverage latency is 4-5sAverage latency is 450msAverage latency is 6-7sAverage latency is 8-10s

Key Findings:

  • JigsawStack was solid, performed best overall with an easy-to-use API and a generous free tier rate limit, and it stands as the best among all tested.

  • ChatGPT Translate performed well overall, particularly in preserving structure and identifiers. However, we observed a small number of edge cases where the system shifts into an explanation mode rather than producing a direct translation.

  • Google Translate API over-simplified grammar and transliterated brand names unnecessarily

  • Translate Gemma 27b exhibited the highest error rate among the evaluated models, including hallucinations such as introducing unrelated context (e.g., music references or “final version” labels). When direct slang or sensitive terms were present in the input, the model frequently refused to generate a translation altogether.

Results

Category 1: Long-Form Legal Sentences

To evaluate this category, we take the following English source text and analyse its translation into Hindi, a language written in a non-Latin script.

Input Text -

This Court already required Musk to elect between his unjust enrichment and breach of contract claims. Dkt. 298. OpenAI now demands that Musk elect between his unjust enrichment and tort claims, too. That demand is baseless. The unjust enrichment and tort claims have different elements, and Musk may present both theories to the jury at trial. Where different claims have different elements, the plaintiff may present both claims to the jury, and the jury can then decide which claim or claims are supported by the evidence. A court may not force upon the plaintiff an election between causes of action that the plaintiff has a right to plead. The system operates in three phases. First, data is collected from distributed nodes. Second, the data is validated and normalized. Finally, the processed data is indexed and stored. Failure in the second phase prevents progression to the third. The policy applies to all users who access the platform after January 1st. Users who continue using the service implicitly agree to the updated terms. Any violation may result in suspension or termination of access.

Expected Text -

इस न्यायालय ने पहले ही मस्क को अपने अनुचित समृद्धि और अनुबंध के उल्लंघन के दावों के बीच चयन करने का निर्देश दिया था। Dkt. 298. अब OpenAI यह मांग कर रहा है कि मस्क अपने अनुचित समृद्धि और अपकृत्य दावों के बीच भी चयन करे। यह मांग निराधार है। अनुचित समृद्धि और अपकृत्य दावों के तत्व अलग-अलग हैं, और मस्क मुकदमे में जूरी के समक्ष दोनों सिद्धांत प्रस्तुत कर सकता है। जहाँ विभिन्न दावों के तत्व भिन्न होते हैं, वहाँ वादी दोनों दावे जूरी के समक्ष रख सकता है, और जूरी यह तय कर सकती है कि कौन-सा दावा या दावे साक्ष्यों द्वारा समर्थित हैं। न्यायालय वादी पर उन कारणों के बीच चयन थोप नहीं सकता जिन्हें प्रस्तुत करने का अधिकार वादी को प्राप्त है।प्रणाली तीन चरणों में संचालित होती है। प्रथम, डेटा को वितरित नोड्स से एकत्र किया जाता है। द्वितीय, डेटा का सत्यापन और सामान्यीकरण किया जाता है। अंततः, संसाधित डेटा को अनुक्रमित कर संग्रहित किया जाता है। द्वितीय चरण में विफलता होने पर तृतीय चरण में प्रगति संभव नहीं होती।\n\nयह नीति 1 जनवरी के बाद मंच का उपयोग करने वाले सभी उपयोगकर्ताओं पर लागू होती है। जो उपयोगकर्ता सेवा का उपयोग जारी रखते हैं, वे अद्यतन शर्तों से निहित रूप से सहमत माने जाते हैं। किसी भी उल्लंघन के परिणामस्वरूप पहुँच का निलंबन या समाप्ति हो सकती है।

Response - ChatGPT Translate

यह न्यायालय पहले ही मस्क को उनके अनुचित लाभ और अनुबंध के उल्लंघन के दावों में से एक चुनने की आवश्यकता बता चुका है। Dkt. 298. अब OpenAI मांग कर रहा है कि मस्क अपने अनुचित लाभ और टॉर्ट दावों में से भी चुनाव करें। यह मांग निराधार है। अनुचित लाभ और टॉर्ट दावों के तत्व अलग-अलग हैं, और मस्क मुकदमे के दौरान जूरी के समक्ष दोनों सिद्धांत प्रस्तुत कर सकते हैं। जहाँ अलग-अलग दावों के तत्व अलग होते हैं, वहाँ वादी दोनों दावे जूरी के सामने रख सकता है, और जूरी तब यह तय कर सकती है कि कौन-सा दावा या दावे साक्ष्यों द्वारा समर्थित हैं। कोई न्यायालय वादी पर ऐसे कारण-ए-दावा के बीच चुनाव थोप नहीं सकता जिन्हें प्रस्तुत करने का अधिकार वादी को है। प्रणाली तीन चरणों में कार्य करती है। पहले, वितरित नोड्स से डेटा एकत्र किया जाता है। दूसरे, डेटा का सत्यापन और सामान्यीकरण किया जाता है। अंत में, संसाधित डेटा को अनुक्रमित कर संग्रहीत किया जाता है। दूसरे चरण में विफलता तीसरे चरण में प्रगति को रोक देती है। यह नीति 1 जनवरी के बाद प्लेटफ़ॉर्म तक पहुँचने वाले सभी उपयोगकर्ताओं पर लागू होती है। जो उपयोगकर्ता सेवा का उपयोग जारी रखते हैं, वे अप्रत्यक्ष रूप से अद्यतन शर्तों से सहमत होते हैं। किसी भी उल्लंघन के परिणामस्वरूप पहुँच का निलंबन या समाप्ति हो सकती है।

Response - Translate Gemma 27b

यह न्यायालय पहले ही मस्क को उनके अनुचित लाभ और अनुबंध उल्लंघन के दावों में से किसी एक को चुनने का आदेश दे चुका है। दस्तावेज़ संख्या 298। अब ओपनएआई मांग कर रहा है कि मस्क अपने अनुचित लाभ और क्षतिपूर्ति के दावों में से किसी एक को चुनें। यह मांग निराधार है। अनुचित लाभ और क्षतिपूर्ति के दावों में अलग-अलग तत्व होते हैं, और मस्क दोनों सिद्धांतों को मुकदमे के दौरान जूरी के सामने पेश कर सकते हैं। जब अलग-अलग दावों में अलग-अलग तत्व होते हैं, तो वादी दोनों दावों को जूरी के सामने पेश कर सकता है, और फिर जूरी यह तय कर सकती है कि कौन सा दावा या दावे सबूतों द्वारा समर्थित हैं। कोई न्यायालय वादी पर उन कारणों में से किसी एक को चुनने के लिए दबाव नहीं डाल सकता, जिनका दावा करने का वादी को अधिकार है। यह प्रणाली तीन चरणों में काम करती है। सबसे पहले, वितरित नोड्स से डेटा एकत्र किया जाता है। दूसरे, डेटा को मान्य और सामान्यीकृत किया जाता है। अंत में, संसाधित डेटा को अनुक्रमित और संग्रहीत किया जाता है। दूसरे चरण में विफलता तीसरे चरण में प्रगति को रोकती है। यह नीति उन सभी उपयोगकर्ताओं पर लागू होती है जो 1 जनवरी के बाद प्लेटफ़ॉर्म का उपयोग करते हैं। जो उपयोगकर्ता सेवा का उपयोग जारी रखते हैं, वे निहित रूप से अद्यतन शर्तों से सहमत होते हैं। किसी भी उल्लंघन के परिणामस्वरूप पहुंच निलंबित या समाप्त की जा सकती है।

Notes - Translated "Dkt. 298" to "दस्तावेज़ संख्या 298" (document number) - should be preserved as-is. Mistranslated "tort" as "क्षतिपूर्ति" (compensation), which is incorrect.

Response - Google Translation API

इस न्यायालय ने पहले ही मस्क को उनके अनुचित लाभ और अनुबंध उल्लंघन के दावों में से किसी एक को चुनने का निर्देश दिया था। (डॉक्टर संख्या 298)। अब ओपनएआई मस्क से उनके अनुचित लाभ और अपकृत्य दावों में से किसी एक को चुनने की मांग कर रहा है। यह मांग निराधार है। अनुचित लाभ और अपकृत्य दावों के तत्व अलग-अलग हैं, और मस्क मुकदमे के दौरान जूरी के समक्ष दोनों सिद्धांत प्रस्तुत कर सकते हैं। जहां विभिन्न दावों के तत्व अलग-अलग होते हैं, वहां वादी जूरी के समक्ष दोनों दावे प्रस्तुत कर सकता है, और जूरी तब यह तय कर सकती है कि कौन सा दावा या दावे साक्ष्यों द्वारा समर्थित हैं। कोई न्यायालय वादी को उन वादों में से किसी एक को चुनने के लिए बाध्य नहीं कर सकता जिन्हें उठाने का वादी को अधिकार है। यह प्रणाली तीन चरणों में कार्य करती है। पहला, वितरित नोड्स से डेटा एकत्र किया जाता है। दूसरा, डेटा का सत्यापन और मानकीकरण किया जाता है। अंत में, संसाधित डेटा को अनुक्रमित और संग्रहीत किया जाता है। दूसरे चरण में विफलता तीसरे चरण में प्रगति को रोकती है। यह नीति 1 जनवरी के बाद प्लेटफॉर्म का उपयोग करने वाले सभी उपयोगकर्ताओं पर लागू होती है। सेवा का उपयोग जारी रखने वाले उपयोगकर्ता अप्रत्यक्ष रूप से अद्यतन शर्तों से सहमत होते हैं। किसी भी उल्लंघन के परिणामस्वरूप पहुंच निलंबित या समाप्त की जा सकती है।

Notes - Mistranslated "Dkt. 298" to "(डॉक्टर संख्या 298)" - interpreted as "Doctor number" instead of preserving the docket reference. No paragraph breaks.

Response - JigsawStack

इस न्यायालय ने पहले ही मस्क से उसके अनुचित समृद्धि और अनुबंध का उल्लंघन दावे के बीच चुनाव करने की आवश्यकता रखी थी। Dkt. 298। अब OpenAI भी मस्क से उसके अनुचित समृद्धि और टॉर्ट दावों के बीच चुनाव करने का मांग कर रहा है। यह मांग बेबुनियाद है। अनुचित समृद्धि और टॉर्ट दावों के तत्व भिन्न हैं, और मस्क दोनों सिद्धांतों को परीक्षण में जूरी के समक्ष प्रस्तुत कर सकता है। जहाँ विभिन्न दावों के तत्व भिन्न होते हैं, वहाँ वादी दोनों दावे जूरी के समक्ष प्रस्तुत कर सकता है, और जूरी फिर निर्णय कर सकती है कि कौन सा दावा या कौन से दावे साक्ष्य द्वारा समर्थित हैं। कोई न्यायालय वादी पर उन कारण-ए-कर्मों के बीच चुनाव थोप नहीं सकता जिन्हें वादी दलील करने का अधिकार रखता है। प्रणाली तीन चरणों में काम करती है। पहले, वितरित नोड्स से डेटा एकत्र किया जाता है। दूसरे, डेटा को मान्य और सामान्यीकृत किया जाता है। अन्ततः, संसाधित डेटा का सूचीकरण कर संग्रहीत किया जाता है। दूसरे चरण में विफलता तीसरे चरण में प्रगति को रोक देती है। यह नीति उन सभी उपयोगकर्ताओं पर लागू होती है जो 1 जनवरी के बाद प्लेटफ़ॉर्म का उपयोग करते हैं। जो उपयोगकर्ता सेवा का उपयोग जारी रखते हैं, वे निहित रूप से अद्यतित शर्तों से सहमत होते हैं। किसी भी उल्लंघन पर पहुँच निलंबन या समाप्ति हो सकती है।


Category 2: Grammar & Ambiguity

To evaluate this category, we take the following English source text and analyse its translation into Hindi, a language written in a non-Latin script.

Input Text -

The stack of documents that the intern who the manager mentored prepared is on the conference table, ready for the executive to review with the consultant who disagreed.

Expected Text -

दस्तावेज़ों का वह ढेर, जिसे उस इंटर्न ने तैयार किया जिसे प्रबंधक ने मार्गदर्शन दिया था, कॉन्फ्रेंस टेबल पर रखा है, कार्यकारी द्वारा उस सलाहकार के साथ समीक्षा के लिए तैयार जिसने असहमति जताई थी।

Response - ChatGPT Translate

दस्तावेज़ों का वह ढेर, जिसे उस इंटर्न ने तैयार किया जिसे प्रबंधक ने मार्गदर्शन दिया था, सम्मेलन कक्ष की मेज़ पर है, कार्यकारी द्वारा उस सलाहकार के साथ समीक्षा के लिए तैयार है जिसने असहमति जताई थी।

Response - Translate Gemma 27b

प्रबंधक द्वारा मार्गदर्शन किए गए इंटर्न द्वारा तैयार किए गए दस्तावेजों का ढेर सम्मेलन कक्ष की मेज पर रखा है, और यह उस सलाहकार के साथ समीक्षा के लिए तैयार है, जिसने इस पर असहमति जताई थी।

Response - Google Translation API

प्रबंधक के मार्गदर्शन में प्रशिक्षण प्राप्त कर रहे प्रशिक्षु द्वारा तैयार किए गए दस्तावेजों का ढेर कॉन्फ्रेंस टेबल पर रखा है, ताकि कार्यकारी अधिकारी असहमति जताने वाले सलाहकार के साथ उसकी समीक्षा कर सकें।

Notes - Google Translation API’s Hindi hides the chain

"प्रबंधक के मार्गदर्शन में प्रशिक्षण प्राप्त कर रहे प्रशिक्षु द्वारा तैयार किए गए दस्तावेजों का ढेर"

This reads like: "The stack of documents prepared by the trainee receiving training under the manager's guidance." Google removed the linking words and squashed the sentence into one long adjective phrase, also changing past action ("mentored") to present ("receiving training").

Response - JigsawStack

जिस इंटर्न को मैनेजर ने मेंटर किया था, उसने तैयार किए हुए दस्तावेज़ों का ढेर कांफ्रेंस टेबल पर है, कार्यकारी द्वारा उस कंसल्टेंट के साथ समीक्षा के लिए तैयार है जो असहमत था।


Category 3: Numbers, Dates, Identifiers & Entity

To evaluate this category, we take the following English source text and analyse its translation into Hindi, a language written in a non-Latin script.

Input Text -

Apple's Q2 report revealed sales of 3.5 million iPhone 15 Pro Max units at €1,299 each, while Samsung's $12.04 billion revenue in 2023 included devices shipping with USB-C, and the firmware update released on 03/04/2023 carried build ID a9f3c2e-rc.7.

Expected Text -

Apple की Q2 रिपोर्ट में 3.5 मिलियन iPhone 15 Pro Max यूनिट्स की बिक्री €1,299 प्रति यूनिट की दर से सामने आई, जबकि Samsung की 2023 में $12.04 बिलियन की आय में USB-C के साथ शिप होने वाले डिवाइस शामिल थे, और 03/04/2023 को जारी फ़र्मवेयर अपडेट का build ID a9f3c2e-rc.7 था।

Response - ChatGPT Translate

Apple की Q2 रिपोर्ट में €1,299 प्रति यूनिट की दर से 3.5 मिलियन iPhone 15 Pro Max यूनिट्स की बिक्री का खुलासा हुआ, जबकि 2023 में Samsung का $12.04 बिलियन का राजस्व USB-C के साथ भेजे गए उपकरणों को शामिल करता था, और 03/04/2023 को जारी किए गए फ़र्मवेयर अपडेट में बिल्ड आईडी a9f3c2e-rc.7 थी।

Response - Translate Gemma 27b

एप्पल की दूसरी तिमाही की रिपोर्ट में पता चला कि आईफोन 15 प्रो मैक्स के 3.5 मिलियन यूनिट 1,299 यूरो प्रति यूनिट की दर से बेचे गए, जबकि सैमसंग का 2023 में 12.04 बिलियन डॉलर का राजस्व, जिसमें यूएसबी-सी वाले उपकरणों की बिक्री शामिल थी, और 03/04/2023 को जारी किए गए फर्मवेयर अपडेट में बिल्ड आईडी a9f3c2e-rc.7 शामिल था।

Notes - Transliterated brand names to Hindi: "एप्पल", "आईफोन", "सैमसंग", "यूएसबी-सी" instead of keepin, replaced currency symbols: €1,299 → "1,299 यूरो", $12.04 billion → "12.04 बिलियन डॉलर".

Response - Google Translation API

एप्पल की दूसरी तिमाही की रिपोर्ट में €1,299 प्रति यूनिट की दर से 3.5 मिलियन आईफोन 15 प्रो मैक्स यूनिट की बिक्री का खुलासा हुआ, जबकि सैमसंग के 2023 में $12.04 बिलियन के राजस्व में यूएसबी-सी के साथ शिप किए गए डिवाइस शामिल थे, और 03/04/2023 को जारी किए गए फर्मवेयर अपडेट में बिल्ड आईडी a9f3c2e-rc.7 थी

Notes - Transliterated brand names to Hindi: "एप्पल", "आईफोन", "सैमसंग", "यूएसबी-सी" instead of keepin

Response - JigsawStack

Apple की Q2 रिपोर्ट ने बताया कि 3.5 मिलियन iPhone 15 Pro Max यूनिट्स की बिक्री हुई, प्रत्येक €1,299 में, जबकि Samsung की $12.04 बिलियन राजस्व 2023 में उन डिवाइसों को शामिल करती है जिनमें USB-C शिप हुआ, और 03/04/2023 को जारी किया गया फ़र्मवेयर अपडेट बिल्ड ID a9f3c2e-rc.7 लेकर आया।


Category 4: RTL and LTR Languages

To evaluate this category, we take the following English source text and analyse its translation into Arabic, a language written in a non-Latin script.

Input Text -

The meeting scheduled for 10 AM will review the file version (v2.1) that user @john_doe uploaded as report_v2.1.pdf at 9:45 PM, following Apple's launch of iOS 17.3 on 21/01/2024 in the UAE.

Expected Text -

الاجتماع المُجدوَل في الساعة 10 صباحًا سيُراجع إصدار الملف (v2.1) الذي رفعه المستخدم @john_doe باسم report_v2.1.pdf في الساعة 9:45 مساءً، بعد إطلاق Apple لنظام iOS 17.3 بتاريخ 21/01/2024 في الإمارات.

Response - ChatGPT Translate

سيُراجع الاجتماع المُجدول الساعة 10 صباحًا إصدار الملف (v2.1) الذي قام المستخدم @john_doe برفعه باسم report_v2.1.pdf عند الساعة 9:45 مساءً، وذلك عقب إطلاق آبل لنظام iOS 17.3 بتاريخ 21/01/2024 في دولة الإمارات العربية المتحدة.

Notes -Transliterated Apple → "آبل".

Response - Translate Gemma 27b

الاجتماع المقرر عقده في الساعة 10 صباحًا سيراجع النسخة النهائية من الملف (v2.1) التي قام المستخدم @john_doe بتحميلها تحت اسم report_v2.1.pdf في الساعة 9:45 مساءً، وذلك بعد إطلاق شركة آبل نظام التشغيل iOS 17.3 في 21 يناير 2024 في دولة الإمارات العربية المتحدة

Notes - Transliterated Apple → "آبل", Hallucination: Added "النسخة النهائية" (final version) - not in source, changed date format 21/01/2024→21 ي

Response - Google Translation API

سيستعرض الاجتماع المقرر عقده في الساعة العاشرة صباحاً نسخة الملف (v2.1) التي قام المستخدم @john_doe بتحميلها باسم report_v2.1.pdf في الساعة 9:45 مساءً، وذلك بعد إطلاق شركة آبل لنظام التشغيل iOS 17.3 في 21/01/2024 في الإمارات العربية المتحدة.

Notes - Wrote time in words "الساعة العاشرة صباحاً" instead of "10". Transliterated Apple → "آبل".

Response - JigsawStack

الاجتماع المقرر في الساعة 10:00 صباحًا سيستعرض إصدار الملف (v2.1) الذي حمّله المستخدم @john_doe كـ report_v2.1.pdf في الساعة 9:45 مساءً، وذلك بعد إطلاق Apple لنظام iOS 17.3 في 21/01/2024 في الإمارات.


Category 5: Slangs

To test this category, we take the following English source text and analyse its translation into Hindi, a language written in a non-Latin script.

Input Text -

Bro that shits kind of fire, have you tried out interfaze ? no cap bro, its a 10 on 10 latina baddie type vibe

Expected Text -

भाई वो चीज़ वाकई ज़बरदस्त है, क्या तूने interfaze आज़माया? सच्ची बात भाई, ये तो पूरे 10 में 10, लैटिना बैडी टाइप वाइब है।

Response - ChatGPT Translate

भाई, वो तो काफ़ी फायर है, क्या तूने interfaze ट्राय किया है? नो कैप भाई, ये पूरे 10 में 10, लैटिना बैडी टाइप वाइब है।

Response - Translate Gemma 27b

भाई, यह गाना वाकई कमाल का है, क्या तुमने इंटरफ़ेज़ सुना है? सच बता रहा हूँ, यह 10 में से 10 रेटिंग देने लायक, शानदार लैटिन संगीत है

Notes - Hallicunated "गाना" (song) and "संगीत" (music), Changed "tried out interfaze" → "इंटरफ़ेज़ सुना"(heard interfaze), “लैटिन संगीत" (Latin music) instead of "लैटिना बैडी" - completely wrong meaning

Response - Google Translation API

भाई, ये तो कमाल का है, क्या तुमने इंटरफ़ेज़ को आज़माया है? सच में भाई, ये एकदम लैटिना बैडी टाइप का है।

Notes - Doesn’t include “10 on 10” due to overformalizing

Response - JigsawStack

भाई, वो चीज़ वाकई ज़बरदस्त है, क्या तुमने interfaze आज़माया है? सच्ची बात कहूँ भाई, ये पूरी तरह से 10 में 10 लैटिना बड्डी वाला वाइब है

Run the Tests Yourself

All tests are fully reproducible. This repository contains the complete evaluation framework, including the evals.json file used to define and execute category-level assessments.

Conclusion

Our diagnostic evaluation across five translation categories reveals clear patterns in how different systems handle real-world translation challenges.

Translation Quality

JigsawStack emerged as the most reliable system for preserving meaning, structure, and fidelity across all test categories. Both successfully handled:

  • Complex legal text with document identifiers

  • Nested grammatical structures without simplification

  • Exact preservation of numbers, dates, currencies, and version strings

  • Informal slang without over-formalisation

Google Translate struggled with domain-specific content, mistranslating "Dkt. 298" as "Doctor number 298" and flattening nested clause structures. Gemma showed the most inconsistencies, including hallucinations in RTL text and currency symbol replacements.

Developer Experience

For production deployments, JigsawStack offers the best balance of quality and accessibility:

FactorJigsawStackGoogleChatGPT
API Availability
Rate Limits50 req/s15 req/sN/A
Free Tier8M tokens500K charsN/A

The Bottom Line

If you need accurate, structure-preserving translation with an easy-to-integrate API, JigsawStack delivers ChatGPT-level quality at 3x the rate limits of Google Translate, without the hallucination issues seen in open-source alternatives.

Comparison Table

◐ = partial | ❌ = inaccurate/fails | ✅ = accurate/succeeds

CategoryJigsawStackGoogle TranslateGemmaChatGPT
Long Form Legal Sentences✅ Preserves legal, document identifiers and nouns well while maintaining the structure and relation❌ Mistranslates when document identifiers or abbreviations are involved ( e.g. "Dkt. 298" as "Doctor number 298" )❌ Results in incorrect translation ( i.e. "Dkt." incorrectly; mistranslated "tort" as "compensation" (क्षतिपूर्ति) )✅ Preserves legal, document identifiers and nouns well while maintaining the structure and relation
Grammar & Ambiguity✅ Preserves nested relative clause structure with जिसे...जिसे chain❌ Flattenes structure into adjective phrase; changed past tense to present◐ Simplifies structure; added extra content that is not in the source✅ Preserves nested relative clause structure with जिसे...जिसे chain
Numbers, Dates, Identifiers✅ Preserves all numbers, currencies (€, $), dates, build ID, brand names◐ Translates brands names to Hindi (एप्पल, आईफोन, सैमसंग)❌ Transliterates brands + replaced currency symbols with words (यूरो, डॉलर)✅ Preserves Nouns, Currency signs and numbers well
RTL/LTR Languages✅ Preserves of identifiers; minor: "10:00" instead of "10"◐ Write the time in words❌ Hallucinates (i.e., "final version" instead of “file version )◐ Can translate proper nouns ( i.e. apple → آبل )
Slangs✅ Preserves slang well without getting too informal❌ Misses out on words due to overformalizing the sentence❌ Hallicunates majorly✅ Preserves slang well without getting too informal
Developer Friendly✅ Has an easy-to-use API✅ Has an easy-to-use API❌ Have to self-host❌ No API Service available
Pricing~$0.00003 incurred here~$0.00004 incurred here$0.20 ( 33,101ms ÷ 3,600,000ms/hour × $21.48/hour )❌ No API Service available
Rate Limits50 requests per second30,000 characters per second✅ Configurable as required❌ No API Service available
SpeedAverage latency is 4-5sAverage latency is 450msAverage latency is 6-7sAverage lat

👥 Join the JigsawStack Community

Have questions or want to show off what you’ve built? Join the JigsawStack developer community on Discord and X/Twitter. Let’s build something amazing together!

Share this article