diff --git a/README.md b/README.md index 95b92e83e6040a70bc93458ab3974b202137c718..3da3f321296ee60a960a3daff8cdd8d5ac79109e 100644 --- a/README.md +++ b/README.md @@ -1,2 +1,11 @@ # Hindi-Telugu-IIITHMT-API-call +## To get Hindi to Telugu + python3 get_translation_iiith_hindi_telugu.py source_file target_output_file + python3 get_translation_iiith_hindi_telugu.py sample.hin sample_output.tel + +## To get Telugu to Hindi + + python3 get_translation_iiith_telugu_hindi.py source_file target_output_file + python3 get_translation_iiith_telugu_hindi.py sample.tel sample_output.hin + diff --git a/get_translation_iiith_hindi_telugu.py b/get_translation_iiith_hindi_telugu.py new file mode 100644 index 0000000000000000000000000000000000000000..fa8ecf94376156e5c7c68aa532e21e893257ec13 --- /dev/null +++ b/get_translation_iiith_hindi_telugu.py @@ -0,0 +1,38 @@ +import sys +import codecs +import requests +import json +from tqdm import tqdm +import glob + +url = "http://ssmt.iiit.ac.in/onemt" +headers = { + 'Content-Type': 'application/json', + 'Accept': 'application/json' +} + +def call_mt(text, lang='eng', Tlang='hin'): + data = {'text': text, 'lang':lang, 'Tlang':Tlang, "mode": "BaseLine - V5"} + r = requests.post(url, headers=headers, json=data) + output = json.loads(r.text)['data'] + return output + +source_file = sys.argv[1] +output_file = sys.argv[2] + + +def read_file(path, isref=False): + _data = [] + for line in codecs.open(path): + line = line.strip() + line = line.replace('_','').replace('`','').replace('"','').replace("'",'') + _data.append(line) + return _data + +_data_source = read_file(source_file) +_data_sys = [call_mt(text, 'hin', 'tel').replace('\n',' ') for text in tqdm(_data_source)] +_f = open(output_file, 'w') +for line in _data_sys: + _f.write(line+'\n') + print (line) +_f.close() diff --git a/get_translation_iiith_telugu_hindi.py b/get_translation_iiith_telugu_hindi.py new file mode 100644 index 0000000000000000000000000000000000000000..5d349414d9df7fb3b709b86584e078a5ceeda827 --- /dev/null +++ b/get_translation_iiith_telugu_hindi.py @@ -0,0 +1,38 @@ +import sys +import codecs +import requests +import json +from tqdm import tqdm +import glob + +url = "http://ssmt.iiit.ac.in/onemt" +headers = { + 'Content-Type': 'application/json', + 'Accept': 'application/json' +} + +def call_mt(text, lang='eng', Tlang='hin'): + data = {'text': text, 'lang':lang, 'Tlang':Tlang, "mode": "BaseLine - V5"} + r = requests.post(url, headers=headers, json=data) + output = json.loads(r.text)['data'] + return output + +source_file = sys.argv[1] +output_file = sys.argv[2] + + +def read_file(path, isref=False): + _data = [] + for line in codecs.open(path): + line = line.strip() + line = line.replace('_','').replace('`','').replace('"','').replace("'",'') + _data.append(line) + return _data + +_data_source = read_file(source_file) +_data_sys = [call_mt(text, 'tel', 'hin').replace('\n',' ') for text in tqdm(_data_source)] +_f = open(output_file, 'w') +for line in _data_sys: + _f.write(line+'\n') + print (line) +_f.close() diff --git a/sample.hin b/sample.hin new file mode 100644 index 0000000000000000000000000000000000000000..390e58a73c09442374c2b721a89099c3d732737f --- /dev/null +++ b/sample.hin @@ -0,0 +1,6 @@ +यहां पर लगभग हर घर में खांसी-बुखार के मरीज मौजूद हैं। +लेकिन इससे भी बुरा यह है कि गांव वालों को यह नहीं पता कि कोरोना क्या है और कितना खतरनाक है? +यहां के सीधे-सादे लोग तो बीमार होने पर यह कहते हैं कि उन्हें काली चढ़ी है या फिर माता है और देवरे पामणे (नाराज होकर शरीर में मेहमान) हो गए हैं। इलाज के लिए डॉक्टरों के पास नहीं, बल्कि भोपा और झाड़-फूंक वालों के पास चले जाते हैं। +उदयपुर जिले में वल्लभनगर उपखंड के गांवों में कोरोना पूरी तरह पैर पसार चुका है। +हर गांव में तीन चौथाई आबादी में खांसी-बुखार के मरीज हैं। +अगर कोरोना के 100 सैम्पल करवाए जाएं तो इनमें से 80 पॉजिटिव मिल जाएंगे, लेकिन हेल्थ डिपार्टमेंट और प्रशासन के रिकॉर्ड में सच से बिल्कुल उलट तस्वीर है क्योंकि सैम्पल लेने का काम केवल सामुदायिक स्वास्थ्य केंद्र तक ही सिमट कर रह गया है। diff --git a/sample.tel b/sample.tel new file mode 100644 index 0000000000000000000000000000000000000000..32d0c88eed6bae7716b01ff64f7ef0eba6132628 --- /dev/null +++ b/sample.tel @@ -0,0 +1,4 @@ +ప్రపంచంలోని 62 కి పైగా దేశాలలో ఉపయోగించే ఆక్స్ఫర్డ్-ఆస్ట్రోజెనోజెన్ వ్యాక్సిన్ రక్తం గడ్డకట్టడంతో సహా కొన్ని అవాంఛనీయ దుష్ప్రభావాలను కలిగిస్తుంది. +టీకా వాడటం సురక్షితం మరియు ప్రతికూల ప్రతిచర్యలు 'అరుదు' అని అధ్యయనాలు చూపించినప్పటికీ, కోవిషీల్డ్ ఇంజెక్షన్ దుష్ప్రభావాలు కోవాక్సిన్ దుష్ప్రభావాలను పోలి ఉంటాయి. +అయితే, దుష్ప్రభావాల తీవ్రత చాలా తీవ్రంగా ఉంటుంది. +ఇంజెక్షన్ సైట్ వద్ద నొప్పి, మితమైన లేదా అధిక జ్వరం, మైకము మరియు బద్ధకం, శారీరక నొప్పి లక్షణాలు ఉంటాయి. diff --git a/sample_output.hin b/sample_output.hin new file mode 100644 index 0000000000000000000000000000000000000000..490d550fe2662e622dea3edaf3a7e1afb6d63a7b --- /dev/null +++ b/sample_output.hin @@ -0,0 +1,4 @@ +दुनिया के 62 से अधिक देशों में इस्तेमाल होने वाले ऑक्सफोर्ड एस्ट्रोजेनोजेन के टीके से ब्लड क्लॉटिंग सहित कुछ अवांछनीय साइड इफेक्ट हो सकते हैं । +हालांकि अध्ययनों से पता चलता है कि टीका का उपयोग सुरक्षित है और नकारात्मक प्रतिक्रियाएं दुर्लभ हैं , कोविशील्ड इंजेक्शन साइड इफेक्ट्स कोवाक्सिन साइड इफेक्ट के समान हैं . +हालांकि , साइड इफेक्ट की गंभीरता बहुत गंभीर है । +इंजेक्शन स्थल पर दर्द , मध्यम या तेज बुखार , चक्कर आना और सुस्ती , शारीरिक दर्द के लक्षण होते हैं । diff --git a/sample_output.tel b/sample_output.tel new file mode 100644 index 0000000000000000000000000000000000000000..16c0f433966b7b571a632d430f79a67a20308e04 --- /dev/null +++ b/sample_output.tel @@ -0,0 +1,6 @@ +దాదాపు ప్రతి ఇంట్లో దగ్గు జ్వరం రోగులు ఉన్నారు . +కానీ దారుణంగా , కోరోనా అంటే ఏమిటో , ఎంత ప్రమాదకరమో గ్రామస్తులకు తెలియదా ? +ఇక్కడి సూటిగా ఉన్నవారు అనారోగ్యంతో ఉన్నప్పుడు , వారు నల్లగా లేదా తల్లి అని చెప్తారు మరియు డియోర్ పమనే ( కోపంగా మరియు శరీరంలో అతిథి ) అయ్యారు . చికిత్స కోసం వైద్యులు కాదు , భోపా మరియు చీపురు వద్దకు వెళతారు . +ఉదయపూర్ జిల్లాలోని వల్లభనగర్ సబ్ డివిజన్ గ్రామాల్లో కోరోనా పూర్తిగా వ్యాపించింది . +ప్రతి గ్రామంలో జనాభాలో మూడింట నాలుగు వంతుల మంది దగ్గు రోగులు ఉన్నారు . +100 నమూనాలను కరోనాకు ఇస్తే , వాటిలో 80 పాజిటివ్ కనిపిస్తాయి , కాని ఆరోగ్య శాఖ మరియు పరిపాలన రికార్డులలో సత్యానికి విరుద్ధమైన చిత్రం ఉంది , ఎందుకంటే నమూనాలను తీసుకునే పని సమాజ ఆరోగ్య కేంద్రానికి మాత్రమే పరిమితం చేయబడింది .