Tech

चैटजीपीटी जैसे भाषा मॉडल सिर्फ ‘कॉपी-पेस्ट’ की तुलना में अधिक तरीकों से साहित्यिक चोरी कर सकते हैं, शोधकर्ताओं का कहना है

[ad_1]

साहित्यिक चोरी के बारे में चिंताएं तब उठती हैं जब भाषा मॉडल, संभवतः चैटजीपीटी सहित, मूल स्रोत का हवाला दिए बिना प्रशिक्षण डेटा से अवधारणाओं का पुन: उपयोग और पुन: उपयोग करते हैं।

चैटबॉट के साथ अपना अगला कार्य पूरा करने से पहले, छात्र शायद इस पर कुछ विचार करना चाहें। पेन यूनिवर्सिटी के नेतृत्व में एक शोध दल के अनुसार, जिसने विशेष रूप से विषय को देखने के लिए पहला अध्ययन किया, भाषा मॉडल जो उपयोगकर्ता के जवाब में पाठ उत्पन्न करते हैं, एक से अधिक तरीकों से साहित्यिक चोरी का संकेत देते हैं।

पेन स्टेट में सूचना विज्ञान और प्रौद्योगिकी के प्रोफेसर डोंगवोन ली ने कहा, “साहित्यिक चोरी अलग-अलग स्वादों में आती है।” “हम यह देखना चाहते थे कि क्या भाषा के मॉडल न केवल कॉपी और पेस्ट करते हैं बल्कि इसे महसूस किए बिना साहित्यिक चोरी के अधिक परिष्कृत रूपों का सहारा लेते हैं।”

शोधकर्ताओं ने साहित्यिक चोरी के तीन रूपों की पहचान करने पर ध्यान केंद्रित किया: शब्दशः, या सामग्री को सीधे कॉपी और पेस्ट करना; मूल स्रोत का उल्लेख किए बिना सामग्री को शब्दों में बदलना, या फिर से लिखना और पुनर्संरचना करना; और विचार, या उचित आरोपण के बिना पाठ से मुख्य विचार का उपयोग करना। उन्होंने स्वचालित साहित्यिक चोरी का पता लगाने के लिए एक पाइपलाइन का निर्माण किया और OpenAI के GPT-2 के खिलाफ इसका परीक्षण किया क्योंकि भाषा मॉडल का प्रशिक्षण डेटा ऑनलाइन उपलब्ध है, जिससे शोधकर्ताओं को GPT-2 को पूर्व-प्रशिक्षित करने के लिए उपयोग किए गए 8 मिलियन दस्तावेजों के लिए उत्पन्न ग्रंथों की तुलना करने की अनुमति मिलती है।

वैज्ञानिकों ने पूर्व-प्रशिक्षित भाषा मॉडल और ठीक-ठीक भाषा मॉडल, या विशिष्ट विषय क्षेत्रों पर ध्यान केंद्रित करने के लिए आगे प्रशिक्षित मॉडल में साहित्यिक चोरी के परीक्षण के लिए 210,000 उत्पन्न ग्रंथों का उपयोग किया। इस मामले में, टीम ने वैज्ञानिक दस्तावेज़ों, COVID-19 से संबंधित विद्वतापूर्ण लेखों और पेटेंट दावों पर ध्यान केंद्रित करने के लिए तीन भाषा मॉडलों को बेहतर बनाया। उन्होंने प्रत्येक उत्पन्न पाठ के समान शीर्ष 10 प्रशिक्षण दस्तावेजों को पुनः प्राप्त करने के लिए एक ओपन-सोर्स सर्च इंजन का उपयोग किया और शब्दशः, व्याख्या और विचार साहित्यिक चोरी के उदाहरणों का बेहतर पता लगाने के लिए एक मौजूदा पाठ संरेखण एल्गोरिथ्म को संशोधित किया।

टीम ने पाया कि भाषा मॉडल ने तीनों प्रकार की साहित्यिक चोरी की है और यह कि मॉडल को प्रशिक्षित करने के लिए जितने बड़े डेटासेट और पैरामीटर का उपयोग किया जाता है, उतनी ही अधिक साहित्यिक चोरी होती है। उन्होंने यह भी नोट किया कि ठीक-ठाक भाषा मॉडल शब्दशः साहित्यिक चोरी को कम करते हैं लेकिन व्याख्या और विचार साहित्यिक चोरी के उदाहरणों में वृद्धि करते हैं। इसके अलावा, उन्होंने साहित्यिक चोरी के तीनों रूपों के माध्यम से व्यक्तियों की निजी जानकारी को उजागर करने वाले भाषा मॉडल के उदाहरणों की पहचान की। शोधकर्ता अपने निष्कर्ष 2023 एसीएम वेब सम्मेलन में प्रस्तुत करेंगे, जो ऑस्टिन, टेक्सास में 30 अप्रैल से 4 मई तक होगा।

“लोग बड़े भाषा मॉडल का अनुसरण करते हैं क्योंकि मॉडल जितना बड़ा होता है, पीढ़ी की क्षमता बढ़ती है,” पेन स्टेट में कॉलेज ऑफ इंफॉर्मेशन साइंसेज एंड टेक्नोलॉजी में डॉक्टरेट के छात्र लीड लेखक जोयॉन्ग ली ने कहा। “साथ ही, वे प्रशिक्षण कोष के भीतर सामग्री की मौलिकता और रचनात्मकता को खतरे में डाल रहे हैं। यह एक महत्वपूर्ण खोज है।”

शोधकर्ताओं के अनुसार, अध्ययन टेक्स्ट जेनरेटर और उनके द्वारा उठाए गए नैतिक और दार्शनिक प्रश्नों में अधिक शोध की आवश्यकता पर प्रकाश डाला गया है।

मिसिसिपी विश्वविद्यालय में कंप्यूटर और सूचना विज्ञान के सहायक प्रोफेसर थाई ले ने कहा, “भले ही आउटपुट आकर्षक हो सकता है, और भाषा मॉडल उपयोग करने में मजेदार हो सकते हैं और कुछ कार्यों के लिए उत्पादक प्रतीत हो सकते हैं, इसका मतलब यह नहीं है कि वे व्यावहारिक हैं।” जिन्होंने पेन स्टेट में डॉक्टरेट उम्मीदवार के रूप में परियोजना पर काम करना शुरू किया। “व्यावहारिक रूप से, हमें उन नैतिक और कॉपीराइट मुद्दों का ध्यान रखना होगा जो टेक्स्ट जेनरेटर उत्पन्न करते हैं।”

हालांकि अध्ययन के परिणाम केवल GPT-2 पर लागू होते हैं, स्वचालित साहित्यिक चोरी का पता लगाने की प्रक्रिया जिसे शोधकर्ताओं ने स्थापित किया है, चैटजीपीटी जैसे नए भाषा मॉडल पर लागू किया जा सकता है ताकि यह निर्धारित किया जा सके कि ये मॉडल प्रशिक्षण सामग्री की चोरी करते हैं या नहीं। हालांकि, साहित्यिक चोरी के लिए परीक्षण, डेवलपर्स द्वारा प्रशिक्षण डेटा को सार्वजनिक रूप से सुलभ बनाने पर निर्भर करता है, शोधकर्ताओं ने कहा।

वैज्ञानिकों के अनुसार, वर्तमान अध्ययन एआई शोधकर्ताओं को भविष्य में अधिक मजबूत, विश्वसनीय और जिम्मेदार भाषा मॉडल बनाने में मदद कर सकता है। अभी के लिए, वे व्यक्तियों से पाठ जनरेटर का उपयोग करते समय सावधानी बरतने का आग्रह करते हैं।

पेन स्टेट में सूचना विज्ञान और प्रौद्योगिकी के सहायक प्रोफेसर जिंगहुई चेन ने कहा, “एआई शोधकर्ता और वैज्ञानिक अध्ययन कर रहे हैं कि भाषा मॉडल को बेहतर और अधिक मजबूत कैसे बनाया जाए, इस बीच, कई व्यक्ति अपने दैनिक जीवन में विभिन्न उत्पादकता कार्यों के लिए भाषा मॉडल का उपयोग कर रहे हैं।” “एक खोज इंजन के रूप में भाषा मॉडल का लाभ उठाने या कोड को डिबग करने के लिए स्टैक ओवरफ़्लो संभवतः ठीक है, अन्य उद्देश्यों के लिए, चूंकि भाषा मॉडल साहित्यिक सामग्री का उत्पादन कर सकता है, इसके परिणामस्वरूप उपयोगकर्ता के लिए नकारात्मक परिणाम हो सकते हैं।”

डोंगवॉन ली ने कहा कि साहित्यिक चोरी का परिणाम कुछ अप्रत्याशित नहीं है।

“एक स्टोचैस्टिक तोते के रूप में, हमने मानव लेखन की नकल करने के लिए भाषा के मॉडल को सिखाया, बिना यह सिखाए कि कैसे ठीक से चोरी नहीं करना है,” उन्होंने कहा। “अब, उन्हें और अधिक ठीक से लिखना सिखाने का समय आ गया है, और हमें अभी एक लंबा रास्ता तय करना है।”


OnePlus 11 5G को कंपनी के क्लाउड 11 लॉन्च इवेंट में लॉन्च किया गया था, जिसमें कई अन्य डिवाइसों की भी शुरुआत हुई थी। हम इस नए हैंडसेट और वनप्लस के सभी नए हार्डवेयर पर चर्चा करते हैं कक्षा कागैजेट्स 360 पॉडकास्ट। कक्षीय पर उपलब्ध है Spotify, गाना, JioSaavn, गूगल पॉडकास्ट, सेब पॉडकास्ट, अमेज़न संगीत और जहां भी आपको अपना पॉडकास्ट मिलता है।
संबद्ध लिंक स्वचालित रूप से उत्पन्न हो सकते हैं – हमारा देखें नैतिक वक्तव्य जानकारी के लिए।

बार्सिलोना में मोबाइल वर्ल्ड कांग्रेस में सैमसंग, श्याओमी, रियलमी, वनप्लस, ओप्पो और अन्य कंपनियों के नवीनतम लॉन्च और समाचारों के विवरण के लिए, हमारे यहां जाएं। MWC 2023 हब.

[ad_2]

Source link

Related Articles

Leave a Reply

Your email address will not be published.

Back to top button