علمت Business Insider أن اثنتين من أفضل الشركات الناشئة في مجال الذكاء الاصطناعي في العالم تتجاهلان طلبات ناشري الوسائط للتوقف عن استخلاص محتوى الويب الخاص بهم للحصول على بيانات تدريب نموذجية مجانية.
تبين أن OpenAI وAnthropic يتجاهلان أو ينتهكان قاعدة الإنترنت المعروفة باسم robots.txt، والتي تمنع الحذف الآلي لمواقع الويب.
وجدت شركة تولبيت، وهي شركة ناشئة تهدف إلى تقديم صفقات ترخيص مدفوعة الأجر بين الناشرين وشركات الذكاء الاصطناعي، أن العديد من شركات الذكاء الاصطناعي كانت تتصرف بهذه الطريقة، وأخبرت بعض الناشرين الكبار في رسالة يوم الجمعة. ذكرت رويترز في وقت سابق. ولم تتضمن الرسالة أسماء أي من شركات الذكاء الاصطناعي المتهمة بانتهاك القاعدة.
صرحت OpenAI وAnthropic علنًا أنهما تحترمان ملف robots.txt والحظر الخاص ببرامج زحف الويب الخاصة بهما، مثل GTBot وClaudeBot.
ومع ذلك، وفقا لنتائج تولبيت، لا يتم احترام مثل هذه الكتل كما هو مذكور. تختار شركات الذكاء الاصطناعي، بما في ذلك OpenAI وAnthropic، “تجاوز” ملف robots.txt لاسترداد كل المحتوى أو إزالته من موقع ويب أو صفحة معينة.
رفض متحدث باسم OpenAI التعليق بما يتجاوز توجيه BI إلى إحدى الشركات مدونة بدءًا من شهر مايو، تقول الشركة إن زاحف الويب سيأخذ الأذونات “في كل مرة نقوم فيها بتدريب نموذج جديد”. ولم يرد متحدث باسم Anthropic على رسائل البريد الإلكتروني التي تطلب التعليق.
Robots.txt عبارة عن جزء واحد من التعليمات البرمجية تم استخدامه منذ أواخر التسعينيات كوسيلة لمواقع الويب لإخبار برامج زحف الروبوتات بأنها لا تريد استخراج بياناتها وجمعها. ومن المقبول على نطاق واسع باعتبارها واحدة من القواعد غير الرسمية التي تقوم عليها شبكة الإنترنت.
مع ظهور الذكاء الاصطناعي التوليدي، تتسابق الشركات الناشئة وشركات التكنولوجيا لتطوير أقوى نماذج الذكاء الاصطناعي. العنصر الرئيسي هو البيانات عالية الجودة. وقد أدى التعطش لمثل هذه البيانات التدريبية إلى تقويض ملف robots.txt والاتفاقيات غير الرسمية التي تدعم استخدام هذا الرمز.
OpenAI هي التي تقف وراء برنامج الدردشة الآلي الشهير ChatGPT. أكبر مستثمر في الشركة هو مايكروسوفت. تقف Anthropic وراء برنامج chatbot مشهور آخر، وهو Claude. أكبر مستثمر فيها هو أمازون.
يقدم كلا روبوتي الدردشة إجابات لأسئلة المستخدم بنبرة بشرية. مثل هذه الإجابات ممكنة فقط لأن نماذج الذكاء الاصطناعي التي بنيت عليها تتضمن كميات هائلة من النصوص المكتوبة والبيانات المأخوذة من الإنترنت، والتي يخضع الكثير منها لحقوق الطبع والنشر أو مملوكة للمبدعين.
جادلت العديد من شركات التكنولوجيا أمام مكتب حقوق الطبع والنشر الأمريكي العام الماضي بأنه لا ينبغي اعتبار أي شيء على الإنترنت محميًا بحقوق الطبع والنشر عندما يتعلق الأمر ببيانات تدريب الذكاء الاصطناعي.
لدى OpenAI بعض الاتفاقيات مع الناشرين للوصول إلى المحتوى، بما في ذلك شركة Axel Springer المملوكة لشركة BI. من المقرر أن يقوم مكتب حقوق الطبع والنشر الأمريكي بتحديث إرشاداته بشأن الذكاء الاصطناعي وحقوق الطبع والنشر في وقت لاحق من هذا العام.
هل أنت عامل في مجال التكنولوجيا أو أي شخص آخر لديه نصيحة أو رؤية لمشاركتها؟ تواصل مع كالي هيز خايس@businessinsider.com أو في تطبيق المراسلة الآمنةالإشارة على +1-949-280-0267. الوصول باستخدام جهاز لا يعمل.
“متعصب للموسيقى. مستكشف متواضع جدا. محلل. متعصب للسفر. مدرس تلفزيوني متطرف. لاعب.”