April 2024 29 / دوشنبه ۱۰ ارديبهشت ۱۴۰۳
کد خبر: ۴۱۱۹۱۲
۲۴ فروردين ۱۴۰۳ - ۲۳:۰۰
0
OpenAI با استفاده از مدل صوتی Whisper خود بیش از یک میلیون ساعت از ویدئو‌های یوتیوب را برای آموزش GPT-4 رونویسی کرده است.

OpenAI ظاهراً برای آموزش GPT-4 از ویدئو‌های یوتیوب استفاده کرده است

OpenAI با استفاده از مدل صوتی Whisper خود، بیش از یک میلیون ساعت از ویدئو‌های یوتیوب را برای آموزش GPT-۴، پیشرفته‌ترین مدل زبانی بزرگ خود، رونویسی کرده است. این شرکت می‌داند که از نظر قانونی استفاده از چنین داده‌هایی بحث‌برانگیز است، اما ظاهراً اعتقاد دارد استفاده از این داده‌ها را باید منصفانه تلقی کرد.

به گزارش نیویورک تایمز، شرکت‌های هوش مصنوعی برای توسعه هرچه بیشتر مدل‌های پیشرفته خود، به داده‌های بیشتری نیاز دارند و حالا به‌نظر می‌رسد که این شرکت‌ها در یافتن داده‌های آموزشی باکیفیت با مشکل مواجه شده‌اند. براساس گزارش نیویورک تایمز، در چنین مواقعی، جای تعجب نیست که این شرکت‌ها به‌سمت استفاده از داده‌هایی بروند که در ناحیه خاکستری و مبهم قانون کپی‌رایت هوش مصنوعی قرار دارند. ویدئو‌های یوتیوب نیز ظاهراً برای OpenAI چنین وضعیتی دارد.

پیش‌ازاین «نیل موهان»، مدیرعامل یوتیوب، درباره احتمال استفاده OpenAI از یوتیوب برای آموزش هوش مصنوعی تولید ویدئوی Sora صحبت کرده بود. سخنگوی گوگل گفته بود که این شرکت تدابیر فنی و قانونی را برای جلوگیری از چنین استفاده‌های غیرمجازی اتخاذ می‌کند.

به گفته سخنگوی OpenAI، این شرکت مجموعه داده‌های منحصربه‌فردی را برای هر یک از مدل‌های خود در نظر می‌گیرد تا به درک آن‌ها از جهان کمک کند. او افزود که این شرکت از منابع متعددی از جمله داده‌های در دسترس عموم و داده‌های غیرعمومی استفاده می‌کند.

اما از سویی، گزارش‌ها حاکی از آن است که OpenAI منابع داده‌های آموزشی مجاز و قابل استفاده را در سال ۲۰۲۱ به پایان رسانده و حالا پس از بررسی منابع دیگر به‌سمت رونویسی ویدئوها، پادکست‌ها و کتاب‌های صوتی یوتیوب آمده است. تا آن زمان، این شرکت مدل‌های خود را با داده‌هایی مثل کد‌های گیت‌هاب و محتوا‌های تحصیلی Quizlet آموزش داده بود.

سخنگوی گوگل دراین‌باره گفته این شرکت گزارش‌های تأییدنشده‌ای از فعالیت OpenAI را دیده است. به گفته او، هم فایل‌های robots.txt و هم شرایط خدمات گوگل، حذف یا دانلود غیرمجاز محتوای یوتیوب را ممنوع کرده است.

منبع: دیجیاتو

ارسال نظرات
نام:
ایمیل:
* نظر:
گزارش مجامع بیشتر
تولید 300 هزارتن کاتد به رغم کاهش بیش از 16 هزار تنی مصرف قراضه مس در سال 1401

تولید 300 هزارتن کاتد به رغم کاهش بیش از 16 هزار تنی مصرف قراضه مس در سال 1401

مدیرعامل مس در مجمع عمومی عادی این شرکت که با حضور اکثریت سهامداران در تالار وزارت کشور برگزار شد از کسب رتبه پنجم ذخایر جهانی مس تنها با اکتشاف 7 درصدمساحت کشور خبر دادو گفت: با توسعه اکتشافات رسیدن به رتبه دوم و سوم جهانی نیز برای ایران متصور است.
پربازدید
پرطرفدارترین
برای دریافت خبرنامه پول نیوز ایمیل خود را وارد نمایید: