درهای عقب غیرقابل شناسایی؛ تهدید هشدار در مدل های یادگیری ماشینی

اگر مهاجمان یک مدل یادگیری ماشینی به شما ارائه دهند و یک درب پشتی مخرب نصب کرده باشند، چقدر احتمال دارد آن را شناسایی کنید؟ بر اساس یک مطالعه جدید، محققان موسسه فناوری ماساچوست و دانشگاه بروکس و موسسه مطالعات پیشرفته کمتر احتمال دارد این نوع درب پشتی را پیدا کنند.

امنیت یادگیری ماشینی بسیار مهم است. از آنجایی که مدل های یادگیری ماشین به تعداد زیادی از برنامه ها راه پیدا کرده اند، این روند ادامه دارد. یک مطالعه جدید بر تهدیدات امنیتی مربوط به آموزش برون سپاری و توسعه مدل های یادگیری ماشین برای اشخاص ثالث و ارائه دهندگان خدمات متمرکز است.

با کمبود استعداد و منابع برای هوش مصنوعی، بسیاری از سازمان ها فرآیند یادگیری ماشین را با استفاده از مدل های از پیش آموزش دیده یا خدمات یادگیری ماشین آنلاین برون سپاری می کنند. این مدل ها و سرویس ها می توانند به منابع حملات علیه برنامه هایی که استفاده می کنند تبدیل شوند.

یک مقاله تحقیقاتی جدید دو تکنیک را برای تعبیه درهای عقب غیرقابل تشخیص در مدل های یادگیری ماشین ارائه می دهد که می تواند برای تشویق رفتار مخرب مورد استفاده قرار گیرد. این مقاله مسائل مربوط به اعتمادسازی در مدل های یادگیری ماشین را روشن می کند.

پشت یادگیری ماشینی چیست؟

پشت در مدل های یادگیری ماشینی

مدل‌های یادگیری ماشینی برای انجام وظایف خاصی مانند تشخیص چهره، طبقه‌بندی تصویر، تشخیص هرزنامه یا تعیین احساس شما در مورد یک محصول یا پست رسانه‌های اجتماعی آموزش دیده‌اند. در پشتی یادگیری ماشینی شامل استفاده از تکنیک هایی است که شامل رفتار پنهان در مدل های از پیش آموزش دیده می شود.

این مدل تا زمانی که در عقب از طریق یک ورودی مزاحم طراحی شده ویژه فعال شود، به طور معمول کار می کند. به عنوان مثال، یک مهاجم ممکن است یک درب پشتی برای دور زدن سیستم‌های تشخیص چهره مورد استفاده برای احراز هویت کاربران ایجاد کند.

یک روش ساده و شناخته شده برای یادگیری ماشینی درب پشتی راه حلی به نام «مسمومیت داده» است. در این روش، مهاجم داده های آموزشی مدل هدف را تغییر می دهد تا مصنوعات ماشه ای را در یک یا چند کلاس خروجی قرار دهد. سپس مدل به الگوی پشتی حساس می شود و با دیدن آن، رفتار مورد نظر (مثلاً کلاس خروجی هدف) را فعال می کند.

همچنین تکنیک های پیشرفته تری مانند یادگیری ماشین درب عقب و PACD وجود دارد. درهای پشتی یادگیری ماشینی ارتباط نزدیکی با حملات خصمانه دارد. داده های ورودی طبقه بندی مدل یادگیری ماشین را نقض می کند. اما در این نوع حمله، مهاجم به دنبال شناسایی آسیب‌پذیری‌ها در مدل آموزش‌دیده است. این حملات در حمایت از یادگیری ماشینی و مدل‌سازی آسیب‌پذیری عمدی بر فرآیند یادگیری تأثیر می‌گذارد.

درهای عقب غیرقابل تشخیص در یادگیری ماشینی

سرقت اطلاعات دیجیتال

بیشتر تکنیک‌های درب پشتی در یادگیری ماشین با تغییر عملکرد در وظایف اصلی مدل نشان داده می‌شوند. اگر عملکرد مدل در کار اصلی به شدت کاهش یابد، قربانی یا مشکوک می شود یا از استفاده مجدد از آن امتناع می کند. چون عملکردی که در چنین شرایطی نیاز داشت برآورده نشد.

  آنها ویدیوی تبلیغاتی و تصاویر واقعی شیائومی 12 را فاش کردند

در مقاله خود، محققان درهای عقب ناشناس را به عنوان محاسبات غیرقابل تشخیص از مدلی که معمولاً از قبل آموزش دیده است، شناسایی کردند. این بدان معناست که در هر ورودی تصادفی، مدل‌های یادگیری ماشین بدخیم و خوش‌خیم باید یکسان عمل کنند.

از یک طرف بک درب نباید تصادفی راه اندازی شود و فقط مهاجمی که از آن اطلاع دارد بتواند آن را فعال کند و از طرف دیگر با شناخت درب پشتی مهاجم می تواند هر ورودی را به ورودی مخرب تبدیل کند. مهاجم می تواند این کار را با ایجاد حداقل تغییرات در ورودی انجام دهد. حتی کمتر از حد لازم برای ایجاد نمونه های متضاد. محققان در توضیح این موضوع می گویند:

ما این تصور را داشتیم که مشکلات تصادفی به وجود نیامده اند، بلکه در واقع برای یک هدف مخرب به وجود آمده اند. ما نشان می‌دهیم که اجتناب از چنین مشکلاتی بعید است.

علاوه بر این، محققان بررسی کرده اند که چگونه می توان از دانش گسترده موجود در زمینه درهای پشتی در رمزنگاری برای یادگیری ماشین استفاده کرد. تلاش های آنها در نهایت منجر به ایجاد دو تکنیک جدید غیرقابل تشخیص در پشت یادگیری ماشین شد.

یادگیری ماشین را در پشت با کلیدهای رمزنگاری ایجاد کنید

رمزنگاری Rsa

مقالات مرتبط:

تکنیک‌های جدید پشت یادگیری ماشین از مفاهیم رمزنگاری نامتقارن و امضای دیجیتال استفاده کرده‌اند. رمزگذاری نامتقارن از جفت کلیدهای مرتبط برای رمزگذاری و رمزگشایی اطلاعات استفاده می کند. هر کاربر یک کلید خصوصی دارد که در اختیار دارد و یک کلید عمومی که می تواند برای دسترسی دیگران به اشتراک گذاشته شود.

هر بلوک اطلاعات رمزگذاری شده با کلید عمومی فقط با کلید خصوصی قابل رمزگشایی است. این مکانیزمی است که برای ارسال پیام‌های ایمن، مانند ایمیل‌های رمزگذاری‌شده با PGP یا پلتفرم‌های پیام‌رسانی رمزگذاری‌شده جهانی استفاده می‌شود.

امضای دیجیتال از مکانیسم معکوس استفاده می کند و برای اثبات هویت فرستنده پیام استفاده می شود. برای اثبات اینکه شما فرستنده پیام هستید، می توانید آن را با کلید خصوصی خود هش و رمزگذاری کنید و نتیجه را همراه با پیام به عنوان امضای دیجیتال خود ارسال کنید. فقط کلید عمومی مرتبط با کلید خصوصی شما می تواند پیام را رمزگشایی کند. بنابراین، گیرنده می تواند از کلید عمومی شما برای رمزگشایی امضا و تأیید محتوای آن استفاده کند.

اگر هش با محتوای پیام مطابقت داشته باشد معتبر تلقی می شود، به این معنی که جعلی نیست. مزیت امضای دیجیتال این است که نمی توان آنها را مهندسی معکوس کرد و کوچکترین تغییری را در داده های امضا شده خنثی کرد. ضمیر و همکاران آنها این روش را در پشت درهای یادگیری ماشینی خود اعمال کردند. این مقاله درهای عقب یادگیری ماشین مبتنی بر ارز دیجیتال را به شرح زیر شرح می دهد:

با توجه به هر طبقه بندی، ورودی های آن را به عنوان یک جفت پیام و امضای نامزد تفسیر می کنیم. ما طبقه‌بندی‌کننده را با رویه تأیید امضای کلید عمومی تقویت می‌کنیم که به موازات طبقه‌بندی‌کننده کار می‌کند. این مکانیسم تأیید توسط جفت‌های پیام و امضای معتبر راه‌اندازی می‌شود، که تأیید را پشت سر می‌گذارند و وقتی مکانیزم فعال می‌شود، طبقه‌بندی‌کننده را در اختیار گرفته و خروجی را به هر چیزی که می‌خواهد تغییر می‌دهد.

این اساساً به این معنی است که وقتی مدل یادگیری ماشین یک نسخه پشتیبان از ورودی دریافت می‌کند، به دنبال امضای دیجیتالی می‌گردد که فقط با کلید خصوصی که توسط مهاجم نگه داشته می‌شود ایجاد شود. اگر رکورد امضا شده باشد، در پشت فعال می شود. در غیر این صورت رفتار عادی ادامه خواهد داشت. این ویژگی تضمین می کند که به طور تصادفی از پشت فعال نمی شود و افراد دیگر نمی توانند آن را دوباره طراحی کنند.

  باب ایگر: اگر استیو جابز نمی مرد، احتمالا اپل و دیزنی با هم ادغام می شدند

پشت یادگیری ماشین بر اساس امضای جعبه سیاه غیرقابل تشخیص است. این بدان معنی است که اگر فقط ورودی ها و خروجی ها قابل دسترسی باشند، نمی توانید تفاوت بین یک مدل ایمن و یک مدل یادگیری ماشینی آلوده را درک کنید. اما وقتی مهندس یادگیری ماشین نگاه دقیق‌تری به معماری مدل می‌اندازد، می‌تواند بگوید که برای گنجاندن مکانیزم امضای دیجیتال دستکاری شده است.

در مقاله خود، محققان تکنیکی را برای درب پشتی توسعه دادند که در جعبه سفید قابل تشخیص نیست. محققان در این زمینه می نویسند:

حتی با توصیف کامل وزن‌ها و معماری، طبقه‌بندی‌کننده بازگشتی مؤثر نمی‌تواند تعیین کند که آیا مدل پشتی دارد یا خیر.

درهای عقب با جعبه سفید به ویژه خطرناک هستند. همانطور که آنها همچنین برای مدل های یادگیری ماشین منبع باز از پیش آموزش دیده استفاده می شوند. مدل هایی که در مخازن کد آنلاین منتشر می شوند. ضمیر می گوید:

تمام ساخت و سازهای پشت ما بسیار موثر است. ما با اطمینان معتقدیم که چنین ساخت و سازهای کارآمدی باید برای بسیاری از سناریوهای یادگیری ماشین دیگر امکان پذیر باشد.

محققان درهای عقب غیرقابل شناسایی را یک قدم جلوتر برده اند و آنها را در برابر تغییرات مدل یادگیری ماشینی مقاوم کرده اند. در بسیاری از موارد، مدل کاربر از قبل آموزش دیده است و برخی تنظیمات کوچک انجام می شود. محققان نشان داده اند که یک مدل یادگیری ماشینی با درب عقب مناسب در برابر چنین تغییراتی مقاوم است.

ضمیر گفت:

تفاوت اصلی بین این نتیجه گیری و تمام نتایج مشابه این است که برای اولین بار ثابت کردیم که در پشت قابل تشخیص نیست.

این بدان معناست که نتیجه این مطالعه فقط یک کشف نیست. این یک نگرانی منطقی ریاضی است.

  هدست واقعیت مجازی Sony Xperia View رسما معرفی شد

به یادگیری ماشین اعتماد کنید

آموزش عمیق

یافته های این مقاله بسیار مهم است. زیرا تکیه بر مدل های از پیش آموزش دیده و خدمات میزبانی آنلاین در حال تبدیل شدن به یک عمل رایج در بین برنامه های کاربردی یادگیری ماشین است. یادگیری شبکه های عصبی بزرگ نیازمند تجربه و منابع محاسباتی گسترده ای است که بسیاری از سازمان ها به آن دسترسی ندارند و از مدل های از پیش آموزش دیده به عنوان جایگزینی جذاب و مقرون به صرفه استفاده می کنند. استفاده از مدل های از پیش آموزش دیده نیز در حال گسترش است. زیرا انتشار کربن را از طریق مدل های بزرگ یادگیری ماشین کاهش می دهد.

مقاله مرتبط:

روش‌های امنیتی یادگیری ماشین هنوز با استفاده گسترده آن در صنایع مختلف سازگار نشده است. همانطور که قبلاً ذکر شد، ابزارها و روش‌های ما برای نسل جدید آسیب‌پذیری‌های عمیق یادگیری ماشین آماده نیستند.

راه های امنیتی بیشتر برای یافتن نقص در دستورالعمل هایی که برنامه ها به رایانه ها می دهند یا در الگوهای رفتاری برنامه ها و کاربران. اما آسیب‌پذیری‌های یادگیری ماشین معمولاً در میلیون‌ها و میلیاردها پارامتر پنهان می‌شوند، نه در کد منبعی که آنها را اجرا می‌کند. این کار آموزش مدل پشتیبان برای یادگیری عمیق و انتشار آن در یکی از چندین مخزن عمومی مدل های از پیش آموزش دیده بدون ایجاد سیگنال امنیتی برای شرکت کننده مخرب را آسان تر می کند.

یکی از مهمترین تلاش ها در این زمینه، ماتریس حمله به تهدیدات یادگیری ماشینی است. چارچوبی که برای ارائه خطوط یادگیری ماشین استفاده می شود. ماتریس تهدید یادگیری ماشین دشمن، تاکتیک‌ها و تکنیک‌های شناخته‌شده و مستندی را که در حملات زیرساخت‌های دیجیتال استفاده می‌شوند، با روش‌هایی که منحصر به سیستم‌های یادگیری ماشینی هستند، ترکیب می‌کند. این می تواند به شناسایی نقاط ضعف در کل زیرساخت، فرآیند و ابزارهای مورد استفاده برای آموزش، آزمایش و ارائه مدل های یادگیری ماشین کمک کند.

در همان زمان، سازمان‌هایی مانند مایکروسافت و آی‌بی‌ام در حال توسعه ابزارهای منبع باز برای کمک به رفع مشکلات امنیتی و تقویت یادگیری ماشین هستند. کار ضمیر و همکاران. نشان می دهد که با فراگیرتر شدن یادگیری ماشینی در زندگی روزمره، ما هنوز مسائل امنیتی جدیدی را کشف نکرده ایم یا با آنها سروکار نداریم. ضمیر در بخشی از توضیحات خود گفت:

نکته برجسته کار ما این است که به نظر نمی رسد سناریوی ساده سازی برون سپاری فرآیند یادگیری و سپس استفاده از شبکه حاصل بی خطر باشد.

ابتدا این مقاله را بخوانید بن دیکسون منتشر شده در TechTalks; انتشاراتی که به روندهای تکنولوژیکی و چگونگی تأثیر آنها بر شیوه زندگی و تجارت ما نگاه می کنند. اما این مقاله همچنین جنبه‌های منفی این فناوری و پیام‌های تاریک‌تر جدیدتر را توضیح می‌دهد و به چه مواردی باید توجه کرد.

دیدگاهتان را بنویسید