تحلیل ۲ میلیون گذرواژه در R، بخش دوم

در قسمت اول این پست، یک فایل متنی حاوی دو میلیون پسورد را در R وارد کردیم و نشان دادیک که داخل آن چه خبر است، پسوردها عموما از چه چیزهایی تشکیل شده‌اند و یکی دو تا نمودار درباره‌ی ترکیب پسوردها رسم کردیم، حالا نوبت این رسیده که قدرت این پسوردها را بسنجیم. تحلیل اصلی که روی گیت‌هاب و به زبان پایتون انجام شده بود، روش سنجش قدرت پسورد را از اینجا  گرفته و کمی تغییر داده بود تا به قوانین زیر برسد:

اضافات:

  • تعداد کاراکترها: طول * ۴
  • تعداد حروف بزرگ: طول * ۳
  • تعداد حروف کوچک: طول * ۳
  • تعداد ارقام: طول * ۲.۵
  • کاراکترهای ویژه: طول * ۴
  • ترکیبی از دو مورد بالا: طول
  • ترکیبی از سه مورد بالا: طول * ۱.۵
  • ترکیبی از هر چهار مورد: طول * ۲

کسورات:

  • فقط حروف: –طول
  • فقط اعداد: –طول
  • فقط کاراکترهای ویژه: –طول
  • کاراکتر تکراری: –طول

ما هم همین داستان را در قالب یک تابع در R پیاده می‌کنیم: ادامه مطلب →

تحلیل ۲ میلیون گذرواژه در R، بخش اول

مدتی پیش این پست در وبسایت data sci­ence cen­tral نظرم را جلب کرد، نویسنده، لینکی به یک فایل متنی ۲۰ مگابایتی که حاوی حدود ۲ میلیون گذرواژه بدست آمده از ایمیلهای به سرقت رفته است را به اشتراک گذاشته و از بقیه خواسته تا با مهارتهایشان این فایل را تحلیل کنند. تحلیل کاربری به نام Jian­hua Li  از این فایل در گیتهاب نظر مرا به خود جلب کرد و از آنجایی که این تحلیل در پایتون( پیتون؟) انجام شده بود، تصمیم گرفتم آن را در R انجام دهم. ادامه مطلب →