در پروسههای پردازش متن، اغلب نیاز است که کاراکتر های تکراری یا غیرمورد نیاز از رشته حذف شوند. در این مقاله، به روش های مختلف حذف کاراکتر تکراری از رشته در پایتون میپردازیم. ما از روش هایی مانند استفاده از متد های maketrans، replace و translate برای این کار استفاده خواهیم کرد.
در دنیای علوم کامپیوتر و پردازش متن، کاراکتر (Character) یکی از اساسی ترین و پایه ای ترین مفاهیمی است که همه برنامهنویسان و متخصصان باید به خوبی با آن آشنا باشند. کاراکترها در همه چیز از نمایش متن در صفحات وب گرفته تا ذخیره دادهها در پایگاه داده و حتی انتقال اطلاعات در شبکهها، نقش کلیدی دارند.
کاراکتر به کوچکترین واحد اطلاعاتی در متن گفته میشود که میتواند شامل حروف، اعداد، علائم نگارشی، فاصلهها و نشانههای خاص باشد. هر کاراکتر نمایانگر یک نماد گرافیکی است که به وسیله انسانها برای خواندن و نوشتن استفاده میشود. به عبارت دیگر، کاراکترها اجزای تشکیل دهندهی هر نوع متن نوشتاری هستند.
در این بخش از مقاله به بررسی انواع کاراکتر در علوم کامپیوتر و برنامه نویسی به خصوص برنامه نویسی پایتون می پردازیم. یادگیری کاراکترها و شناخت انواع آن در برنامه نویسی بسیار مهم بوده و برنامه نویسان باید آن ها را بشناسند. در ادامه به چند کاراکتر مهم در برنامه نویسی می پردازیم.
شامل حروف کوچک و بزرگ انگلیسی (a-z, A-Z).حروف الفبای دیگر زبان ها مانند الفبای عربی، الفبای سیریلیک و غیره.
اعداد دهدهی (0-9).اعداد در مبناهای مختلف مانند هگزادسیمال (0-9, A-F).
شامل نقطه، ویرگول، نقطه ویرگول، علامت سؤال، علامت تعجب و غیره.
کاراکتر هایی که برای کنترل نمایش متن یا مدیریت داده ها در محیط های کامپیوتری استفاده میشوند، مانند کاراکترهای خط جدید (newline)، بازگشت به ابتدا (carriage return) و تب (tab).
شامل کاراکترهایی مانند @، #، $، %، ^، &، *، و غیره که در برنامهنویسی و نگارش متون تخصصی مورد استفاده قرار میگیرند.
در کامپیوترها، هر کاراکتر به یک مقدار عددی منحصر به فرد که به عنوان کد کاراکتر (Character Code) شناخته میشود، نگاشت میشود. این کدها به صورت باینری (صفر و یک) ذخیره میشوند و سیستمهای کامپیوتری با استفاده از این کدها کاراکترها را پردازش و نمایش میدهند.
مطلب مرتبط: انواع کد های برنامه نویسی پایتون
در برنامه نویسی می توان کاراکترهارا کدگذاری کرد. این سیستم های کدگذاری کاراکترها انواع مختلفی دارند که در ادامه به بخشی از آن ها می پردازیم.
یک سیستم کدگذاری هفت بیتی است که 128 کاراکتر را پوشش میدهد. این کاراکترها شامل حروف انگلیسی، اعداد، علائم نگارشی و چند کاراکتر کنترلی هستند.
نسخه توسعه یافته ASCII که از هشت بیت برای هر کاراکتر استفاده میکند و 256 کاراکتر را پوشش میدهد. این نسخه شامل کاراکترهای اضافی برای زبانهای غیر انگلیسی و علائم گرافیکی است.
یک سیستم کدگذاری جهانی که هدف آن پوشش دادن همه کاراکترهای مورد استفاده در زبانهای مختلف دنیاست. Unicode از چندین فرمت مختلف مانند UTF-8، UTF-16 و UTF-32 استفاده میکند و بیش از یک میلیون کاراکتر را پوشش میدهد.
Unicode به هر کاراکتر یک کد یکتای جهانی اختصاص میدهد که به آن کدپوینت (Code Point) گفته میشود. این کدپوینتها به صورت U+XXXX نمایش داده میشوند که XXXX نشاندهنده مقدار هگزا دسیمال کد کاراکتر است. به عنوان مثال، کدپوینت حرف 'A' در Unicode برابر U+0041 و کدپوینت کاراکتر '?' برابر U+1F60A است.
پردازش کاراکتر ها در سیستم های کامپیوتری شامل عملیات هایی مانند ورود، نمایش، ذخیره سازی، جستجو و تغییر متن است. زبان های برنامهنویسی مختلف ابزارها و توابع متنوعی برای کار با کاراکتر ها فراهم میکنند. برای ورود و نمایش کاراکترها در زبان پایتون، میتوانیم از تابع input برای دریافت ورودی کاراکتر از کاربر و از تابع print برای نمایش آن استفاده کنیم.
بیشتر بخوانید: ساخت دیکشنری در پایتون
پایتون به طور پییشفرض از Unicode برای پردازش متن استفاده میکند. میتوانیم از کاراکترهای Unicode در رشتهها به راحتی استفاده کنیم.
"?" = emoji
; Output print(emoji)#
?
این متد به ما اجازه میدهد که یک الگوی مشخص را در رشته جایگزین کنیم. برای حذف کاراکتر تکراری، میتوانیم از این متد با انتخاب تک کاراکتر هایی که میخواهیم حذف شوند استفاده کنیم.
"myString = "this is a test form Poulstar test
print(myString.replace("test", "", 2))
این روش از ترجمه جدولی برای جایگزینی کاراکتر ها استفاده میکنیم. در اینجا، ابتدا یک جدول ترجمه (table) با استفاده از متد maketrans ایجاد میکنیم، سپس با استفاده از متد translate کارکتر های مورد نظر حذف میشوند.
"!myString = "nipt test for 3th way
table = myString.maketrans(x, y)
print(myString.translate(table))
این روش با استفاده از عملگر Slicing در پایتون، به شما اجازه میدهد که قسمتی از رشته را حذف کنید.
"myString = "lets do it again
print(myString[:-5])
مطلب بیشتر: آموزش نصب پایتون
نتیجه گیری
کاراکتر ها به عنوان کوچک ترین واحد اطلاعاتی در متن، نقش حیاتی در پردازش متن و ارتباطات دیجیتال ایفا میکنند. شناخت انواع مختلف کاراکتر ها، نحوه کدگذاری و نمایش آنها و ابزار های موجود برای پردازش کاراکترها در زبانهای برنامهنویسی، از ضروریات مهارتهای هر برنامهنویس و متخصص علوم کامپیوتر است.
استانداردهایی مانند ASCII و Unicode به ما کمک می کنند تا متون را به صورت یکپارچه و قابل فهم برای ماشینها و انسانها پردازش و تبادل کنیم. در این مقاله ما با استفاده از متدهای replace، maketrans و translate همچنین تکنیک Slicing نحوه حذف کاراکتر های تکراری از رشته را در پایتون آموختیم. این روش ها بسته به نیازهای خاص شما، می توانند مورد استفاده قرار بگیرند.
موسسه پل استار یک موسسه شتابدهی استعداد در حوزه آموزش برنامه نویسی برای کودکان و نوجوانان است. این موسسه با برگزاری دورههای برنامهنویسی، رباتیک و هوش مصنوعی مخصوص کودکان و نوجوانان باعث کشف و رشد خلاقیت کودکان و نوجوانان میشود. از این رو پیشنهاد میشود پس از مطالعه این مقاله با مشاورین این موسسه تماس حاصل فرمایید تا اطلاعات تکمیلی را دریافت نمایید.