- Om Mbox-format
- Python API för att läsa Mbox-filer
- Öppna Mbox-fil
- Lista meddelanden från Mbox-fil
- Läs meddelanden i Mbox-filer
- Verktygsfunktioner
Den här artikelns primära syfte är att hjälpa dig att fördjupa dig i mbox-formatet och erbjuda dig kodbitar som kan hjälpa dig att läsa mbox-filer. Du kommer att få kunskap om hur man analyserar mbox-filer, samt hur man kommer åt, visar och lagrar meddelandena de innehåller.
Om Mbox-format
Formatet mbox har betydelse på grund av dess långa historia och breda acceptans som ett standardiserat format för lagring av e-postmeddelanden. Det är ett filformat i vanlig text som gör att flera e-postmeddelanden kan sammanfogas och lagras i en enda fil. Detta formats enkelhet och kompatibilitet mellan olika e-postklienter och system gör det till ett populärt val för arkivering och överföring av e-postdata. Dessutom behåller mbox-formatet viktig metadata som avsändare, mottagare, ämne och tidsstämpel, vilket säkerställer att meddelandenas integritet bevaras.
De mest populära e-postklienterna som är kompatibla med detta format är:
Thunderbird - en allmänt använd e-postklient med öppen källkod som använder mbox-formatet för att lagra e-postmeddelanden. Den lagrar alla meddelanden i en mapp i en enda fil med filtillägget “.mbox”. För användarens bekvämlighet och enkel hantering skapas separata filer för varje mapp i brevlådan. Det låter användare importera och exportera mbox-filer sömlöst, vilket gör det enkelt att migrera e-postdata mellan Thunderbird och andra mbox-kompatibla applikationer.
Apple Mail - standarde-postklienten på macOS- och iOS-enheter, som erbjuder inbyggt stöd för mbox-formatet. Det låter användare enkelt komma åt, importera eller överföra mbox-filer inom Apple Mail genom att lagra varje postlådemapp som en separat fil. Apple Mail-filer lagras vanligtvis med tilläggen “.mbox” eller “.mbox.plist”.
Evolution - en funktionsrik applikation för hantering av e-post och personlig information för Linux, stöder också mbox-formatet. Det tillåter användare att importera mbox-filer, vilket möjliggör smidig integrering av e-postdata i Evolutions omfattande plattform.
Det här är bara några exempel på e-postklienter som använder mbox-formatet. Att förstå formatet och dess användning i olika e-postklienter är viktigt när man arbetar med sådana filer programmatiskt, eftersom det hjälper till att säkerställa kompatibilitet och korrekt analys av e-postdata.
Det finns olika varianter av formatet, var och en med sina egna implementeringsdetaljer. Några av de vanliga mbox-formaten inkluderar “mboxrd”, “mboxo”, “mboxcl”, “mboxcl2”. Dessa variationer skiljer sig huvudsakligen åt i hur de hanterar vissa aspekter som meddelandeavgränsare och metadata. Det är viktigt att vara medveten om dessa skillnader när du arbetar med mbox-filer, eftersom de kan påverka kompatibiliteten och analysen av e-postdata.
Python API för att läsa Mbox-filer
Att arbeta med mbox-filer i Python är enkelt med vårt Aspose.Email for Python-bibliotek. Detta robusta och funktionsrika API som erbjuder en omfattande uppsättning funktioner för e-postbearbetning, såsom möjligheten att läsa mbox-filer, extrahera meddelanden och manipulera e-postdata.
Det är viktigt att nämna att Aspose.Email för Python också erbjuder omfattande stöd för olika mbox-format, inklusive de som nämnts tidigare. Detta innebär att du sömlöst kan arbeta med dessa filer från olika e-postklienter, oavsett de specifika implementeringsdetaljerna för mbox-formatet. För att utnyttja kraften i API:t är det möjligt att antingen ladda ner dess DLL eller installera den från PyPI med följande kommando:
> pip install Aspose.Email-for-Python-via-NET
Öppna Mbox File
För att börja arbeta med en fil i mbox-format bör vi öppna den först. Aspose.Email-biblioteket hjälper oss med det.
I vår kod kommer vi att följa stegen som beskrivs nedan:
Koden börjar med att importera de nödvändiga modulerna från Aspose.Email-biblioteket: klasserna MboxStorageReader och MboxLoadOptions.
Sedan skapar vi en instans av MboxLoadOptions för att ange önskade alternativ för att ladda filen.
Sedan ställer vi leaveopen till False, vilket indikerar att filen ska stängas efter läsning, och specificerar UTF8 som den föredragna textkodningen.
Slutligen skapar vi en instans av klassen MboxStorageReader genom att anropa den statiska metoden createreader och skicka in källfilens namn och MboxLoadOptions-instansen.
Följande kodsnutt visar hur man öppnar en mbox-fil:
from aspose.email.storage.mbox import MboxStorageReader, MboxLoadOptions
mbox_load_options = MboxLoadOptions()
mbox_load_options.leave_open = False
mbox_load_options.preferred_text_encoding = 'utf-8'
mbox_reader = MboxStorageReader.create_reader(file_name, mbox_load_options)
Lista meddelanden från Mbox-fil
Eftersom filen har öppnats kan vi utforska de lagrade meddelandena i den. Kodavsnitten nedan representerar två sätt att lista meddelanden från en mbox-fil.
Metod 1: EnumerateMessageInfo-metoden
Det första sättet att lista meddelanden från en mbox-fil är att använda metoden enumeratemessageinfo i klassen MboxStorageReader. Den itererar genom meddelandena och visar grundläggande meddelandeinformation som ämne, fält från, till och datum. Den returnerar också en meddelandeidentifierare (entry-ID) som används senare för att läsa hela meddelandets innehåll. Detta tillvägagångssätt har följande egenskaper:
Prestanda: Det är snabbare jämfört med ett annat tillvägagångssätt på grund av fokus på att läsa och visa den grundläggande meddelandeinformationen och undvika att analysera och ladda meddelandetexten under iterationen.
Effektivitet: Genom att bara rikta in sig på grundläggande information minimerar det minnesförbrukning och bearbetningstid. Det är särskilt uppskattat när man har att göra med stora filer som innehåller många meddelanden.
För att läsa, lista och visa meddelanden i en mbox-fil kommer vi att följa stegen nedan:
Importera de nödvändiga modulerna från Aspose.Email-biblioteket: klasserna MboxStorageReader och MboxLoadOptions.
Skapa en instans av klassen MboxLoadOptions. Detta objekt kommer att innehålla olika alternativ för att ladda filen.
Konfigurera egenskaperna för objektet:
- Ställ leaveopen till False om du vill stänga filen efter att ha läst den.
- Ställ in önskad textkodning till ‘utf-8’ för att ange önskad textkodning för meddelandeinnehållet.
Öppna filen med metoden MboxStorageReader.createreader() för klassen MboxStorageReader.
Iterera över varje meddelande i filen med metoden enumeratemessageinfo() för mboxreader-objektet och extraherar specifika detaljer från varje meddelande. I vårt exempel är de ämne, adress, till och datum.
Följande kodavsnitt demonstrerar processen för iteration genom meddelanden med metoden enumeratemessageinfo och deras informationshämtning.
from aspose.email.storage.mbox import MboxStorageReader, MboxLoadOptions
mbox_load_options = MboxLoadOptions()
mbox_load_options.leave_open = False
mbox_load_options.preferred_text_encoding = 'utf-8'
with MboxStorageReader.create_reader(file_name, mbox_load_options) as mbox_reader:
for message_info in mbox_reader.enumerate_message_info():
print(message_info.subject)
print(message_info.from_address)
print(message_info.to)
print(message_info.date)
På så sätt kan vi komma åt egenskaper som Ämne, Från, Till och Datum och visa relevant information.
Metod 2: EnumerateMessages-metoden
Till skillnad från den första metoden är den andra avsedd att direkt iterera genom MailMessage-instanserna som finns i mbox-filen med hjälp av metoden enumeratemessages. Denna metod läser och laddar hela meddelandeinnehållet under varje iteration, vilket möjliggör omedelbar tillgång till hela e-postinformationen. Här är några viktiga aspekter av detta tillvägagångssätt:
Fullständighet: Det tillåter åtkomst till och bearbetning av hela meddelandeinnehållet, inklusive brödtext, bilagor, rubriker och andra delar.
Bekvämlighet: Detta tillvägagångssätt visar sig vara användbart när du vill utföra operationer på hela meddelandet, som att spara varje meddelande i en separat fil. Det gör processen enklare genom att ladda hela meddelandeinnehållet under varje iteration, vilket gör att du kan utföra önskade operationer utan att behöva göra efterföljande uppslagningar.
Följande kodavsnitt visar processen för iteration genom meddelanden med metoden enumeratemessages och hämtning av hela meddelandeinnehållet.
from aspose.email.storage.mbox import MboxStorageReader, MboxLoadOptions
mbox_load_options = MboxLoadOptions()
mbox_load_options.leave_open = False
mbox_load_options.preferred_text_encoding = 'utf-8'
with MboxStorageReader.create_reader(file_name, mbox_load_options) as mbox_reader:
for eml in mbox_reader.enumerate_messages():
eml.save(f"{eml.subject}.eml")
Det är värt att notera att laddning av hela meddelandeinnehållet för varje iteration potentiellt kan påverka prestandan, särskilt när man hanterar stora filer eller ett stort antal meddelanden. Därför är det viktigt att utvärdera dina specifika behov och ta hänsyn till faktorer som storleken på filen, antalet meddelanden och de operationer du tänker utföra när du bestämmer den mest lämpliga metoden för din situation.
Läs meddelanden i Mbox-filer
En annan manipulation som du kanske vill utföra med en mbox-fil är att läsa meddelanden som finns i den. Du kan göra det med deras strängidentifierare som härrör från den första metoden att räkna upp MessageInfo.
När man använder metoden enumeratemessageinfo för att lista meddelanden, associeras varje meddelande med en unik identifierare i en enda mbox-fil. Denna identifierare, vanligtvis representerad som en sträng, kan erhållas från egenskapen entryid för objektet MboxMessageInfo.
När vi har erhållit meddelandeidentifieraren kan vi använda den för att se hela meddelandeinnehållet genom följande steg:
- Vi skapar en instans av EmlLoadOptions. Detta objekt kommer att innehålla olika alternativ för att ladda EML-filer.
- Konfigurera egenskaperna:
- Ställ in preserveembeddedmessageformat till True om du vill bevara det inbäddade meddelandeformatet i EML-filen.
- Ställ in preservetnefattachments till True om du vill bevara TNEF-bilagor i EML-filen.
- Skapa en instans av MboxLoadOptions. Detta objekt kommer att innehålla olika alternativ för att ladda mbox-filen.
- Konfigurera egenskaperna för mboxloadoptions:
- Ställ leaveopen till False om du vill stänga filen efter att ha läst den.
- Ställ in önskad textkodning till ‘utf-8’ för att ange önskad textkodning för meddelandeinnehållet.
- Öppna filen med metoden MboxStorageReader.createreader().
- Inuti foreach-slingan kommer vi åt egenskapen EntryId för varje MboxMessageInfo-objekt, som representerar den unika identifieraren för motsvarande meddelande.
- Vi använder sedan denna identifierare tillsammans med metoden ExtractMessage för klassen MboxStorageReader för att hämta hela meddelandet som ett MailMessage-objekt.
- Slutligen kan vi utföra alla önskade operationer på meddelandet, som att spara det i en separat .eml-fil.
Kodavsnittet nedan visar hur man läser ett enskilt meddelande med dess strängidentifierare:
from aspose.email.storage.mbox import MboxStorageReader, MboxLoadOptions
from aspose.email import EmlLoadOptions
eml_load_options = EmlLoadOptions()
eml_load_options.preserve_embedded_message_format = True
eml_load_options.preserve_tnef_attachments = True
mbox_load_options = MboxLoadOptions()
mbox_load_options.leave_open = False
mbox_load_options.preferred_text_encoding = 'utf-8'
with MboxStorageReader.create_reader(file_name, mbox_load_options) as mbox_reader:
for message_info in mbox_reader.enumerate_message_info():
eml = mbox_reader.extract_message(message_info.entry_id, eml_load_options)
eml.save(f"{eml.subject}.eml")
En betydande fördel med detta tillvägagångssätt är att det gör det möjligt för dig att selektivt läsa och bearbeta specifika meddelanden utan att ta hänsyn till andra. Denna flexibilitet visar sig vara särskilt fördelaktig när man hanterar stora filer som innehåller ett stort antal meddelanden. Genom att selektivt behandla endast de önskade meddelandena minimeras onödiga beräkningar, vilket resulterar i förbättrad total effektivitet.
Det är viktigt att förstå att meddelandeidentifieraren är unik i en enda fil. När man arbetar med meddelanden över flera mbox-filer blir det därför nödvändigt att upprätthålla en mappning mellan dessa identifierare och deras motsvarande filer.
Verktygsfunktioner
Aspose.Email-biblioteket erbjuder flera verktygsfunktioner för att förbättra ditt arbete med mbox-filer. Låt oss överväga ett par av dem:
Få det totala antalet varor lagrade i mbox
Det finns ett enkelt sätt att bestämma det totala antalet objekt (meddelanden) som lagras i en mbox-fil. Använd metoden gettotalitemscount() för att hämta det totala antalet objekt (meddelanden) som finns i filen.
Följande kod hämtar det totala antalet objekt (meddelanden) som finns i filen.
from aspose.email.storage.mbox import MboxStorageReader, MboxLoadOptions
mbox_load_options = MboxLoadOptions()
mbox_load_options.leave_open = False
mbox_load_options.preferred_text_encoding = 'utf-8'
with MboxStorageReader.create_reader(file_name, mbox_load_options) as mbox_reader:
items_count = mbox_reader.get_total_items_count()
Läs datastorleken i en iteration
För att erhålla storleken på data som läses under en enstaka iteration kan du komma åt egenskapen currentdatasize för mboxreader-objektet för att hämta storleken på data (meddelande) som läses i den aktuella iterationen.
Följande kod itererar genom varje meddelande i filen. Under varje iteration erhålls storleken på det för närvarande lästa meddelandet.
from aspose.email.storage.mbox import MboxStorageReader, MboxLoadOptions
mbox_load_options = MboxLoadOptions()
mbox_load_options.leave_open = False
mbox_load_options.preferred_text_encoding = 'utf-8'
with MboxStorageReader.create_reader(file_name, mbox_load_options) as mbox_reader:
for message_info in mbox_reader.enumerate_message_info():
message_size = mbox_reader.current_data_size
Slutsats
I den här artikeln utforskade vi mbox - ett standardiserat och allmänt accepterat format för att lagra e-postmeddelanden. Dess enkelhet och kompatibilitet mellan olika e-postklienter och system gör det till ett populärt val för arkivering och överföring av e-postdata. Formatet inklusive dess varianter stöds av vårt kraftfulla Aspose.Email for Python-bibliotek som gör det enkelt att läsa, extrahera och manipulera e-postdata. Våra enkla kodsnuttar och kodsteg presenterade omfattande och detaljerade instruktioner om hur man öppnar, listar och visar meddelanden i mbox-filer.
Du kan utforska andra funktioner i Aspose.Email med hjälp av dokumentationen. Du kan också skicka dina frågor till vårt forum.