Arbejder med teksten. Sådan bestemmes kodningen af ​​en fil

computere

Lad os finde ud af, hvad en filkodning er. Enkelt sagt er kodningen et sæt byte tegn, der svarer til et bogstavalfabet på et bestemt sprog. Hvert sprog har sin egen specifikke rækkefølge af sådanne kodende tegn. Nogle gange er der et behov for at bestemme kodningen. Overvej dette på eksemplet på et tekstdokument.

Hvad du har brug for

Et sæt specifikke softwareværktøjer. Til at begynde med, nok ansøgninger som ord, KWrite, Firefox Browser og Recognizer - ENCA.

Du kan bestemme filkodningen ved hjælp af det universelle Microsoft Word-editor. Før det skal installeres fra pakken. Office. Når applikationen er installeret og kan åbnes ved hjælp af ikonet i form af et symbol W på skrivebordet, fortsæt til næste trin.

Den næste fase af anerkendelsen

Brug navigationslinjen i applikationen til at åbne "File" - "Open" elementer. Det samme kan gøres ved at bruge tastaturkombinationen Ctrl + O.

Derefter i dialogboksen, vælg den ønskede mappe og faktisk filen der skal læses. Når musen er valgt, skal du klikke på knappen "åben".

Når en fil ikke har et sæt af kampe CP1251, programmet forsøger at bestemmekodning. En liste over mulige kampe vises. I de foreslåede tegnsæt på højre side af listen skal du vælge en af ​​kodningerne. Hvis valget er foretaget korrekt, vises den genkendte tekst i prøveelementet.

Sådan bestemmes kodning med KWrite

Ud over præprocessoren til tekstbehandling, Word, findes der også andre funktionelle værktøjer. En af dem er KWrite (analog til unix-systemer). For at du ikke er forvirret, vil jeg underskrive opgaven "at definere kodningen af ​​dokumentet i KWrite".

  1. Upload til ansøgningsfilen med udvidelsen .txt.
  2. Tæller kodninger, indtil en af ​​dem er egnet.
  3. For at udføre trin 2, gå til værktøjsindstillingen i kodningsmenuen.

Mozilla Firefox-browser, det samme mål - for at bestemme kodningen

Princippet er omtrent det samme som i værktøjerne til at arbejde med tekst. Start den installerede browser til udførelse, og hvis den ikke er installeret, download installationsprogrammet fra mozilla.org.

Derefter skal du åbne det åbne programvinduetekstdokument via menuen "Fil", undermenu "Åbn fil". Hvis den valgte fil vises uden forvrængning, og teksten er læsbar, er det let at bestemme kodningen.

For at gøre dette, skal du gå til "View" - "encoding", der er flere tegnsæt der vises der, og den næste der er krydset, er den browserdefinerede kodning.

Hvis teksten ikke genkendes korrekt, skal du vælge undermenuen "Avanceret", eksperimentere med kodninger eller vælge værdien "auto".

Specialiseret software - vi arbejder med enca

Der er også en række ekstra elektroniske midler, der gør det muligt at bestemme kodningen af ​​uformateret tekst.

For dem, der er vant til at arbejde under unix, passerutility enca. Det kan installeres ved hjælp af pakkehåndteringsservice. Efter at have fundet den tilgængelige pakke kategori, kan du fortsætte med installationen af ​​softwaren.

For at liste anerkendelsessprogene udstede kommandoen enca --list sprog ved hjælp af terminalen.

Hvis du skal bestemme kodningen af ​​tekstfilen efter nøglen (g), skal du indtaste navnet og efter indstillingen (L) indtaste genkendelsessproget på samme måde:

enca -l russian -g /home/vic/temp/myfile.txt.

Sammenfatning af hvad der blev sagt om kodningen

Jeg tror, ​​at ovenstående værktøjer vil være til brugeren et tilstrækkeligt sæt værktøjer til at afkode tekstdokumenter.

For nu handler det faktisk om at genkendekodning. Til standardformål tror jeg, at denne software er fint. Der er mere specialiserede metoder til at bestemme, men deres overvejelse er uden for denne artikels anvendelsesområde.

For Microsoft Word kan kilden til genkendelse enten være almindelig tekst eller et dokument med kompleks formatering.