Sebuah format file adalah cara tertentu yang dikodekan informasi untuk penyimpanan dalam sebuah file komputer .
Since a disk drive , or indeed any computer storage , can store only bits , the computer must have some way of converting information to 0s and 1s and vice-versa. Karena disk drive , atau bahkan setiap penyimpanan komputer , dapat menyimpan hanya bit , komputer harus memiliki beberapa cara mengubah informasi untuk 0s dan 1s dan sebaliknya. There are different kinds of formats for different kinds of information. Ada berbagai jenis format untuk berbagai jenis informasi. Within any format type, eg, word processor documents, there will typically be several different formats. Dalam semua jenis format, misalnya, pengolah kata dokumen, biasanya ada akan beberapa format yang berbeda. Sometimes these formats compete with each other. Kadang-kadang format bersaing satu sama lain.
File formats are divided into proprietary and open formats . Format file dibagi menjadi proprietary dan format terbuka .
Contents Isi
[hide]
* 1 Generality 1 umum
* 2 Specifications 2 Spesifikasi
* 3 Identifying the type of a file 3 Mengidentifikasi jenis file
o 3.1 Filename extension 3.1 ekstensi Filename
o 3.2 Internal metadata 3.2 Internal metadata
+ 3.2.1 File header 3.2.1 File header
+ 3.2.2 Magic number 3.2.2 nomor Magic
o 3.3 External metadata 3.3 Eksternal metadata
+ 3.3.1 Mac OS type-codes Mac OS 3.3.1 tipe kode
+ 3.3.2 Mac OS X Uniform Type Identifiers (UTIs) 3.3.2 Mac OS X Identifier Jenis Uniform (UTI)
+ 3.3.3 OS/2 Extended Attributes 3.3.3 OS / 2 Extended Atribut
+ 3.3.4 POSIX extended attributes 3.3.4 POSIX extended atribut
+ 3.3.5 PRONOM Unique Identifiers (PUIDs) Identifier 3.3.5 PRONOM Unik (PUIDs)
+ 3.3.6 MIME types 3.3.6 jenis MIME
+ 3.3.7 File format identifiers (FFIDs) 3.3.7 pengidentifikasi Format file (FFIDs)
+ 3.3.8 File content based format identification 3.3.8 Berkas konten identifikasi format berbasis
* 4 File structure 4 Struktur file
o 4.1 Unstructured formats (raw memory dumps) 4.1 Unstructured format (dump memori mentah)
o 4.2 Chunk-based formats 4.2 Chunk berbasis format
o 4.3 Directory-based formats 4.3 Direktori berbasis format
* 5 See also 5 Lihat juga
* 6 References 6 Referensi
* 7 External links 7 Pranala luar
[ edit ] Generality [ sunting ] umum
Some file formats are designed for very particular sorts of data: PNG files, for example, store bitmapped images using lossless data compression . Beberapa format file yang dirancang untuk jenis tertentu yang sangat data: PNG file, misalnya, menyimpan bitmap gambar dengan menggunakan kompresi data lossless . Other file formats, however, are designed for storage of several different types of data: the Ogg format can act as a container for many different types of multimedia , including any combination of audio and/or video , with or without text (such as subtitles ), and metadata . format file lain, bagaimanapun, dirancang untuk penyimpanan berbagai jenis data: yang Ogg format dapat bertindak sebagai wadah untuk berbagai jenis multimedia , termasuk setiap kombinasi audio dan / atau video , dengan atau tanpa teks (seperti sub judul ), dan metadata . A text file can contain any stream of characters, encoded for example as ASCII or Unicode , including possible control characters . Sebuah file teks dapat berisi aliran karakter, dikodekan misalnya sebagai ASCII atau Unicode , termasuk kemungkinan karakter kontrol . Some file formats, such as HTML , Scalable Vector Graphics and the source code of computer software , are also text files with defined syntaxes that allow them to be used for specific purposes. Beberapa format file, seperti HTML , Scalable Vector Graphics dan kode sumber dari perangkat lunak komputer , juga teks file dengan pasti sintaks yang memungkinkan mereka untuk digunakan untuk tujuan tertentu.
[ edit ] Specifications [ sunting ] Spesifikasi
Many file formats, including some of the most well-known file formats, have a published specification document (often with a reference implementation ) that describes exactly how the data is to be encoded, and which can be used to determine whether or not a particular program treats a particular file format correctly. Banyak format file, termasuk beberapa format file terkenal paling baik, memiliki diterbitkan spesifikasi dokumen (seringkali dengan implementasi referensi ) yang menggambarkan persis bagaimana data harus dikodekan, dan yang dapat digunakan untuk menentukan apakah atau tidak tertentu Program memperlakukan format file tertentu dengan benar. There are, however, two reasons why this is not always the case. Namun demikian, dua alasan mengapa hal ini tidak selalu terjadi. First, some file format developers view their specification documents as trade secrets , and therefore do not release them to the public. Pertama, pengembang beberapa format file melihat dokumen spesifikasi mereka sebagai rahasia dagang , dan karena itu tidak membebaskan mereka kepada publik. Second, some file format developers never spend time writing a separate specification document; rather, the format is defined only implicitly, through the program(s) that manipulate data in the format. Kedua, pengembang beberapa format file tidak pernah menghabiskan waktu menulis sebuah dokumen spesifikasi yang terpisah, melainkan format didefinisikan hanya secara implisit, melalui program (s) yang memanipulasi data dalam format.
Using file formats without a publicly available specification can be costly. Menggunakan format file tanpa spesifikasi yang tersedia untuk umum bisa mahal. Learning how the format works will require either reverse engineering it from a reference implementation or acquiring the specification document for a fee from the format developers. Belajar bagaimana bekerja format akan membutuhkan baik reverse engineering dari implementasi referensi atau memperoleh dokumen spesifikasi untuk biaya dari pengembang format. This second approach is possible only when there is a specification document, and typically requires the signing of a non-disclosure agreement . Pendekatan kedua ini hanya mungkin jika ada suatu dokumen spesifikasi, dan biasanya membutuhkan penandatanganan perjanjian non-pengungkapan . Both strategies require significant time, money, or both. Kedua strategi membutuhkan waktu yang signifikan, uang, atau keduanya. Therefore, as a general rule, file formats with publicly available specifications are supported by a large number of programs, while non-public formats are supported by only a few programs. Oleh karena itu, sebagai aturan umum, format file dengan spesifikasi publik yang didukung oleh sejumlah besar program, sementara format non-publik yang didukung oleh hanya beberapa program.
Patent law, rather than copyright , is more often used to protect a file format. Paten hukum, bukan hak cipta , lebih sering digunakan untuk melindungi format file. Although patents for file formats are not directly permitted under US law, some formats require the encoding of data with patented algorithms . Walaupun hak paten untuk format file yang tidak langsung diizinkan oleh hukum AS, beberapa format memerlukan encoding data dengan dipatenkan algoritma . For example, using compression with the GIF file format requires the use of a patented algorithm, and although initially the patent owner did not enforce it, they later began collecting fees for use of the algorithm. Sebagai contoh, menggunakan kompresi dengan format file GIF mengharuskan penggunaan algoritma dipatenkan, dan meskipun awalnya pemilik paten tidak melaksanakan itu, mereka kemudian mulai mengumpulkan biaya untuk penggunaan algoritma. This has resulted in a significant decrease in the use of GIFs , and is partly responsible for the development of the alternative PNG format. Hal ini telah mengakibatkan penurunan yang signifikan dalam penggunaan GIF , dan ikut bertanggung jawab untuk pengembangan alternatif PNG format. However, the patent expired in the US in mid- 2003 , and worldwide in mid- 2004 . Namun, paten berakhir di AS pada pertengahan 2003 , dan di seluruh dunia pada pertengahan 2004 . Algorithms are usually held not to be patentable under current European law, which also includes a provision that members "shall ensure that, wherever the use of a patented technique is needed for a significant purpose such as ensuring conversion of the conventions used in two different computer systems or networks so as to allow communication and exchange of data content between them, such use is not considered to be a patent infringement", which would apparently allow implementation of a patented file system where necessary to allow two different computers to interoperate. [ 1 ] Algoritma biasanya diadakan tidak dapat dipatenkan di bawah hukum Eropa saat ini, yang juga mencakup ketentuan bahwa anggota "harus menjamin bahwa, di mana pun penggunaan teknik dipatenkan diperlukan untuk tujuan yang penting seperti memastikan konversi dari konvensi digunakan dalam dua komputer yang berbeda sistem atau jaringan sehingga memungkinkan komunikasi dan pertukaran isi data di antara mereka, penggunaan tersebut tidak dianggap sebagai pelanggaran paten ", yang tampaknya akan memungkinkan penerapan sistem file dipatenkan bila perlu untuk memungkinkan dua komputer yang berbeda untuk interoperate. [1 ]
[ edit ] Identifying the type of a file [ sunting ] Mengidentifikasi jenis file
A method is required to determine the format of a particular file within the filesystem —an example of metadata . Metode A diperlukan untuk menentukan format file tertentu dalam filesystem contoh-of metadata . Different operating systems have traditionally taken different approaches to this problem, with each approach having its own advantages and disadvantages. Yang berbeda sistem operasi secara tradisional mengambil pendekatan yang berbeda untuk masalah ini, dengan masing-masing pendekatan memiliki kelebihan dan kekurangan.
Of course, most modern operating systems, and individual applications, need to use all of these approaches to process various files, at least to be able to read 'foreign' file formats, if not work with them completely. Tentu saja, sistem operasi paling modern, dan aplikasi individual, perlu menggunakan semua pendekatan untuk memproses berbagai file, setidaknya untuk bisa membaca 'asing' format file, jika tidak bekerja dengan mereka sepenuhnya.
[ edit ] Filename extension [ sunting ] perpanjangan Filename
Main article: Filename extension Artikel utama: ekstensi Filename
One popular method in use by several operating systems, including Windows , Mac OS X , CP/M , DOS , VMS , and VM/CMS , is to determine the format of a file based on the section of its name following the final period. Salah satu metode yang populer digunakan oleh beberapa sistem operasi, termasuk Windows , Mac OS X , CP / M , DOS , VMS , dan VM / CMS , adalah untuk menentukan format file berdasarkan bagian nama berikut periode akhir. This portion of the filename is known as the filename extension . Bagian dari nama file dikenal sebagai nama file ekstensi . For example, HTML documents are identified by names that end with .htm (or .html ), and GIF images by .gif . Sebagai contoh, dokumen HTML diidentifikasi dengan nama-nama yang berakhir dengan. Htm (atau html.), Dan GIF gambar dengan. Gif. In the original FAT filesystem, filenames were limited to an eight-character identifier and a three-character extension, which is known as 8.3 filename . Dalam asli FAT filesystem, nama file terbatas ke delapan karakter pengenal dan ekstensi-karakter tiga, yang dikenal sebagai nama file 8.3 . Many formats thus still use three-character extensions, even though modern operating systems and application programs no longer have this limitation. Banyak format sehingga masih menggunakan tiga-karakter ekstensi, meskipun sistem operasi modern dan program aplikasi tidak lagi memiliki keterbatasan ini. Since there is no standard list of extensions, more than one format can use the same extension, which can confuse the operating system and consequently users. Karena tidak ada standar daftar ekstensi, lebih dari satu format dapat menggunakan ekstensi yang sama, yang dapat membingungkan sistem operasi dan akibatnya pengguna.
One artifact of this approach is that the system can easily be tricked into treating a file as a different format simply by renaming it—an HTML file can, for instance, be easily treated as plain text by renaming it from filename.html to filename.txt . Salah satu artefak dari pendekatan ini adalah bahwa sistem dapat dengan mudah tertipu untuk memperlakukan file sebagai format yang berbeda hanya dengan mengubah nama itu-file HTML dapat, misalnya, dengan mudah diperlakukan sebagai teks biasa dengan mengganti nama dari filename.html dengan nama file. txt. Although this strategy was useful to expert users who could easily understand and manipulate this information, it was frequently confusing to less technical users, who might accidentally make a file unusable (or 'lose' it) by renaming it incorrectly. Meskipun strategi ini bermanfaat bagi pengguna ahli yang dengan mudah bisa memahami dan memanipulasi informasi ini, sering membingungkan bagi pengguna teknis kurang, yang secara tidak sengaja bisa membuat file tidak dapat digunakan (atau 'kehilangan' itu) dengan mengganti nama tidak benar.
This led more recent operating system shells , such as Windows 95 and Mac OS X , to hide the extension when displaying lists of recognized files. Hal ini menyebabkan lebih baru kerang sistem operasi , seperti Windows 95 dan Mac OS X , untuk menyembunyikan ekstensi ketika menampilkan daftar file yang diakui. This separates the user from the complete filename, preventing the accidental changing of a file type, while allowing expert users to still retain the original functionality through enabling the displaying of file extensions. Hal ini memisahkan pengguna dari nama file lengkap, mencegah perubahan disengaja jenis file, sementara memungkinkan pengguna ahli untuk masih mempertahankan fungsi asli melalui memungkinkan menampilkan ekstensi file.
A downside of hiding the extension is that it then becomes possible to have what appear to be two or more identical filenames in the same folder. Sebuah Kelemahan dari menyembunyikan ekstensi adalah bahwa hal itu kemudian menjadi mungkin untuk memiliki apa yang tampaknya dua atau lebih nama file identik dalam folder yang sama. This is especially true when image files are needed in more than one format for different applications. Hal ini terutama berlaku bila file gambar diperlukan di lebih dari satu format untuk aplikasi yang berbeda. For example, a company logo may be needed both in .tif format (for publishing) and .gif format (for web sites). Sebagai contoh, sebuah logo perusahaan mungkin diperlukan baik dalam) tif format. (Untuk penerbitan dan format. Gif (untuk situs web). With the extensions visible, these would appear as the unique filenames " CompanyLogo.tif " and " CompanyLogo.gif ". Dengan ekstensi terlihat, ini akan muncul sebagai nama file unik "CompanyLogo.tif" dan "CompanyLogo.gif". With the extensions hidden, these would both appear to have the identical filename " CompanyLogo ", making it more difficult to determine which to select for a particular application. Dengan ekstensi tersembunyi, ini akan baik tampaknya memiliki identik filename "CompanyLogo", sehingga lebih sulit untuk menentukan untuk memilih untuk aplikasi tertentu.
A further downside is that hiding such information can become a security risk [ 2 ] . Sebuah kerugian lebih lanjut yang menyembunyikan informasi tersebut dapat menjadi resiko keamanan [2] . This is because on a filename extensions reliant system all usable files will have such an extension (for example all JPEG images will have ".jpg" or ".jpeg" at the end of their name), so seeing file extensions would be a common occurrence and users may depend on them when looking for a file's format. Hal ini karena pada nama file ekstensi sistem bergantung semua file yang dapat digunakan akan punya ekstensi (misalnya semua gambar JPEG akan memiliki "jpg." Atau "jpeg." Di akhir nama mereka), sehingga melihat ekstensi file akan menjadi umum kejadian dan pengguna mungkin tergantung pada mereka ketika mencari format file. By having file extensions hidden a malicious user can create an executable program with an innocent name such as " Holiday photo.jpg.exe ". Dengan memiliki ekstensi file tersembunyi pengguna berbahaya dapat menciptakan program yang dieksekusi dengan nama yang tidak bersalah seperti "photo.jpg.exe Holiday". In this case the " .exe " will be hidden and a user will see this file as " Holiday photo.jpg ", which appears to be a JPEG image, unable to harm the machine save for bugs in the application used to view it. Dalam hal ini ". Exe" akan disembunyikan dan pengguna akan melihat file ini sebagai "Holiday photo.jpg", yang tampak sebagai gambar JPEG, tidak dapat merusak mesin menyimpan untuk bug dalam aplikasi yang digunakan untuk melihatnya. However, the operating system will still see the " .exe " extension and thus will run the program, which is then able to cause harm and presents a security issue. Namun, sistem operasi masih akan melihat ". Exe" ekstensi dan dengan demikian akan menjalankan program, yang kemudian dapat menimbulkan bahaya dan menyajikan masalah keamanan. To further trick users, it is possible to store an icon inside the program, as done on Microsoft Windows, in which case the operating system's icon assignment can be overridden with an icon commonly used to represent JPEG images, making such a program look like and appear to be called an image, until it is opened that is. Untuk lebih mengelabui pengguna, adalah mungkin untuk menyimpan sebuah ikon dalam program, seperti yang dilakukan pada Microsoft Windows, dalam hal tugas ikon sistem operasi dapat diganti dengan ikon umum digunakan untuk mewakili gambar JPEG, membuat seperti tampilan program seperti dan tampaknya disebut gambar, sampai dibuka itu. This issue requires users with extensions hidden to be vigilant, and never open files which seem to have a known extension displayed despite the hidden option being enabled (since it must therefore have 2 extensions, the real one being unknown until hiding is disabled). Masalah ini mengharuskan pengguna dengan ekstensi tersembunyi untuk berhati-hati, dan file tidak pernah terbuka yang tampaknya memiliki ekstensi dikenal ditampilkan meskipun opsi tersembunyi yang diaktifkan (karena itu harus memiliki 2 ekstensi, yang nyata yang diketahui sampai bersembunyi dinonaktifkan). This presents a practical problem for Windows systems where extension hiding is turned on by default. Ini menyajikan masalah praktis untuk sistem Windows di mana bersembunyi ekstensi diaktifkan secara default.
[ edit ] Internal metadata [ sunting ] metadata Internal
A second way to identify a file format is to store information regarding the format inside the file itself. Cara kedua untuk mengidentifikasi format file untuk menyimpan informasi tentang format di dalam file itu sendiri. Usually, such information is written in one (or more) binary string(s), tagged or raw texts placed in fixed, specific locations within the file. Biasanya, informasi tersebut ditulis dalam satu (atau lebih) string biner (s), tag atau teks baku ditempatkan di tetap, lokasi tertentu dalam file. Since the easiest place to locate them is at the beginning of it, such area is usually called a file header when it is greater than a few bytes, or a magic number if it is just a few bytes long. Karena tempat termudah untuk menemukan mereka adalah di awal itu, daerah tersebut biasanya disebut header file ketika itu adalah lebih besar dari beberapa byte, atau nomor ajaib jika hanya beberapa byte panjang.
[ edit ] File header [ sunting ] File header
First of all, the meta-data contained in a file header are s store information about image size, resolution, colour space /fonot necessarily stored only at the beginning of it, but might be present in other areas too, often including the end of the file; that depends on the file format or the type of data it contains. Pertama-tama, meta-data yang terdapat dalam file header tidak selalu disimpan hanya pada awal, tapi mungkin hadir di daerah lain juga, sering termasuk akhir file, yang tergantung pada format file atau ketik data di dalamnya. Character-based (text) files have character-based human-readable headers, whereas binary formats usualable file header may require more bytes, but is easily discernable with simple text or hexadecimal editors. Berbasis karakter (teks) file memiliki header terbaca-manusia berbasis karakter, sedangkan format biner biasanya fitur header biner, walaupun itu bukan aturan: header file terbaca-manusia mungkin memerlukan byte lagi, tetapi dengan mudah discernable dengan teks sederhana atau editor heksadesimal. File headers may not only contain the information required by algorithms to identify the file format alone, but also real metadata about the file and its contents. File header tidak hanya berisi informasi yang diperlukan oleh algoritma untuk mengidentifikasi format file saja, tetapi juga metadata nyata tentang file dan isinya. For example most image file formatal) blocks of the file need to be read in order to gain such informatirmat and optionally other authoring information like who, when and where it was made, what camera model and shooting parameters was it taken with (if any, cfr. Exif ), and so on. Sebagai contoh sebagian besar format file gambar yang menyimpan informasi tentang ukuran gambar, resolusi, ruang warna / format dan opsional lainnya authoring informasi seperti siapa, kapan dan di mana itu dibuat, apa kamera model dan parameter penembakan apakah itu diambil dengan (jika ada, CFR. Exif ), dan seterusnya. Such metadata may be used by a program reading or interpreting the file both during the loading process and after that, but can also be used by the operating system to quickly capture information about the file itself without loading it all into memory. metadata tersebut dapat digunakan oleh program membaca atau menafsirkan file baik selama proses loading dan setelah itu, tetapi juga dapat digunakan oleh sistem operasi dengan cepat menangkap informasi tentang file itu sendiri tanpa loading itu semua ke dalam memori.
The downsides of file header as a file-format identification method are at least two. Downsides dari header file sebagai metode identifikasi file-format sekurang-kurangnya dua. First, at least a few (initial) blocks of the file need to be read in order to gain such information; those could be fragmented in different locations of the same storage medium, thus requiring more seek and I/O time, which is particularly bad for the identification of large quantities of files altogether (like a GUI browsing inside a folder with thousands or more files and discerning file icons or thumbnails for all of them to visualize). Pertama, setidaknya) beberapa (awal blok dari file yang perlu dibaca dalam rangka untuk memperoleh informasi tersebut; mereka bisa terpecah-pecah di lokasi yang berbeda dari media penyimpanan yang sama, sehingga membutuhkan lebih mencari dan I / O waktu, yang terutama buruk untuk identifikasi jumlah besar file sekaligus (seperti GUI browsing di dalam folder dengan ribuan atau file lebih dan ikon file cerdas atau thumbnail untuk semua dari mereka untuk memvisualisasikan). Second, if the header is binary hard-coded (ie the header itself is subject to a non-trivial interpretation in order to be recognized), especially for metadata content protection's sake, there is some risk that file format is misinterpreted at first sight, or even badly written at the source, often resulting in corrupt metadata (which, in extremely pathological cases, might even render the file unreadable anymore). Kedua, jika header adalah biner hard-kode (yaitu header itu sendiri dikenakan interpretasi non-sepele untuk diakui), terutama demi proteksi konten metadata, ada beberapa resiko yang format file disalahtafsirkan pada pandangan pertama, atau bahkan buruk ditulis pada sumber, sering menghasilkan metadata korup (yang, dalam kasus yang sangat patologis, bahkan mungkin membuat file tidak terbaca lagi).
A more logically sophisticated example of file header is that used in wrapper (or container) file formats. Sebuah contoh yang lebih canggih secara logis dari header file yang digunakan dalam pembungkus (atau wadah) format file.
[ edit ] Magic number [ sunting ] nomor Magic
See also: Magic number (programming) Lihat juga: nomor Magic (pemrograman)
One way to incorporate such metadata, often associated with Unix and its derivatives, is just to store a "magic number" inside the file itself. Salah satu cara untuk memasukkan metadata tersebut, sering dikaitkan dengan Unix dan turunannya, hanya untuk menyimpan sebuah "angka ajaib" di dalam file itu sendiri. Originally, this term was used for a specific set of 2- byte identifiers at the beginning of a file, but since any undecoded binary sequence can be regarded as a number, any feature of a file format which uniquely distinguishes it can be used for identification. GIF images, for instance, always begin with the ASCII representation of either GIF87a or GIF89a , depending upon the standard to which they adhere. Awalnya, istilah ini digunakan untuk satu set spesifik 2 - byte pengenal pada awal file, tapi karena setiap urutan biner undecoded dapat dianggap sebagai angka, fitur dari format file yang unik membedakan dapat digunakan untuk identifikasi . GIF gambar, misalnya, selalu dimulai dengan ASCII representasi baik GIF87a atau GIF89a, tergantung pada standar yang mereka mengikuti. Many file types, most especially plain-text files, are harder to spot by this method. Banyak jenis file, terutama file teks biasa, lebih sulit untuk tempat dengan metode ini. HTML files, for example, might begin with the string (which is not case sensitive), or an appropriate document type definition that starts with string (yang tidak case sensitive), atau yang sesuai definisi tipe dokumen yang dimulai dengan
The magic number approach offers better guarantees that the format will be identified correctly, and can often determine more precise information about the file. Pendekatan angka ajaib menawarkan jaminan yang lebih baik bahwa format akan diidentifikasi dengan benar, dan seringkali dapat menentukan informasi yang lebih tepat tentang file. Since reasonably reliable "magic number" tests can be fairly complex, and each file must effectively be tested against every possibility in the magic database, this approach is relatively inefficient, especially for displaying large lists of files (in contrast, filename and metadata-based methods need check only one piece of data, and match it against a sorted index). Karena cukup handal "sihir nomor" tes dapat cukup kompleks, dan setiap file secara efektif harus diuji terhadap setiap kemungkinan dalam database sihir, pendekatan ini relatif tidak efisien, terutama untuk menampilkan daftar besar file (dalam kontras, nama file dan metadata berbasis metode perlu memeriksa hanya satu bagian dari data, dan pertandingan melawan indeks diurutkan). Also, data must be read from the file itself, increasing latency as opposed to metadata stored in the directory. Juga, data harus dibaca dari file itu sendiri, meningkatkan latency karena bertentangan dengan metadata yang disimpan dalam direktori. Where filetypes don't lend themselves to recognition in this way, the system must fall back to metadata. Dimana tipe file tidak meminjamkan diri untuk pengakuan dengan cara ini, sistem harus turun kembali ke metadata. It is, however, the best way for a program to check if a file it has been told to process is of the correct format: while the file's name or metadata may be altered independently of its content, failing a well-designed magic number test is a pretty sure sign that the file is either corrupt or of the wrong type. Akan tetapi, cara terbaik untuk program untuk memeriksa apakah file telah diberitahu untuk proses adalah format yang benar: sedangkan nama file atau metadata dapat diubah secara independen dari isinya, gagal dalam yang dirancang dengan baik tes angka ajaib adalah tanda yang cukup yakin bahwa file tersebut adalah salah korup atau dari tipe yang salah. On the other hand a valid magic number does not guarantee that the file is not corrupt or of a wrong type. Di sisi lain nomor ajaib yang valid tidak menjamin bahwa file tersebut tidak rusak atau tipe yang salah.
So-called shebang lines in script files are a special case of magic numbers. Jadi yang disebut shebang baris dalam file naskah adalah kasus khusus dari angka ajaib. Here, the magic number is human-readable text that identifies a specific command interpreter and options to be passed to the command interpreter. Di sini, angka ajaib adalah teks yang dapat dibaca manusia yang mengidentifikasi tertentu interpreter perintah dan opsi yang akan dilewatkan ke command interpreter.
Another operating system using magic numbers is AmigaOS , where magic numbers were called "Magic Cookies" and were adopted as a standard system to recognize executables in Hunk executable file format and also to let single programs, tools and utilities deal automatically with their saved data files, or any other kind of file types when saving and loading data. Sistem operasi lain yang menggunakan angka ajaib adalah AmigaOS , di mana nomor ajaib disebut "Magic Cookies" dan diadopsi sebagai suatu sistem standar untuk mengenali executable dalam Hunk format file eksekusi dan juga untuk membiarkan program tunggal, peralatan dan utilitas menangani data yang disimpan secara otomatis dengan file mereka , atau jenis lain dari jenis file saat menyimpan dan loading data. This system was then enhanced with the Amiga standard Datatype recognition system. Sistem ini kemudian disempurnakan dengan standar Amiga datatype sistem pengenalan. Another method was the FourCC method, originating in OSType on Macintosh, later adapted by Interchange File Format (IFF) and derivatives. Metode lain adalah FourCC metode, yang berasal dari OSTYPE di Macintosh, kemudian diadaptasi oleh Interchange File Format (IFF) dan turunannya.
[ edit ] External metadata [ sunting ] metadata Eksternal
A final way of storing the format of a file is to explicitly store information about the format in the file system, rather than within the file itself. Cara terakhir untuk menyimpan format file adalah untuk menyimpan informasi secara eksplisit tentang format dalam sistem file, daripada di dalam file itu sendiri.
This approach keeps the metadata separate from both the main data and the name, but is also less portable than either file extensions or "magic numbers", since the format has to be converted from filesystem to filesystem. Pendekatan ini membuat metadata yang terpisah dari kedua data utama dan nama, tetapi juga kurang portabel dari baik ekstensi file atau "nomor ajaib", karena format harus diubah dari sistem berkas ke sistem file. While this is also true to an extent with filename extensions — for instance, for compatibility with MS-DOS's three character limit — most forms of storage have a roughly equivalent definition of a file's data and name, but may have varying or no representation of further metadata. Meskipun hal ini juga berlaku apabila seorang dengan nama file ekstensi - misalnya, untuk kompatibilitas dengan MS-DOS tiga batas karakter - kebanyakan bentuk penyimpanan memiliki setara definisi kasar dari file data dan nama, tetapi mungkin memiliki berbagai atau tidak representasi lebih lanjut metadata.
Note that zip files or archive files solve the problem of handling metadata. Perhatikan bahwa zip file atau file arsip memecahkan masalah penanganan metadata. A utility program collects multiple files together along with metadata about each file and the folders/directories they came from all within one new file (eg a zip file with extension .zip). Sebuah program utilitas mengumpulkan beberapa file bersama-sama bersama dengan metadata tentang setiap file dan folder / direktori mereka datang dari semua dalam satu file baru (misalnya sebuah file zip dengan ekstensi zip.). The new file is also compressed and possibly encrypted, but now is transmissible as a single file across operating systems by FTP systems or attached to email. File baru ini juga dikompresi dan mungkin dienkripsi, tetapi sekarang dapat ditularkan sebagai sebuah file di sistem operasi oleh sistem FTP atau dilampirkan ke email. At the destination, it must be unzipped by a compatible utility to be useful, but the problems of transmission are solved this way. Di tempat tujuan, itu harus membuka ritsleting dengan utilitas yang kompatibel untuk menjadi berguna, tetapi masalah transmisi yang diselesaikan dengan cara ini.
[ edit ] Mac OS type-codes [ sunting ] Mac OS jenis-kode
The Mac OS ' Hierarchical File System stores codes for creator and type as part of the directory entry for each file. The Mac OS ' Hierarchical File System toko kode untuk pencipta dan jenis sebagai bagian dari direktori entri untuk setiap file. These codes are referred to as OSTypes , and for instance a HyperCard "stack" file has a creator of WILD (from Hypercard's previous name, "WildCard") and a type of STAK . Kode ini disebut sebagai OSTypes , dan misalnya sebuah HyperCard "stack" file memiliki pencipta LIAR (dari sebelumnya nama's HyperCard, "wildcard") dan jenis STAK. The type code specifies the format of the file, while the creator code specifies the default program to open it with when double-clicked by the user. Kode Jenis menentukan format file, sedangkan kode pencipta menentukan program default untuk membukanya dengan ketika ganda diklik oleh pengguna. For example, the user could have several text files all with the type code of TEXT , but which each open in a different program, due to having differing creator codes. RISC OS uses a similar system, consisting of a 12- bit number which can be looked up in a table of descriptions — eg the hexadecimal number FF5 is "aliased" to PoScript , representing a PostScript file. Sebagai contoh, pengguna dapat memiliki beberapa file teks semua dengan kode jenis TEKS, tetapi setiap terbuka di program yang berbeda, karena memiliki kode pencipta yang berbeda. RISC OS menggunakan sistem serupa, yang terdiri dari 12 - bit nomor yang dapat dicari di sebuah tabel deskripsi - misalnya FF5 angka heksadesimal adalah "alias" untuk PoScript, mewakili PostScript file.
[ edit ] Mac OS X Uniform Type Identifiers (UTIs) [ sunting ] Mac OS X Uniform Jenis Identifiers (UTI)
Main article: Uniform Type Identifier Artikel utama: Seragam Jenis Identifier
A Uniform Type Identifier (UTI) is a method used in Mac OS X for uniquely identifying "typed" classes of entity, such as file formats. Sebuah Uniform Jenis Identifier (ISK) adalah metode yang digunakan di Mac OS X untuk secara unik mengidentifikasi "mengetik" kelas entitas, seperti format file. It was developed by Apple as a replacement for OSType ( type & creator codes ). Ini dikembangkan oleh Apple sebagai pengganti OSTYPE ( tipe & kode pencipta ).
The UTI is a Core Foundation string , which uses a reverse-DNS string. The ISK adalah Core Yayasan string , yang menggunakan reverse-DNS string. Common or standard types use the public domain (eg public.png for a Portable Network Graphics image), while other domains can be used for third-party types (eg com.adobe.pdf for Portable Document Format ). atau standar umum jenis menggunakan domain publik (public.png misalnya untuk Portable Network Graphics image), sedangkan domain yang lain dapat digunakan untuk jenis pihak ketiga (misalnya com.adobe.pdf untuk Portable Document Format ). UTIs can be defined within a hierarchical structure, known as a conformance hierarchy. UTI dapat didefinisikan dalam struktur hirarki, yang dikenal sebagai hirarki kesesuaian. Thus, public.png conforms to a supertype of public.image , which itself conforms to a supertype of public.data . Dengan demikian, public.png sesuai dengan supertype dari public.image, yang itu sendiri sesuai dengan supertype dari public.data. A UTI can exist in multiple hierarchies, which provides great flexibility. Sebuah ISK bisa eksis dalam berbagai hierarki, yang memberikan fleksibilitas besar.
In addition to file formats, UTIs can also be used for other entities which can exist in OS X, including: Selain file format, ISK juga dapat digunakan untuk entitas lain yang bisa ada di OS X, termasuk:
* Pasteboard data Papan pengumuman data
* Folders (directories) Folder (direktori)
* Translatable types (as handled by the Translation Manager) Diterjemahkan jenis (seperti ditangani oleh Manajer Translation)
* Bundles Kumpulan
* Frameworks Kerangka Kerja
* Streaming data Streaming data
* Aliases and symlinks Alias dan symlink
[ edit ] OS/2 Extended Attributes [ sunting ] OS / 2 Extended Atribut
The HPFS , FAT12 and FAT16 (but not FAT32) filesystems allow the storage of "extended attributes" with files. The HPFS , FAT12 dan FAT16 (tetapi tidak FAT32) filesystem memungkinkan penyimpanan "atribut diperluas" dengan file. These comprise an arbitrary set of triplets with a name, a coded type for the value and a value, where the names are unique and values can be up to 64 KB long. Ini terdiri dari sebuah set sewenang-wenang kembar tiga dengan nama, tipe kode untuk nilai dan nilai, di mana nama-nama yang unik dan nilai bisa sampai 64 KB panjang. There are standardized meanings for certain types and names (under OS/2). Ada makna standar untuk jenis tertentu dan nama (di bawah OS / 2). One such is that the ".TYPE" extended attribute is used to determine the file type. Salah satunya adalah bahwa "TYPE." Atribut diperluas digunakan untuk menentukan jenis file. Its value comprises a list of one or more file types associated with the file, each of which is a string, such as "Plain Text" or "HTML document". Nilainya terdiri dari daftar satu atau lebih jenis file yang berhubungan dengan file tersebut, masing-masing adalah string, seperti "Plain Text" atau "dokumen HTML". Thus a file may have several types. Jadi file mungkin memiliki beberapa jenis.
The NTFS filesystem also allows to store OS/2 extended attributes, as one of file forks , but this feature is merely present to support the OS/2 subsystem (not present in XP), so the Win32 subsystem treats this information as an opaque block of data and does not use it. Para NTFS filesystem juga memungkinkan untuk menyimpan OS / 2 atribut diperluas, sebagai salah satu garpu file, namun fitur ini hanya hadir untuk mendukung OS / 2 subsistem (tidak hadir di XP), sehingga subsistem Win32 memperlakukan informasi ini sebagai sebuah blok buram data dan tidak menggunakannya. Instead, it relies on other file forks to store meta-information in Win32-specific formats. Sebaliknya, hal itu bergantung pada garpu file lain untuk menyimpan meta-informasi dalam format Win32-spesifik. OS/2 extended attributes can still be read and written by Win32 programs, but the data must be entirely parsed by applications. OS / 2 atribut diperluas masih dapat dibaca dan ditulis oleh program Win32, tetapi data harus seluruhnya diurai oleh aplikasi.
[ edit ] POSIX extended attributes [ sunting ] POSIX extended atribut
On Unix and Unix-like systems, the ext2 .m mC ext3 , ReiserFS version 3, XFS , JFS , FFS , and HFS+ filesystems allow the storage of extended attributes with files. Pada Unix dan Unix-seperti sistem, ext2 , ext3 , ReiserFS versi 3, XFS , JFS , FFS , dan HFS + filesystemungkinkan penyimpanan atribut diperluas dengan file. These include an arbitrary list of "name=value" strings, where the names are unique and a value can be accessed through its related name. Ini termasuk daftar sewenang-wenang dari "nama value =" string, di mana nama-nama yang unik dan nilai dapat diakses melalui nama terkait.
[ edit ] PRONOM Unique Identifiers (PUIDs) [ sunting ] PRONOM Unik Identifiers (PUIDs)
The PRONOM Persistent Unique Identifier (PUID) is an extensible scheme of persistent, unique and unambiguous identifiers for file formats, which has been developed by The National Archives of the UK as part of its PRONOM technical registry service. The Persistent PRONOM Unique Identifier (PUID) adalah skema extensible dari, unik dan tidak ambigu pengidentifikasi gigih untuk format file, yang telah dikembangkan oleh The Arsip Nasional Inggris sebagai bagian dari registri PRONOM teknis layanan. PUIDs can be expressed as Uniform Resource Identifiers using the info:pronom/ namespace. PUIDs dapat dinyatakan sebagai Uniform Resource Identifier menggunakan info: pronom / namespace. Although not yet widely used outside of UK government and some digital preservation programmes, the PUID scheme does provide greater granularity than most alternative schemes. Meskipun belum banyak digunakan di luar pemerintah Inggris dan beberapa preservasi digital program, skema PUID tidak menyediakan rincian lebih besar dari skema alternatif yang paling.
[ edit ] MIME types [ sunting ] Jenis MIME
MIME types are widely used in many Internet -related applications, and increasingly elsewhere, although their usage for on-disc type information is rare. MIME jenis yang banyak digunakan di banyak Internet terkait aplikasi-, dan semakin di tempat lain, walaupun penggunaannya untuk disk-jenis informasi ini jarang terjadi. These consist of a standardised system of identifiers (managed by IANA ) consisting of a type and a sub-type , separated by a slash — for instance, text/html or image/gif . Ini terdiri dari sistem standar pengenal (dikelola oleh IANA ) yang terdiri dari jenis dan sub-jenis, dipisahkan oleh garis miring -, text / html misalnya untuk atau image / gif. These were originally intended as a way of identifying what type of file was attached to an e-mail , independent of the source and target operating systems. Ini awalnya dimaksudkan sebagai suatu cara untuk mengidentifikasi jenis file yang dilampirkan ke e-mail , independen dari sumber dan sistem operasi target. MIME types identify files on BeOS , AmigaOS 4.0 and MorphOS , as well as store unique application signatures for application launching. Mengidentifikasi jenis MIME file pada BeOS , AmigaOS 4.0 dan MorphOS , serta menyimpan tanda tangan aplikasi unik untuk meluncurkan aplikasi. In AmigaOS and MorphOS the Mime type system works in parallel with Amiga specific Datatype system. Dalam AmigaOS dan MorphOS sistem tipe Mime bekerja secara paralel dengan Amiga spesifik datatype sistem.
There are problems with the MIME types though; several organisations and people have created their own MIME types without registering them properly with IANA, which makes the use of this standard awkward in some cases. Ada masalah dengan jenis MIME meskipun; beberapa organisasi dan orang-orang telah menciptakan jenis MIME sendiri tanpa mendaftar dengan benar dengan IANA, yang membuat penggunaan canggung ini standar dalam beberapa kasus.
[ edit ] File format identifiers (FFIDs) [ sunting ] Berkas pengidentifikasi Format (FFIDs)
File format identifiers is another, not widely used way to identify file formats according to their origin and their file category. Berkas pengidentifikasi format cara lain, tidak secara luas digunakan untuk mengidentifikasi format file sesuai dengan asal usul dan kategori file mereka. It was created for the Description Explorer suite of software. Ini diciptakan untuk suite Keterangan Explorer perangkat lunak. It is composed of several digits of the form NNNNNNNNN-XX-YYYYYYY . Hal ini terdiri dari beberapa digit bentuk NNNNNNNNN-XX-YYYYYYY. The first part indicates the organisation origin/maintainer (this number represents a value in a company/standards organisation database), the 2 following digits categorize the type of file in hexadecimal. Bagian pertama menunjukkan asal organisasi / maintainer (jumlah ini merupakan nilai dalam perusahaan / organisasi database standar), 2 digit berikut mengkategorikan jenis file dalam heksadesimal. The final part is composed of the usual file extension of the file or the international standard number of the file, padded left with zeros. Bagian akhir terdiri dari ekstensi file biasa dari file atau jumlah standar internasional file, bantalan kiri dengan nol. For example, the PNG file specification has the FFID of 000000001-31-0015948 where 31 indicates an image file, 0015948 is the standard number and 000000001 indicates the ISO Organisation. Misalnya, spesifikasi PNG memiliki FFID dari 000000001-31-0015948 mana 31 menunjukkan sebuah file gambar, 0015948 adalah nomor standar dan 000000001 menunjukkan Organisasi ISO.
[ edit ] File content based format identification [ sunting ] Format file identifikasi berbasis konten
Another but least popular way to identify the file format is to look at the file contents for distinguishable patterns among file types. Lain tapi setidaknya cara populer untuk mengidentifikasi format file adalah dengan melihat isi file untuk pola dibedakan antara jenis file. As we know, the file contents are sequence of bytes and a byte has 256 unique patterns (0~255). Seperti kita ketahui, isi file yang urutan byte dan byte memiliki 256 pola yang unik (0 ~ 255). Thus, counting the occurrence of byte patterns that is often referred as byte frequency distribution gives distinguishable patterns to identify file types. Dengan demikian, menghitung terjadinya pola byte yang sering disebut sebagai distribusi frekuensi byte memberikan pola dibedakan untuk mengidentifikasi jenis file. There are many content based file type identification schemes that use byte frequency distribution to build the representative models for file type and use any statistical and data mining techniques to identify file types [ 3 ] Ada banyak konten berbasis file skema identifikasi jenis yang menggunakan distribusi frekuensi byte untuk membangun model representatif untuk jenis file dan menggunakan teknik data mining dan statistik untuk mengidentifikasi jenis file [3]
[ edit ] File structure [ sunting ] Struktur File
There are several types of ways to structure data in a file. Ada beberapa jenis cara untuk struktur data dalam file. The most usual ones are described below. Yang paling biasa dijelaskan di bawah ini.
[ edit ] Unstructured formats (raw memory dumps) [ sunting ] format Unstructured (dump memori mentah)
Earlier file formats used raw data formats that consisted of directly dumping the memory images of one or more structures into the file. Sebelumnya format file yang digunakan format data mentah yang terdiri dari gambar langsung dumping memori struktur satu atau lebih ke dalam file.
This has several drawbacks. Ini memiliki beberapa kelemahan. Unless the memory images also have reserved spaces for future extensions, extending and improving this type of structured file is very difficult. Kecuali gambar memori juga telah memesan ruang untuk ekstensi masa depan, memperluas dan meningkatkan jenis file terstruktur sangat sulit. It also creates files that might be specific to one platform or programming language (for example a structure containing a Pascal string is not recognized as such in C ). Hal ini juga membuat file-file yang mungkin spesifik untuk satu platform atau bahasa pemrograman (misalnya suatu struktur yang berisi Pascal string tidak diakui sebagai tersebut dalam C ). On the other hand, developing tools for reading and writing these types of files is very simple. Di sisi lain, pengembangan alat untuk membaca dan menulis jenis file ini sangat sederhana.
The limitations of the unstructured formats led to the development of other types of file formats that could be easily extended and be backward compatible at the same time. Keterbatasan format terstruktur menyebabkan perkembangan jenis lain dari format file yang dapat dengan mudah diperpanjang dan kompatibel pada saat yang sama.
[ edit ] Chunk-based formats [ sunting ] berbasis format Chunk
Electronic Arts and Commodore - Amiga pioneered this file format in 1985, with their IFF ( Interchange File Format ) file format. Electronic Arts dan Commodore - Amiga merintis format file ini pada tahun 1985, dengan (IFF mereka Interchange File Format ) format file. In this kind of file structure, each piece of data is embedded in a container that contains a signature identifying the data, as well the length of the data (for binary encoded files). Dalam jenis struktur file, setiap bagian data tertanam dalam wadah yang berisi tanda tangan mengidentifikasi data, serta panjang data (untuk file biner dikodekan). This type of container is called a "chunk" . Jenis wadah ini disebut "potongan". The signature is usually called a chunk id, chunk identifier, or tag identifier. tanda tangan ini biasanya disebut id sepotong, chunk identifier, atau tag identifier.
With this type of file structure, tools that do not know certain chunk identifiers simply skip those that they do not understand. Dengan jenis struktur file, alat-alat yang tidak tahu pengidentifikasi chunk tertentu cukup abaikan orang-orang yang mereka tidak mengerti.
This concept has been taken again and again by RIFF (Microsoft-IBM equivalent of IFF), PNG , JPEG storage, DER ( Distinguished Encoding Rules ) encoded streams and files (which were originally described in CCITT X.409:1984 and therefore predate IFF), and Structured Data Exchange Format (SDXF) . Konsep ini telah diambil lagi dan lagi oleh RIFF (Microsoft-IBM setara IFF), PNG , JPEG penyimpanan, DER ( Distinguished Encoding Rules ) dikodekan stream dan file (yang pada awalnya digambarkan dalam CCITT X.409: 1984 dan karena itu mendahului IFF ), dan Terstruktur Format Data Exchange (SDXF) . Even XML can be considered a kind of chunk based format, since each data element is surrounded by tags which are akin to chunk identifiers. Bahkan XML bisa dianggap suatu bentuk berdasarkan format chunk, karena setiap elemen data yang dikelilingi oleh tag yang mirip dengan pengidentifikasi chunk.
[ edit ] Directory-based formats [ sunting ] berbasis format Direktori
This is another extensible format, that closely resembles a file system ( OLE Documents are actual filesystems), where the file is composed of 'directory entries' that contain the location of the data within the file itself as well as its signatures (and in certain cases its type). Ini adalah format lain diperluas, yang mirip file system ( OLE Dokumen beberapa filesystem yang sebenarnya), di mana file tersebut terdiri dari 'entri direktori' yang berisi lokasi data dalam file itu sendiri serta tanda tangan (dan dalam beberapa kasus jenisnya). Good examples of these types of file structures are disk images , OLE documents and TIFF images. Contoh yang baik dari jenis struktur file yang disk gambar , OLE dokumen dan TIFF gambar.
[ edit ] See also [ sunting ] Lihat pula
* Audio file format Format file audio
* Chemical file format Kimia format file
* Container format (digital) Container format (digital)
* Document file format Dokumen format file
* DROID file format identification utility DROID format file identifikasi utilitas
* File (command) , a file type identification utility File (perintah) , jenis file utilitas identifikasi
* File Formats, Transformation, and Migration (related wikiversity article) Format file, Transformasi, dan Migrasi (pasal Wikiversity terkait)
* FormatFactory , a free omni file format converter. FormatFactory , sebuah omni gratis file format converter.
* Future proofing Masa Depan pemeriksaan
* Graphics file format summary Graphics file format ringkasan
* List of archive formats Daftar format arsip
* Image file formats Format file gambar
* List of file formats Daftar format file
* List of free file formats Daftar format file gratis
* List of motion and gesture file formats Daftar file format gerakan dan gerak
* Magic number (programming) Magic nomor (pemrograman)
* List of file signatures , or "magic numbers" Daftar file tanda tangan , atau "angka ajaib"
* Object file Obyek file
* Open format Buka Format
* TrID , a freeware file type identification utility TrID , sebuah freeware jenis file utilitas identifikasi
* Windows file types Windows jenis file
Tidak ada komentar:
Posting Komentar