december 16., 2010 – 11:38
6 / 3,789

Ez a kérdés rendszeresen felmerül és jó lenne, ha tisztán látnánk a kérdésben. Úgy érzem annyi badarság hangzik el a témában neves szakértőktől, hogy itt az ideje kicsit a tényeket is megnézni.

Milyen a zárt formátum? Az én véleményem az, hogy a zárt formátum az, aminek nem ismerjük a szerkezetét, nem reprodukálható és az adott fejlesztő cég egyedüli kiváltsága az ilyen formátumok előállítása. Egy rendszert még akkor tekinthetünk zártnak, ha ezen felül semmilyen API nem teszi lehetővé a vele történő kommunikációt a formátum előállítása kapcsán. Tehát nem feltétlenül a kell a formátumot ismerni, ha az egy fejlesztői felületen keresztül elérhető és a formátum előállítását lehetővé teszi. Lássuk be, azért ez elég speciális eset.

Milyen a nyílt formátum? A nyílt formátum az, amikor teljes mértékben megismerhető egy adott formátum specifikációja, implementációja problémamentesen megoldható és szabadon továbbfejleszthető, tehát nem köti semmilyen bejegyzett védjegy.

Vajon melyik csoportba tartozik a .doc formátum? Igazából egyikbe sem. Nem mondhatjuk zártnak, mert használható specifikációk érhetők el hozzá. Vajon az OpenOffice.org projekt, a Google Documents megoldása vagy a Nokia Symbianon lévő alkalmazások mind reverse enineeringgel dolgoztak? Nos, mondhatjuk azt, hogy igen is meg nem is.

Az OOo hőskorában bizony nem volt más választás, akkor még a formátum zárt volt. Sajnos a doc import/export nagy része még ekkor készült és a mai napig nyögjük ennek tökéletlenségét.

Nem hiszem, hogy az OOo hőskorában reverse engineeringgel dolgoztak volna. Az MS Office fájlformátumok specifikációja a közkeletű vélekedéssel ellentétben nem volt titok régen sem. Rajta volt az egyik MSDN CD-n (1997), fent volt a weben is egy darabig, 1999 után – miután a webről leszedték – pedig el lehetett kérni, és oda is adták. Érdekük volt, hogy MS Office-hoz kapcsolódó termékek szülessenek (sok program képes pl. bináris Excel formátumba menteni). A széles körű felhasználást a technikai nehézségeken túl talán a licenc gátolta. Valamint biztos hiányos volt az eredeti leírás, ha egyszer azóta is javítgatják…
Tímár András

Megjegyzem amúgy, hogy az rtf is ugyanúgy ide tartozik, először az ember azt gondolna, hogy ez valami “futottak meg” kategóriába tartózó dolog, de mivel a copy&paste a legtöbb alkalmazás között a mai napig rtf alapon megy, annyira nem is. És az rtf is úgy néz ki, hogy az egyszerűbb dolgok szövegesen vannak leírva, a bonyolultabbak (pl. matek képletek) egy az egyben úgy néznek ki mint doc-ba csak bináris helyett egy hexdump van helyette, hogy “szöveges” legyen. ezeket a részeket meg doc specko nélkül ugyanúgyugy csak reverse engineeringgel lehetett volna implementálni.
Vajna Miklós

Most a híres QA-ról ne is beszéljünk. A probléma az, hogy a specifikáció megjelenését követően nagy változások nem történtek a kódban, de valószínűleg ezt követően a specifikáció alapján dolgoznak, amelynek minőségéről lehet vitatkozni, de létezéséről nem.

Bizonyosan vannak minőségi problémák a közreadott anyagban, különben nem frissítenék kellő gyakorisággal. Abba most végképp nem szeretnék belemenni, hogy az aluldokumentáltság stratégia lenne a Microsoftnál. Ennek nyilván van alapja, vannak kiszivárogtatott e-mailek ennek kapcsán, de ezt majd a Wikileaks rendszerezi.

Nem teljesen ide tartozik és lehet, hogy már azóta DOCX/XLSX jobb lett, de ebben is vannak érdekes gondolatok
Hirschler András

Honnan ered a félreértés? Először is abból, hogy pár éve ez valóban zárt formátum volt, nem volt publikált és talán még a Microsoft berkein belül sem volt megfelelően dokumentált. Nem csoda, hogy később maguk sem tudtak megfelelő konverterekkel előállni két office verzió között. A Microsoft 2006 óta tartja fontosnak a fájlformátumainak megfelelő publikálását, de az igazi áttörés csak 2008. február 15-én történt, amikor olyan dokumentumokkal álltak elő, ami minőséginek tekinthetők és a doc, xls, ppt fájlformátumokat írják le.

Korábban nem volt érdeke ezt tenni, hiszen nem érezte magát fogva az alternatívák tömkelegétől. Ha továbbra is zárna és más eszközök, programok nem tudnák kezelni a formátumait, akkor saját magát közösítené ki abból a világból, ahol de-facto szabványt hozott létre. Valóban nem volt elegáns ez az üzleti magatartás, de nem a technikai emberek feladata, hogy bánkódjanak ezen a tényen.

A félreértés másik forrása a lokalizáció. Ez furcsán hangzik, de sajnos nem tudjuk lefordítani a proprietary szót. Főleg akkor nem, ha ezt valamilyen szoftverrel kapcsolatban kellene megtenni. Ezt általában hibásan zártként fordítják, annak ellenére, hogy célszerűbb lenne tulajdonosi, vagy néhány esetben szabadalommal védettként fordítani, de semmi esetre sem zártnak. Senki sem tekinti az mp3 formátumot zártnak, pedig proprietary, sőt inkább open proprietary.

Akkor most szeretjük a doc formátumot? A másik nagy probléma, hogy feketén vagy fehéren akarjuk tekinteni ezeket a dolgokat. El kell fogadnunk, hogy a doc egy elterjedt formátum, és ez nem a tetszés kérdése. El kell fogadnunk, hogy a dokumentumok nagy része ebben a formátumban létezik.

Most, hogy a specifikáció lehetővé teszi a pontosabb implementációt, itt az idő, hogy megtegyük ezt a felhasználókért. Az OOo (vagy LO) felhasználóknak nem a programmal van általában a problémájuk, hanem a dokumentumok konverziójával. Erre kell összpontosítani, mert ez a kulcsa az MSO > OOo/LO migrációknak.

Fontos azt is megjegyezni, hogy mindezek ellenére az ODF fájlformátumát tekinthetjük a jövő dokumentumformátumának, mert nem egy program számára készített specifikáció, hanem egy valódi dokumentumformátum-fejlesztés, amit különböző programokban megvalósítottak, így az OOo-ban is. Az OASIS valóban a Sn által tervezett XML formátumot vette alapul a specifikáció elkészítésében, de nem vette figyelembe annak aspektusait csak azért, hogy az megfeleljen az OpenOffice.org irodai programcsomagnak. Tehát az ODF nem az OOo/LO kizárólagos formátuma! Fontos megjegyezni, hogy a szövegszerkesztők ezt ugyanúgy importálják/exportálják saját belső struktúrájukra, csak a formátum történetéből adódóan sokkal jobban teszik ezt. Nagyon fontos, hogy a különböző fájlformátumokra tárolóként tekintsünk, hiszen a programok nem ebben dolgoznak, hanem a tárolókból importálnak, majd oda exportálnak.

Az elmúlt 3 napban több, durvának mondható hibát reprodukáltam és jelentettem be az OOo doc importere illetve exportere kapcsán és bátorítanék mindenkit, hogy ugyanezt tegye, mert lehetőség van a javításukra. Amennyiben reprodukálható a hiba és nem akar a bejelentéssel foglalkozni, kérem küldje el nekem és én foglalkozom vele.

A fenti anyagban igyekeztem tárgyilagos maradni és tényeket megfogalmazni. Ennek ellenére lehetnek benne hibák vagy pontatlanságok. Ezekkel kapcsolatos visszajelzéseket is szívesen veszem.

6 hozzászólás

  • HiA
    december 16., 2010 — 12:42 | Permalink

    Nem teljesen ide tartozik és lehet, hogy már azóta DOCX/XLSX jobb lett, de ebben is vannak érdekes gondolatok:
    http://www.joelonsoftware.com/items/2008/02/19.html

  • december 16., 2010 — 12:58 | Permalink

    oh igen, nagyon gondolkodtam, hogy ezt a linket belekavarjam az írásba, de féltem, hogy nagyon elviszi a szálat. megjegyzésként viszont teljesen jó hogy megemlítetted. Köszönöm.

  • december 16., 2010 — 14:13 | Permalink

    megjegyzem amugy, hogy az rtf is u.ugy ide tartozik, eloszor az ember azt gondolna, hogy ez valami “futottak meg” kategoriaba tartozo dolog, de mivel a copy&paste a legtobb alkalmazas kozott a mai napig rtf alapon megy, annyira nem is. es az rtf is ugy nez ki, hogy az egyszerubb dolgok szovegesen vannak leirva, a bonyolultabbak (pl matek kepletek) egy az egyben ugy neznek ki mint docba csak binaris helyett egy hexdump van helyette, hogy “szoveges” legyen. ezeket a reszeket meg doc specko nelkul u.ugy csak reverse engineeringgel lehetett volna implementalni.

  • siposa
    december 16., 2010 — 14:52 | Permalink

    Ez hasznos volt, köszi!

  • timar
    december 16., 2010 — 16:16 | Permalink

    Nem hiszem, hogy az OOo hőskorában reverse engineeringgel dolgoztak volna. Az MS Office fájlformátumok specifikációja a közkeletű vélekedéssel ellentétben nem volt titok régen sem. Rajta volt az egyik MSDN CD-n (1997), fent volt a weben is egy darabig, 1999 után – miután a webről leszedték – pedig el lehetett kérni, és oda is adták. Érdekük volt, hogy MS Office-hoz kapcsolódó termékek szülessenek (sok program képes pl. bináris Excel formátumba menteni). A széles körű felhasználást a technikai nehézségeken túl talán a licenc gátolta. Valamint biztos hiányos volt az eredeti leírás, ha egyszer azóta is javítgatják…
    Az Outlook PST formátuma tényleg titkos volt, arról tudom, hogy reverse engineeringgel lett megfejtve. Ma már azt is kiadták.

  • december 16., 2010 — 16:20 | Permalink

    Köszönöm, akkor ezek szerint ez is egyfajta fud volt.
    Hasznos hozzászólásokat kaptam, lassan javítom is a bejegyzést.

Hozzászólás

Az email címe soha nem jelenik meg máshol. A név és az emailcím megadása kötelező

*
*