Lastuvka - The Sesiidae of Europe (2001)

Jacek Kalisiak

http://narod.ru/disk/5352970000/Lastuvk ... e.pdf.html

Post autor: **admin** » sobota, 31 stycznia 2009, 11:07

Dzieki.

Żeby pobrać trzeba wpisać cyfry w polu niżej i dopiero potem pobrać plik ...pdf.html 27,4MB.

Niestety, ludzie nie potrafią skanować... szkoda czasami ....Tablice są dość słabej jakości, a tekst tam jest niemożliwy do przeczytania.
Ponoć "Darowanemu koniowi się w zęby nie zagląda".

Problem lezy nie tyle w samym skanowaniu (zbyt mała rozdzielczość, brak balansu bieli) co w wyborze formatu do zapisu pliku.
Gdyby ktoś mial ochotę odwalić kawał dobrej roboty, to przypomnę, żeby tekst zapisywać do formatu BMP(jesli JPG to bez kompresji) wtedy można mysleć o przekształceniu obrazu tekstu w tekst (txt).
Trzeba tez popracowac nad balansem bieli i zapisywac w odpowiednio duzej rozdzielczosci (szczegolnie przy malym tekscie).

Natomiast obrazy właśnie do JPG, wtedy jest pełna gama odcieni.

W załącznikach te gorsze miejsca.

Malko · Post autor: **Malko** » sobota, 31 stycznia 2009, 11:28

Dzięki

Rafał Celadyn

Mam od kolegi

,"zrobioną" tą książkę tylko w jpg-ach(jakość good

),jak baza zacznie działać to wrzucę

.Pozdrowki Rafał.

Jacek Kalisiak

Lastuvka - The Sesiidae of Europe (2001)

Scanned PDF, bookmarks, faible quality, size 27.412 MB

Lastuvka, Z. & A. Lastuvka: The Sesiidae of Europe. (Lepidoptera). 2001
24 x 17 cm. 245 pages. 9 colour plates. More than 100 line drawings. Distribution map to all species. Bibliography. Hardback. Stenstrup (Apollo Books). ISBN 87-88757-52-8.
This is a strongly revised edition of the author's An illustrated Key to European Sesiidae, published in 1995. This book was printed in a very limited edition and was soon out of print.

Сообщение было отредактировано ramus - вчера, 20:03
==========
Taki był oryginalny komentarz osoby zamieszczającej tego pdf-a na rosyjskim forum. Książkę zawsze można sobie kupić, a i zdjęć Sessidae w necie pewnie jest dużo. Natomiast pozostała część książki, zawierająca istotne informacje jest dobrze czytelna. No i jest to drugie zrewidowane wydanie

Jacek Kalisiak

Pierwsze wydanie w lepszej rozdzielczości:

An Illustrated key to European Sesiidae (Lepidoptera) 1995
same tablice w większej rozdzielczości

Piotr Pawlikiewicz

Jacku a możesz wytłumaczyć jak pobrać z tego drugiego linku.

Jacku, skoros taki biegły w rosyjskich stronach to nie wiesz czy tam chodza jakieś rosyjskie klucze do ryjów ??

Post autor: **admin** » piątek, 6 lutego 2009, 10:06

Piotr Pawlikiewicz pisze:Jacku a możesz wytłumaczyć jak pobrać z tego drugiego linku.

Limit bezplatnych pobrań dla pliku zostal przekroczony. Mozna jednak pobrac ten plik, ale należy wspomóc autora strony swoimi działaniami:
Aby pobrac plik, wystarczy wejsc na stronę z linkami do stron a potem na jedną z tych stron i pobyć na niej ponad 30 sekund (taka forma zarabiania w internecie). Po tym czasie można znów zacząć pobierać plik klikając w kolejne odnosniki.

Jacek Kalisiak

Dzisiaj niestety nie miałem zupełnie czasu, ale Jacek chyba wszystko wyjaśnił.
Curculio podawałem na forum linki do forum, na którym są wrzucane publikacje.

http://molbiol.ru/forums/index.php?s=31 ... 56&st=1300
http://www.zin.ru/Animalia/Coleoptera/rus/news.htm

i jak mam czas to tam zaglądam

Wiem też, że wielu naszych kolegów ma spore zasoby, acz niechętnie się nimi dzieli. Często jest tak, ja to było ostatnio z kolegą Czechem, że "coś za coś". Może i słusznie, bo o dobrowolny rewanż bywa trudno

Co do ryjów to chodzą klucze do Dalekiego Wschodu i widziałem kilka innych (np. Azja Środkowa?).

Krzysiek Jonko

[Jacek Kurzawa napisał...]
Gdyby ktoś mial ochotę odwalić kawał dobrej roboty, to przypomnę, żeby tekst zapisywać do formatu BMP(jesli JPG to bez kompresji) wtedy można mysleć o przekształceniu obrazu tekstu w tekst (txt).
[koniec cytatu]

Absolutnie NIE POWINNO się używać obrazków BMP do tworzenia plików PDF! Na moje nieszczęście znam się na tym dość dobrze więc pozwolę sobie na małą korektę Jacka.
1) nie BMP tylko TIFF i to kompresowany. Wykorzystanie plików BMP spowoduje, że wynikowy plik PDF będzie niepotrzebnie duży. Pliki TIFF też są bezstratne ale dzięki BEZSTRATNEJ kompresji zajmują znacznie mniej miejsca.
2) Nie istnieje bezstratny format JPG choć przy minimalnej (~zerowej) kompresji utrata jakości jest niezauważalna.
3) tekst skanuje się OCR-em. Niestety zajmuje to trochę więcej czasu bo trzeba tekst przejrzeć w trakcie skanowania ale wynik jest rewelacyjny.

Swego czasu poskanowałem trochę literatury motylkowej w ten sposób i wiem, że to jest to, co tygryski lubią najbardziej. Moje pliki PDF są wielokrotnie mniejsze a wszystkie teksty są IDEALNE, nie ma mowy, że coś jest nieczytelne.
Zwracam jednak uwagę na to, że to nielegalna metoda pozyskiwania literatury. Jedyne MOJE/NASZE usprawiedliwienie to to, że tej literatury po prostu nie ma, a jeśli jest - kosztuje tak astronomiczne pieniądze, że mało kto może sobie na nią pozwolić.

Krzysztof, nie zrozumiałeś mnie, ale byc może wiecej osob tak też odebrało.
Pisalem o przygotowaniu pliku do OCR:
Gdyby ktoś mial ochotę odwalić kawał dobrej roboty, to przypomnę, żeby tekst (skanowany) zapisywać do formatu BMP (jesli JPG to bez kompresji) wtedy można mysleć o przekształceniu obrazu tekstu w tekst (txt).

Programy do OCR (do odzyskiwania tekstu z obrazu) takie jak ABBY FineReader czy Recognita wymagają (!), aby plik był BMP. Można więc skanować do bezstratnego jpga, jesli ktos bardzo chce, ale potem takiego jpg trzeba przekonwertowac na bmp. może byc też TIFF. Takie poskanowane teksty (pliki graficzne) otwieramy w FineReader i "odzyskujemy" tekst (.txt).

Jasne jest i o tym piszesz, ze do potrzeb pdfa zbudowanego na obrazkach skanujemy obrazy do malych objetosciowo plikow czyli albo jpg albo tiff.

Tak sie sklada, ze pierwszy skaner kupilem na potrzeby skanowania prac i ksiazek (zarobkowo, studenci potrzebowali miec cale książki w tekscie) wiec na OCR spedzilem setki godzin i zarobilem tez niemale pieniadze. Potem skanowalem owady.

Reasumując:
Najlepszy sposob na dobrego pdfa to rozbic artykul na skanowanie kartek tekstu i tablic. Tablice skanujemy do jak najlepszego formatu jpg lub tiff, a tekst do BMP-importujemy do programu OCR i uzyskujemy czysty tekst. potem skladamy z tego pdfa. Otrzymany plik bedzie wyszukiwal wyrazy i posiadal dobrej jakosc itablice.

Czy teraz dobrze?

PS. Zgadzam sie z pkt 1. pkt 2 i pkt 3. To wlasnie o tym pukncie 3 pisalem

sam tez zauważasz, ze "jest więcej roboty, ale wynik jest rewelacyjny." No i o to chodzi własnie! Zeby tak robić - dluzej, ale dobrze

Krzysiek Jonko

Fine Reader obsługuje zarówno TIFF jak i JPG, nie wiem skąd Ci się wziął ten BMP ;-D
Teraz jak zwykle jestem w delegacji - jak wrócę wrzucę tu jedną niewielką książeczkę zrobioną w ten sposób, żeby było wiadomo o czym mówimy

Pozdrawiam

Krzysiek Jonko pisze:wrócę wrzucę tu jedną niewielką książeczkę zrobioną w ten sposób, żeby było wiadomo o czym mówimy

No ja caly czas o skanowaniu do OCR

Wersja 7.0 FineReader rzeczywiscie juz posiada otwieranie plikow w jpg, ale stara wersja na ktorej kiedys pracowalem tego nie miala (to bylo w 2000 r.) Dlatego skanowalem do bmp. Potem skanowalem go GIF, pliki byly mniejsze a robótka szła dosc szybko.

Zamieszczam fragment skanu pliku dla potrzeb OCR: plik GIF, skanowanie w rozdzielczości 300 dpi.
Poniżej inny tekst zapisany do jpg. Powstałe wokół tekstu chmurki mogą uniemozliwić rozpoznanie tekstu albo spowodować wiele błedów i przekłamań w tekscie.

Jeszcze niżej - skanowana tablica - do jpg.

Wersja 7.0 FineReader rzeczywiscie juz posiada otwieranie plikow w jpg

Ja mam dosyć starą wersję FineReader 4.0, i ta już też obsługuje pliki jpg. Musiałeś mieć Jacku bardzo starą wersję tego programu. A swoją drogą poprawność odczytu w dużym stopniu zależy od stopnia kompresji. Czym większa kompresja, tym większe błędy.

To było bardzo dawno temu... OCR w 2000 i wcześniej... ja musiałem mieć wersję z lat 1997-99... wtedy skaner byl luksusem, a OCR było fantazją w którą nie wszyscy wierzyli.
Miałem dwa programy dobrze działające FineReader i Recognita. Jeden z nich w wersji działającej miał tylko polski język, drugi miał wiele języków. Byc może to Recognita wołała BPM... tak juz bylo, a potem zaprzestałem skanowania do OCR.

Zresztą cała dyskusja akurat nie o była tym tylko o dobrym skanowaniu tekstu. W powyzszym przykładzie z przeziernikami zrobiono dwa duze błedy na raz - tekst jest w jpg z duża kompresją która uniemozliwia odzyskanie tekstu. a tablice kolorowe w gif (tak mi to wygląda) ktory poszatkował przeziernika. Pewnie spowodowane było to potrzebą zrobienia tylko pdfa, jak najmniejszego pliku. I tak pomyślał Krzysztof.

Zwrócilem na to uwagę po to, by inni skanujący zwrócili uwagę na te aspekty, aby ich produkcje były lepsze.

Dorzucę do tej dyskusji moje trzy grosze.
Jaki jest sens robienia tekstu, kombinowania z formatami, przerabiania, konwertowania ?
Przy obecnym stanie informatyki i sprzętu skanuje się w maksymalnej rozdzielczości bezstratnie każdą kartkę i zapisuje na DVD albo na dysku i finał. Po co to przerabiać na tekst ? Pliki graficzne można wydrukować na kolorowej laserówce (obecnie niedrogie i popularne) i to wszystko.

Nieco innego wymiaru nabiera ta dyskusja jeśli skany mają być rozpowszechniane, wtedy trzeba iść na kompromis jakościowy, ale czy warto ? Zawsze można wysłać płytkę za 50 gr. i mieć najwyższą jakość. Niektóre książki mam w postaci zdjęć robionych aparatem cyfrowym, do bieżącego korzystania wystarcza.

Ja większość książek, które mam/dostaję/ściągam/skanuję od razu drukuję i binduję. To zapewnia pewien komfort korzystania, wolę wersje papierowe niż oglądanie ich na ekranie, zresztą wyświetlacze notebooków przekłamują nieco kolory, wydruki są bardziej realistyczne.

Jaki jest sens skanowania do OCR (odzyskiwania tekstu)? Prosty! Takie prace są przeszukiwalne wg zawartosci. Gdy szukam informacji na temat danego gatunku (rosliny, miejscowści etc) szukamw komputerze po katalogach, wyskakuja mi pliki (html, pdf, txt doc i inne) .... Te zapisane w pdfach z tekstem są, natomiast te graficzne pdfy są odporne i przez to o wiele mniej użyteczne. Takie pliki graficzne wolę oglądać przeglądarką grafiki ACDSee, jest o wiele bardziej uzyteczna.

Tak więc nawet sensowne jest przeskanowanie książki po to, by po procesie ocr mieć ją w wersji tekstowej. Dobrze się szuka informacji Wszystko zależy od tego, jaką metodę pracy przyjmiemy.

Coraz czesciej odczuwam, tak jak Ty, posiadania wersji papierowych. Dobrze się czyta.
I też zacząłem robić fotki aparatem - do szybkiego zarchiwizowania dokumentów wystarcza.

Lastuvka - The Sesiidae of Europe (2001)

Lastuvka - The Sesiidae of Europe (2001)

Zaloguj się • Zarejestruj się