Biuletyn Informacji Publicznej

WG 2012-6

Wikimedia Polska, polski partner Fundacji Wikimedia.
Przejdź do nawigacji Przejdź do wyszukiwania


Strona główna Złóż wniosek Regulamin Zasady refundacji Aktualne projekty Archiwum
Nazwa użytkownika Sp5uhe Status wykonany
Opis projektu Zeskanowanie i OCR 268 biografii z Encyklopedii Muzycznej PWM dla których otrzymaliśmy zgodę na wykorzystanie na zasadach licencji CC-BY-SA 3.0. Liczę na to, że po zamieszczeniu 268 artykułów otrzymamy zgodę dla następnych.
Uzasadnienie Otrzymałem od wydawcy materiały w formie tekstu, ale nie pokrywają się one z treścią na którą otrzymaliśmy zgodę. Jedynym sensownym rozwiązaniem jest OCR. Umożliwi to dodanie lub integrację z istniejącą treści 268 profesjonalnych, współczesnych artykułów biograficznych dotyczących osób związanych z muzyką. Prywatny skaner rozpadł mi się w czasie skanowania albumu, który kiedyś zamieszczałem na Commons. Pożyczyłem teraz skaner, ale skanowanie i OCR są to tak czasochłonne czynności, że niestety na pożyczonym urządzeniu jest to niewykonalne. Prywatnie skaner jest mi niepotrzebny, bo stare zdjęcia kiedyś wszystkie zeskanowałem, a sporadyczne potrzeby załatwiam aparatem cyfrowym. Jednak zrobienie kompaktem fotokopii i OCR kilkuset stron to chybiony pomysł.
Harmonogram realizacji projektu około 3 miesięcy
Kosztorys Skaner (najprawdopodobniej PLUSTEK OpticSlim 2600) za nie więcej niż 350 zł PLUSTEK OpticBook 3800 za 1010 zł Suma 1010 PLN
Rozliczono ? PLN
Na zebraniu w dniu 28 marca 2012 Komisja (w stosunku 3/0/1 [za/przeciw/wstrz.] przy nieobecności 1 członka Komisji) postanowiła przyznać dofinansowanie we wnioskowanej kwocie (tzn. do 350 zł) na zakup i przesyłkę skanera mającego służyć do zeskanowania i późniejszego OCR 268 biografii z Encyklopedii Muzycznej PWM, dla których otrzymaliśmy zgodę na wykorzystanie na zasadach licencji CC-BY-SA 3.0. Jednocześnie przypominamy, iż warunkiem niezbędnym do uzyskania refundacji jest uzyskanie faktury na dane Stowarzyszenia; więcej informacji na ten temat znajduje się na stronie z zasadami refundacji. Prosimy także o podanie pod decyzją Komisji linku do strony w przestrzeni nazw użytkownika na Wikipedii, na której będą na bieżąco raportowane postępy prac nad artykułami z dziedziny wymienionej we wniosku. Dziękujemy za zgłoszenie i życzymy owocnej pracy. W imieniu Komisji, Maire (dyskusja) 23:50, 28 mar 2012 (CEST)

Na zebraniu w dniu 11 kwietnia 2012 roku Komisja postanowiła wstrzymać się od decyzji w sprawie zwiększenia budżetu grantu z 350 zł do 1010 zł. Głównym powodem takiej decyzji, jest konieczność określenia przez grantobiorcę ram czasowych prac, oraz dokonanie oceny możliwości wykorzystania skanera po zakończeniu grantu. Nie zmienia to poprzedniej decyzji Komisji, którą przyznano już 350 zł na ten cel. Ostatecznie, Komisja jest przychylna zwiększyć budżet grantu, ale pod warunkiem, że skaner będzie wykorzystywany w sposób ciągły w przyszłości i jako ruchomy majątek Stowarzyszenia będzie służył każdemu chętnemu wolontariuszowi dowolnego polskojęzycznego projektu Wikimedia. Karol007 (dyskusja) 23:46, 11 kwi 2012 (CEST)


Na zebraniu w dniu 18 kwietnia 2012 Komisja postanowiła (w stosunku głosów 2/1/1 [za/przeciw/wstrz.]; 1 osoba nie wzięła udział w głosowaniu) przyznać dofinansowanie we wnioskowanej kwocie 1010 zł na zakup skanera PLUSTEK OpticBook 3800, do celów podanych we wniosku. Przypominamy, iż warunkiem niezbędnym do uzyskania refundacji jest uzyskanie faktury na dane Stowarzyszenia; więcej informacji na ten temat znajduje się na stronie z zasadami refundacji. Ponieważ skaner wejdzie na listę majątku Stowarzyszenia, po zakupie skanera zostanie przygotowanie i przedstawione Zarządowi zobowiązanie dotyczące użytkowania urządzenia. Prosimy też o przygotowanie strony z raportem na temat postępów prac. W imieniu Komisji, Rdrozd (dyskusja) 22:28, 18 kwi 2012 (CEST)

Sprawozdanie użytkownika ? Data zakończenia 13 stycznia 2014 Elfhelm (dyskusja) 19:50, 13 sty 2014 (CET)
Podsumowanie Komisji Wnioskodawca przedstawił sprawozdanie na tej stronie. W ramach grantu wykonawca projektu zeskanował i załadował na Commons 532 strony encyklopedii. Skany te zostały następnie wykorzystane w Wikiźródłach. Elfhelm (dyskusja) 19:50, 13 sty 2014 (CET)


Dyskusja i uwagi
  • Uwaga: Stowarzyszenie Wikimedia Polska posiada już dwa skanery (jeden fotograficzny wykorzystywany przez Lilly M, a drugi typowo źródłowy wykorzystywany przez Tommy'ego Jantarka); zamiast kupić kolejny skaner, proponowałbym po prostu przesłać mu otrzymane dokumenty i razem z nim popracować nad przygotowaniem projektu. odder (dyskusja) 15:40, 27 lut 2012 (CET)
Obecnie mamy 3 skanery, a nie dwa, bo w biurze w Łodzi jest jeszcze urządzenie wielofunkcyjne. Do zeskanowania z encyklopedii PWM jest 268 artykułów biograficznych. Każdy artykuł to skanowanie od jednej do kilkunastu stron. Zazwyczaj są to dwie strony. Wygląda na to, że mam do zeskanowania około 600 stron. Materiały do zeskanowania znajdują się w kilkunastu tomach. Wysyłka góry książek w obie strony będzie kosztowna. Skanowanie tego materiału zajmie mi około 3 miesięcy. Jeśli wyślę mu książki nie będę mógł uzupełniać informacji o źródle (autor artykułu, numer strony, tom). Wątpię czy Jantarek będzie miał ochotę skanować biogramy - każdy robi w Wikimediach to co chce - on zajmuje się raczej Wikiźródłami. W dodatku Jantarek jest aktywny. Nie wiem ile z tych materiałów jest skanowanych przez niego, a ile jest pobranych z Internetu, ale nie chcę zniechęcać go do dalszej pracy odbierając mu na kilka miesięcy skaner. Sp5uhe (dyskusja) 19:31, 27 lut 2012 (CET)

Ja mogę spróbować zeskanować hasła na A-H (mam 3 pierwsze tomy); problem w tym, że do 2 pierwszych wyszedł suplement. Do tego jest to mało skanowalne (za mały margines przy grzbiecie, dziś odbijałem sobie biogram z tomu na "M", nijak nie da się odczytać takstu nonparelem na krawędzi wewnętrznego łamu; trzeba by rozciąć blok). Picus viridis (dyskusja) 20:48, 29 lut 2012 (CET)

Jeden tom jest wart około 150 złotych, więc rozcinanie go jak dla mnie nie wchodzi w grę. Udaje mi się zeskanować treść również przy grzbiecie na tyle czytelnie, że skan przechodzi poprawnie OCR, ale wymaga to sporo zachodu i małpiej zręczności. Dlatego napisałem, że skanowanie zajmie mi zapewne 3 miesiące. Czasem skanowanie trzeba powtórzyć zwiększając rozdzielczość. Część biogramów z trzech pierwszych tomów i obu suplementów już zeskanowałem. Z pierwszych tomów został mi na pewno Chopin (100 stron). Najłatwiej książki skanuje się specjalnymi skanerami do książek, ale ich ceny zaczynają się od kilku tysięcy złotych. Jeśli potrzebujesz jakiś biogram mogę Ci podesłać mailem skan - mam komplet Encyklopedii PWM. Pożyczony skaner muszę oddać dopiero jutro. Sp5uhe (dyskusja) 22:22, 29 lut 2012 (CET)
Moim zdaniem, to powinna być jedna z tych sytuacji, w których warto rozważyć zlecenie tego skanowania na zewnątrz. Bo sytuacja wygląda tak, że dostaliśmy od PWM encyklopedię i prawo do jej przetwarzania, ale czy to ma oznaczać 3 miesiące pracy nad samym skanowaniem? Dzięki temu możnaby taki tekst opublikować w całości na Commons/Wikiźródłach i po obróbce w Wikipedii. Rdrozd (dyskusja) 23:09, 29 lut 2012 (CET)
Otrzymaliśmy na razie zgodę na 286 biogramów. Są wśród nich Bach i Chopin, ale te niecałe 300 biogramów to drobny ułamek całej encyklopedii PWM. Sp5uhe (dyskusja) 00:30, 1 mar 2012 (CET)
Ja mam pytanie, nazwijmy je, techniczne. Gdzie będą się znajdowały te biogramy - jak dla mnie oryginał winien znaleźć się na wikiźródłach (podobnie jak biogram z PSB), tak więc jest to sprawa wikiźródeł w pierwszym rzędzie. Wikipedia zyska na tym znacznie mniej (jedynie uzupelnienia do już istniejących haseł). Pozdrawiam. — Paelius (dyskusja) 22:19, 28 mar 2012 (CEST)
Wgrywanie biogramów z Encyklopedii Muzycznej PWM na Wikiźródła jest nietrywialne i wydaje mi się niepotrzebne. Zgoda dotyczy wyłącznie części biograficznej, bez zdjęć, spisu utworów, recenzji itp. Zgoda dotyczy więc fragmentów tekstu - trzeba wyciąć fragmenty stron i utworzyć grafiki zawierające odpowiednie fragmenty tekstu. Celem całej akcji jest wykorzystanie biogramów w Wikipedii, a nie prezentacja oryginalnego tekstu w projektach Wikimedia. Zacząłem dodawać biogramy przed rozwinięciem skrótów i wikizacją do Wikipedii licząc na to, że ktoś oprócz mnie będzie integrował, ale okazało się, że zainteresowania nie ma, a integrację musiałem robić sam. Zaprzestałem więc dodawania oryginalnych tekstów. Oczywiście nie ma przeciwwskazań, aby ktoś wgrał biogramy z Encyklopedii Muzycznej PWM na Wikiźródła. Jeśli chcesz możesz tym się zająć. Mogę Ci przesłać skany. PSB nie można wgrać na Wikiźródła, bo w większości biogramy z PSB to dzieła osierocone. Sp5uhe (dyskusja) 23:11, 28 mar 2012 (CEST)
Tak, nalegałbym o przesłanie. Wrzucanie na wikipedię i stracenie oryginalnego tekstu byłoby dużym błędem. — Paelius (dyskusja) 23:23, 28 mar 2012 (CEST). Co do PSB — [1]. — Paelius (dyskusja) 23:29, 28 mar 2012 (CEST)

Proszę komisję o podwyższenie kwoty na zakup i przesyłkę skanera do kwoty 1010 złotych, co umożliwi zakup skanera PLUSTEK OpticBook 3800
Uzasadnienie: Po przemyśleniu doszedłem do wniosku, że Paelius słusznie domagał się zamieszczenia oryginałów tekstów na wolnej licencji na Wikiźródłach. Specjalny skaner do skanowania książek umożliwi mi profesjonalne wykonanie skanów - bez zniekształceń. Sprawdziłem aktualne ceny takich skanerów. Okazało się, że nowy dedykowany skaner do książek można kupić razem z przesyłką za 1010 złotych. Skanery do książek poprawnie skanują w pobliżu wnętrza grzbietu nawet bardzo grube książki z twardymi okładkami. Zwykłym skanerem udaje się uzyskać od biedy akceptowalny dla OCR wynik, ale skan jest zawsze niedoskonały - przyciemnienie i zniekształcenie w pobliżu grzbietu jest nieuniknione. Do tego książki z grzbietem klejonym czasem łamią się w czasie tradycyjnego skanowania. Sp5uhe (dyskusja) 23:57, 2 kwi 2012 (CEST)

Dodatkowe wyjaśnienia. W ciągu około dwóch miesięcy zeskanuję i dodam resztę artykułów udostępnione przez PWM. Skany dodam na Commons. Gdy to zrobię poproszę wydawnictwo o zgodę na następne biogramy. Ponieważ nieformalnie PWM wykazywało zainteresowanie dalszym udostępnianiem - jestem dobrej myśli. Jednak w chwili obecnej trudno mi przewidzieć jak wiele biogramów jeszcze od nich pozyskam i czy w ogóle. Perspektywy są wieloletnie, bo wszystkich biogramów jest 9700, a udaje mi się przetworzyć nie więcej niż 100 miesięcznie. W podobnej sprawie zaczepiałem inne wydawnictwa i wykazywały zainteresowanie - szkoda, że jest małe zainteresowanie społeczności takimi treściami. Może wydać się to absurdalne, ale wydawnictwa często nie dysponują treścią książek. Są one składane przez zewnętrzne podmioty, które dokonują często daleko posuniętej korekty i weryfikacji (na przykład uzupełniają informacje o autorze, usuwają rozbieżności, sprzeczności, poprawiają daty). Najbezpieczniej jest wykonać skan. Od PWM dostałem treść encyklopedii, ale po porównaniu okazało się, że to zupełnie inna treść niż ta która ukazała się drukiem. Mam do zeskanowania kilkusetstronicowy album na który wygasły prawa autorskie i już kilka razy do niego robiłem podchody. Album specjalnie kupiłem, aby zdjęcia wgrać na Commons. Obecne zdjęcie Bieruta jest właśnie z tego albumu. Jestem również gotów skanować przesłane mi materiały, takie które posiadam lub dostępne w bibliotece, ale oczywiście pod warunkiem, że skanowaniem nie naruszę praw autorskich. Tym skanerem bardzo dobrze skanuje się albumy z reprodukcjami i jest to mój tajny plan awaryjny na jego wykorzystanie. Jedyną wadą tego skanera są jego spore rozmiary, duża waga i delikatność wynikająca z nietypowej konstrukcji. Dlatego wolałbym nie robić z niego mienia ruchomego. Nie zmienia to oczywiście faktu, że jako własność Stowarzyszenia pozostanie do jego dyspozycji. Sp5uhe (dyskusja) 00:34, 12 kwi 2012 (CEST)


Dziękuję za przyznany grant. Raport z postępu prac będę uzupełniał w Wikipedii sp5uhe 20:44, 23 kwi 2012 (CEST)